忍者ブログ
SEARCH
COUNTER
TWITTER
忍者ブログ / [PR]
正式名「あるかりがメモレベルで理解不能なことを書くブログ」
[186]  [185]  [184]  [183]  [182]  [181]  [180]  [179]  [178]  [177]  [176
No. [PR]
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

“なんとなく調査”の報告

個人的に(不要な言葉を削除したり)カスタマイズして使っている豚辞書で、
文字数について検索してみました。

A.全199,649語でその文字が使用される総数(上下10位)

1|ん(87,289) ぢ(  157)
2|う(75,200) ぺ( 1,098)
3|い(70,388) ぴ( 1,300)
4|し(49,324) ぬ( 1,686)
5|く(38,751) ぽ( 1,726)
6|か(37,550) づ( 1,736)
7|つ(34,645) ぱ( 2,929)
8|き(34,198) へ( 3,043)
9|よ(33,684) ぷ( 3,071)
A|り(26,315) ぜ( 3,104)

豚辞書の性質上、小さい「っ」「ゃ」「ゅ」「ょ」は大きくして数えます。
たとえば、「救急救命士」は「う」や「ゆ」を3個カウント。

「い」「う」「ん」がその下に2倍近くをつけて3強。圧倒的ですね。
下のほうは、絶望的なパ行を押さえて「ぢ」がぶっちぎり。


B.この文字を1文字目//2文字目//3文字目に使う言葉の数(上下10位)

1|し(13,997) ん(   0) // ん(27,231) ぢ(  34) // う(13,633) ぢ(  65)
2|か(12,192) ー(   0) // い(18,226) ぴ(  117) // し( 9,488) ぺ(  346)
3|こ( 8,934) づ(   5) // う(12,889) ぺ(  144) // ん( 8,294) ぬ(  405)
4|あ( 7,628) ぢ(   6) // つ(10,401) ぱ(  165) // い( 7,857) へ(  447)
5|き( 7,052) ず(  253) // よ( 8,798) ぽ(  188) // か( 6,713) ぴ(  458)
6|お( 6,866) ぺ(  349) // く( 7,469) ぷ(  205) // く( 6,290) ぽ(  636)
7|ぎ( 6,622) ぴ(  369) // ゆ( 6,585) へ(  218) // り( 5,621) づ(  712)
8|い( 6,485) ぽ(  374) // き( 5,026) づ(  236) // き( 5,442) ぜ(  789)
9|は( 5,604) ぬ(  391) // し( 4,939) ひ(  341) // じ( 5,270) べ(  866)
A|さ( 5,506) ぞ(  482) // り( 4,875) ぬ(  370) // つ( 4,820) ぷ(  901)

「ん」「ー」で始まる言葉は個人的に抹殺。そのため、1文字目でゼロ。
数字の上では、「しんう~~」という言葉が多いということになりますね。


C.この文字が1文字目//2文字目//3文字目で使われる頻度(上下10位)

1|ひ(49.75%) ん( 0.00%) // ゆ(32.74%) ひ( 4.24%) // ぢ(41.40%) ん( 9.50%)
2|ふ(49.41%) ー( 0.00%) // ん(31.20%) ぱ( 5.63%) // づ(41.01%) い(11.16%)
3|あ(49.08%) づ( 0.29%) // つ(30.02%) は( 6.29%) // ぽ(36.85%) よ(11.49%)
4|は(49.05%) ぢ( 3.82%) // ら(29.23%) ぷ( 6.68%) // ぞ(36.37%) ゆ(12.05%)
5|へ(44.10%) る( 4.47%) // る(26.13%) へ( 7.16%) // ぱ(36.02%) へ(12.73%)
6|お(41.20%) う( 4.71%) // よ(26.12%) せ( 7.75%) // ぴ(35.23%) お(13.19%)
7|ほ(40.89%) ず( 5.23%) // い(25.89%) ふ( 7.88%) // ぺ(31.51%) つ(13.91%)
8|こ(36.27%) つ( 6.90%) // ろ(24.25%) あ( 8.00%) // ざ(29.63%) る(14.40%)
9|で(33.13%) よ( 6.93%) // ー(24.09%) ぴ( 9.00%) // ぷ(29.34%) は(14.51%)
A|さ(32.78%) い( 9.21%) // ず(23.77%) ご( 9.49%) // の(29.19%) ふ(14.69%)

(B)÷全199649語。
ハ行は、ほぼ5割の確率で語頭に来る。
ほぼ使われない「ぢ」「づ」は、ほぼ4割の確率で3文字目に来る。
かわりに「い」「ん」は3文字目にはあまりこない。


D.わかったこと
疲れた。
頻度は1文字目、2文字目、3文字目それぞれに個性のある結果が出た。


私の記憶が正しければ、このデータを使って
「クロスワードで黒マス連続を許可すると言葉組みが結構大変だよ」
「近未来配置のクロスワードについて」
とかの方に話を持っていきたかったような気がする。

しかし、浅い話のクセに特にまとまってもいないし、
特段、これ以上続けるモチベーションも気力も発生できなかったので
オチもなく終了してみよう。
PR
Name
Title
Color
Mail
Web
Message
Pass   Vodafone絵文字 i-mode絵文字 Ezweb絵文字
では By まいなすよん
2010/01/28(Thu) 01:43
EDIT
モチベーションや気力はどうやったら上がるんですか!
今度お会いした時に肩でも揉みましょうか!
オチを! ぜひともオチをっ!!

というのは冗談として。

豚辞書のカズタマイズはしたいしたいと思いつつできてないのですが、作者のぶたさん(敬称込)も、豚辞書が各々の人の手でどう成長していくか見てみたい、という思いも込めて作られたんでしょう、予想ですけど。
でした By あるかり
2010/02/12(Fri) 02:49
EDIT
お会いした時に、肩揉みの方は丁重にお断りさせていただきましたw

豚辞書は、
フォーチュンクエストのクエスト屋の名前とか、
じゃじゃ馬グルーミンUPの4姉妹全員の名前とか、
小さい発見をすると苦笑してしまいますね。

今、私は、豚辞書のフォルダに「4字熟語」とか
「88星座」とか別ファイルで作って、
秀丸のGREPで活用したりしております。
Trackback URL:
03
・・
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
・・
05