ひらがなの使用頻度
2007-05-28


新聞記事から抽出すると

エキサイトのコネタで「「あいうえおかきくけこ……」一番使われているひらがなはどれ? | エキサイトニュース」なんてのを見かけた。

ある土曜日の新聞から10の記事を選び、全てひらがなでワープロ入力。 という条件でひらがなの文字としての使用頻度を調べたらしい。 で、トップ10が「い、ん、か、し、う、た、と、つ、て、の」らしい。

ご自分の日記から抽出すると

コネタのは手で入力しての計測なのでサンプリング数が適切かわからんけど「なるほど〜」と感心するも、似たようなことをしているひとがいるのではと思い検索したところ、「漢直ノート ひらがな1-gram表」というところを見つけた。

こちらは漢直という入力方法の練習日記などを綴っておられるブログのようだが、ご自分の日記など一年分からのサンプリングで集計されていた。その結果から、句読点を覗いた上位10は「い、ん、う、か、し、な、と、た、っ、の」となっていた。

比較したら

こんな感じ。

コネタ
漢直ノート
なるほど、なんとなく似たような傾向になるものだ。

ただ、「っ」(促音)と「つ」を合わせると「漢直」側では3位まであがってくるし、コネタ側は「濁点、半濁点は無視」というのがカウントしていないのか清音と同じと見なしてカウントしているのかがあいまいだったりするのが残念だが、まあ元文章の性質の違いやらサンプリング数の違いはあるのでよしとしよう(なにがだ)。

おまけ

漢直ノートさんは他にも

なんてエントリもあげておられるので、興味のある方は参考にしてみてはいかが。
[雑記]
[リンク]

コメント(全0件)
コメントをする


記事を書く
powered by ASAHIネット