mkkanwa の辞書登録における問題点(2) ― 2007年09月26日 00時49分29秒
KAKASI 2.3.4 に付属の辞書 kakasidict には重複する単語が多く含まれています。 mkkanwa でバイナリ辞書 kanwadict に変換する際に、これらの重複単語は省かれるものだと思っていましたが、どうやらそうではないようです。
そこで登録される単語数と、ユニークな単語数について調べてみると、
121,787 登録される単語数 119,865 ユニークな単語数
となり、1,922 重複する単語が登録されていることがわかりました。 例えば、以下のものが重複する単語です。
おだじま 小田嶋 うさぎ 兎 はちゅうるい 爬虫類 えいせい 衛星
このうち、「爬虫類」は異体語の「爬蟲類」との重複です。 (異体語については、itaijidict に依存するので、kakasidict に重複して登録されているのは仕方ないかもしれません。)
約1%程度ですので、それほど性能に影響はでないとは思いますが、重複するエントリは無駄以外の何者でもありません。
単語の重複がない kakasidict を用意して kanwadict を作るのもよいですが、やはり、mkkanwa で辞書作成時に重複を省くのが良いでしょう。 (src/dict.c の add_item のところに重複チェックを加えれば良いようです。)
最近のコメント