mkkanwa の辞書登録における問題点(2)2007年09月26日 00時49分29秒

KAKASI 2.3.4 に付属の辞書 kakasidict には重複する単語が多く含まれています。 mkkanwa でバイナリ辞書 kanwadict に変換する際に、これらの重複単語は省かれるものだと思っていましたが、どうやらそうではないようです。

そこで登録される単語数と、ユニークな単語数について調べてみると、

121,787 登録される単語数
119,865 ユニークな単語数

となり、1,922 重複する単語が登録されていることがわかりました。 例えば、以下のものが重複する単語です。

おだじま 小田嶋
うさぎ 兎
はちゅうるい 爬虫類
えいせい 衛星

このうち、「爬虫類」は異体語の「爬蟲類」との重複です。 (異体語については、itaijidict に依存するので、kakasidict に重複して登録されているのは仕方ないかもしれません。)

約1%程度ですので、それほど性能に影響はでないとは思いますが、重複するエントリは無駄以外の何者でもありません。

単語の重複がない kakasidict を用意して kanwadict を作るのもよいですが、やはり、mkkanwa で辞書作成時に重複を省くのが良いでしょう。 (src/dict.c の add_item のところに重複チェックを加えれば良いようです。)