mkkanwa の辞書登録における問題点(2)2007年09月26日 00時49分29秒

KAKASI 2.3.4 に付属の辞書 kakasidict には重複する単語が多く含まれています。 mkkanwa でバイナリ辞書 kanwadict に変換する際に、これらの重複単語は省かれるものだと思っていましたが、どうやらそうではないようです。

そこで登録される単語数と、ユニークな単語数について調べてみると、

121,787 登録される単語数
119,865 ユニークな単語数

となり、1,922 重複する単語が登録されていることがわかりました。 例えば、以下のものが重複する単語です。

おだじま 小田嶋
うさぎ 兎
はちゅうるい 爬虫類
えいせい 衛星

このうち、「爬虫類」は異体語の「爬蟲類」との重複です。 (異体語については、itaijidict に依存するので、kakasidict に重複して登録されているのは仕方ないかもしれません。)

約1%程度ですので、それほど性能に影響はでないとは思いますが、重複するエントリは無駄以外の何者でもありません。

単語の重複がない kakasidict を用意して kanwadict を作るのもよいですが、やはり、mkkanwa で辞書作成時に重複を省くのが良いでしょう。 (src/dict.c の add_item のところに重複チェックを加えれば良いようです。)

コメント

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://namazu.asablo.jp/blog/2007/09/26/1821259/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。