kakasidict に含まれない7文字のJIS第2水準漢字2006年04月15日 01時56分22秒

kakasi は、先頭の漢字1文字をキーとした配列をもっていて、そこに含まれる単語のうちもっとも長い物をマッチさせるという設計です。

 http://www.namazu.org/pipermail/kakasi-dev/2005-March/000020.html

このため、漢字の単語の先頭文字が辞書に含まれていなければなりません。 JISX0208-1990 にJIS第1水準漢字、JIS第2水準漢字はそれぞれ2,965文字、3,390文字、合計6,355文字ありますが、このうち kakasidict に含まれる漢字1文字のものは 6,348文字でした。

 匕  0xd2b8
 楝  0xdcc2
 苹  0xe7f9
 萍  0xe8cc
 薜  0xe9b0
 裲  0xeaec
 鶇  0xf3a9

これら7文字(JIS第2水準漢字)は kakasidict に含まれていません。このためこの文字で始まる単語は認識されません。 kakasidict には以下の単語が登録されていますが、これは登録されていないのに等しいわけです。

 あいくち 匕首
 ひしゅ 匕首
 うちかけ 裲襠

例えば、

 $ echo 匕首 | kakasi -w
 匕 首

となり、認識できていないことがわかります。 上記 7 文字は追加しておきたいですね。 辞書に登録するために IME で読みを調らべてみると、以下の読みが見つかりました。

 ひ さじ 匕
 れん おうち 楝
 へい びょう 苹
 へい びょう うきくさ 萍
 へい ばい 薜
 りょう ろう うちかけ 裲
 つう とう つぐみ 鶇

なお、これはいずれも Chasen/MeCab では認識されませんでした。ipadic に含まれていないからでしょう。

コメント

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://namazu.asablo.jp/blog/2006/04/15/327749/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。

_ ナマズのブログ - 2006年04月15日 03時34分59秒

kakasidict に含まれない7文字のJIS第2水準漢字を追加した私家版 kanwadict を公開しました。

http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/