kakasidict に含まれない7文字のJIS第2水準漢字2006年04月15日 01時56分22秒

kakasi は、先頭の漢字1文字をキーとした配列をもっていて、そこに含まれる単語のうちもっとも長い物をマッチさせるという設計です。

 http://www.namazu.org/pipermail/kakasi-dev/2005-March/000020.html

このため、漢字の単語の先頭文字が辞書に含まれていなければなりません。 JISX0208-1990 にJIS第1水準漢字、JIS第2水準漢字はそれぞれ2,965文字、3,390文字、合計6,355文字ありますが、このうち kakasidict に含まれる漢字1文字のものは 6,348文字でした。

 匕  0xd2b8
 楝  0xdcc2
 苹  0xe7f9
 萍  0xe8cc
 薜  0xe9b0
 裲  0xeaec
 鶇  0xf3a9

これら7文字(JIS第2水準漢字)は kakasidict に含まれていません。このためこの文字で始まる単語は認識されません。 kakasidict には以下の単語が登録されていますが、これは登録されていないのに等しいわけです。

 あいくち 匕首
 ひしゅ 匕首
 うちかけ 裲襠

例えば、

 $ echo 匕首 | kakasi -w
 匕 首

となり、認識できていないことがわかります。 上記 7 文字は追加しておきたいですね。 辞書に登録するために IME で読みを調らべてみると、以下の読みが見つかりました。

 ひ さじ 匕
 れん おうち 楝
 へい びょう 苹
 へい びょう うきくさ 萍
 へい ばい 薜
 りょう ろう うちかけ 裲
 つう とう つぐみ 鶇

なお、これはいずれも Chasen/MeCab では認識されませんでした。ipadic に含まれていないからでしょう。

kanwadict-20060415.tar.gz 公開2006年04月15日 03時27分17秒

kakasidict に含まれない7文字のJIS第2水準漢字を追加した私家版 kanwadict を公開しました。

 http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/