KAKASI, ChaSen, MeCab の異体字の扱い ― 2006年04月10日 22時19分49秒
KAKASI には異体字辞書 itaijidict があるので、辞書にある異体字の違いは吸収されます。
例えば kakasidict には「国語」は登録されていますが、「國語」は登録されていません。しかし、itaijidict で 「國」と「国」が関係付けられているため、
$ echo 國語 | kakasi -JH
こくご
と異体字を用いた単語であっても、認識します。
ChaSen/MeCab を調べてみると、ChaSen では
$ echo 国語 | chasen
国語 コクゴ 国語 名詞-一般
EOS
$ echo 國語 | chasen
國 クニ 國 名詞-一般
語 ゴ 語 名詞-接尾-一般
EOS
となり、単語として認識していません。
MeCab では
$ echo 国語 | mecab
国語 名詞,一般,*,*,*,*,国語,コクゴ,コクゴ
EOS
$ echo 國語 | mecab
國 名詞,一般,*,*,*,*,國,クニ,クニ
語 名詞,接尾,一般,*,*,*,語,ゴ,ゴ
EOS
となり、こちらも単語として認識していません。
ChaSen/MeCab では異体字の単語を登録しておかなければならないということでしょうか。
ところで、Namazu は異体字を特別扱いしていないので、"国語" で "國語" が見つかることはありません。
そういうモードがあると良いかもしれません。(旧字の文献を検索する場合等には)
例えば kakasidict には「国語」は登録されていますが、「國語」は登録されていません。しかし、itaijidict で 「國」と「国」が関係付けられているため、
$ echo 國語 | kakasi -JH
こくご
と異体字を用いた単語であっても、認識します。
ChaSen/MeCab を調べてみると、ChaSen では
$ echo 国語 | chasen
国語 コクゴ 国語 名詞-一般
EOS
$ echo 國語 | chasen
國 クニ 國 名詞-一般
語 ゴ 語 名詞-接尾-一般
EOS
となり、単語として認識していません。
MeCab では
$ echo 国語 | mecab
国語 名詞,一般,*,*,*,*,国語,コクゴ,コクゴ
EOS
$ echo 國語 | mecab
國 名詞,一般,*,*,*,*,國,クニ,クニ
語 名詞,接尾,一般,*,*,*,語,ゴ,ゴ
EOS
となり、こちらも単語として認識していません。
ChaSen/MeCab では異体字の単語を登録しておかなければならないということでしょうか。
ところで、Namazu は異体字を特別扱いしていないので、"国語" で "國語" が見つかることはありません。
そういうモードがあると良いかもしれません。(旧字の文献を検索する場合等には)
コメント
トラックバック
このエントリのトラックバックURL: http://namazu.asablo.jp/blog/2006/04/10/322901/tb
※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。
コメントをどうぞ
※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。
※なお、送られたコメントはブログの管理者が確認するまで公開されません。