Re: r-dic 2.22 を KAKASI で使う2007年10月15日 00時00分29秒

r-dic 2.22 を実際に mkkanwa でバイナリ辞書に変換できた項目数は以下のようになりました。

予想通り、重複項目や、ひらがな/カタカナで始まる単語があったため、全ての項目は登録できませんでした。

                                      2.22
corp     : 会社名データ      ( 1562 項目)
line     : 線名データ        (  916 項目)
station  : 駅名データ        ( 9541 項目)
car      : 車輛名データ      (   32 項目)
train    : 列車名データ      (  299 項目)
gengyou  : 現業機関データ    (  469 項目)
other    : 関連用語集データ  ( 2173 項目)

これは KAKASI:src/conv-util.c の includekanji で漢字を含む単語を出力するのに対し、mkkanwa(KAKASI) は漢字で始まる単語を登録するためです。

atoc_conv, rdic_conv, wx2_conv のいずれも KAKASI 用の辞書に変換するというよりはより汎用性のある辞書に変換するツールととらえた方が良いようです。

コメント

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://namazu.asablo.jp/blog/2007/10/14/1853276/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。