r-dic 2.22 を KAKASI で使う ― 2007年10月12日 02時28分46秒
doc/JISYO には KAKASI で使用可能な辞書が紹介されています。 その中のひとつが r-dic です。
4. r-dic v 2.0.0 鉄道に関する様々な名称などを含んだデータや用語を収録 以下の辞書が使用できます。 corp : 会社名データ ( 2241 項目) line : 線名データ ( 1250 項目) station : 駅名データ (12354 項目) car : 車輛名データ ( 236 項目) train : 列車名データ ( 1152 項目) gengyou : 現業機関データ ( 1019 項目) other : 関連用語集データ ( 3667 項目) なお type と lunch は使用できません。
現在、r-dic は http://www.vector.co.jp/soft/data/writing/se001883.html から入手できるようです。
Ver. 2.00 と Ver. 2.22 のバイナリパッチです。 (バイナリパッチを当てるには bupdate.exe が必要になります。)
doc/JISYO で紹介されているものより新しい r-dic 2.22 が入手可能ですが、2.22 は 1992 年に作成されているので、もう15年前のものです。データはかなり古いでしょう。
ところで、r-dic を KAKASI 用の辞書(ソース)に変換するには、rdic-conv を使います。 この rdic-conv は辞書の中身が JIS コードを前提に作られています。 上記の r-dic は 2.00, 2.22 共に Shift_JIS コードでした。 (JUNET に流れた時の r-dic は JIS コードだったのかもしれません。そのため rdic-conv の入力は JIS だと仮定しているのでしょう。)
上記の r-dic 2.00, 2.22 はいずれも
改行コードは UNIX改行(LF) 漢字コードは Shift_JIS
です。
そのため、この r-dic は、このままでは rdic-conv で KAKASI 用辞書に変換できません。 辞書の漢字コードを変換して rdic-conv で読めるようにすることもできますが、atoc-conv には Shift_JIS ルーチンがありますので、これを rdic-conv で使うように改造してみました。
改造した rdic-conv で変換した結果、doc/JISYO の内容と異なりますが、 各データのうち KAKASI 辞書形式に変換できた項目数は次のようになりました。
2.00 2.22 corp : 会社名データ ( 1668 項目) ( 1668 項目) line : 線名データ ( 1194 項目) ( 1205 項目) station : 駅名データ (12135 項目) (12276 項目) car : 車輛名データ ( 52 項目) ( 52 項目) train : 列車名データ ( 422 項目) ( 422 項目) gengyou : 現業機関データ ( 479 項目) ( 479 項目) other : 関連用語集データ ( 2331 項目) ( 2308 項目)
※ このうち mkkanwa で変換すると変換できない項目もあると思いますので、 実際にはもっと少なくなるものと思います。
最近のコメント