r-dic 2.22 を KAKASI で使う2007年10月12日 02時28分46秒

doc/JISYO には KAKASI で使用可能な辞書が紹介されています。 その中のひとつが r-dic です。

4. r-dic v 2.0.0
   鉄道に関する様々な名称などを含んだデータや用語を収録

   以下の辞書が使用できます。

   corp     : 会社名データ      ( 2241 項目)
   line     : 線名データ        ( 1250 項目)
   station  : 駅名データ        (12354 項目)
   car      : 車輛名データ      (  236 項目)
   train    : 列車名データ      ( 1152 項目)
   gengyou  : 現業機関データ    ( 1019 項目)
   other    : 関連用語集データ  ( 3667 項目) 

   なお type と lunch は使用できません。

現在、r-dic は http://www.vector.co.jp/soft/data/writing/se001883.html から入手できるようです。

Ver. 2.00 と Ver. 2.22 のバイナリパッチです。 (バイナリパッチを当てるには bupdate.exe が必要になります。)

doc/JISYO で紹介されているものより新しい r-dic 2.22 が入手可能ですが、2.22 は 1992 年に作成されているので、もう15年前のものです。データはかなり古いでしょう。

ところで、r-dic を KAKASI 用の辞書(ソース)に変換するには、rdic-conv を使います。 この rdic-conv は辞書の中身が JIS コードを前提に作られています。 上記の r-dic は 2.00, 2.22 共に Shift_JIS コードでした。 (JUNET に流れた時の r-dic は JIS コードだったのかもしれません。そのため rdic-conv の入力は JIS だと仮定しているのでしょう。)

上記の r-dic 2.00, 2.22 はいずれも

改行コードは UNIX改行(LF)
漢字コードは Shift_JIS

です。

そのため、この r-dic は、このままでは rdic-conv で KAKASI 用辞書に変換できません。 辞書の漢字コードを変換して rdic-conv で読めるようにすることもできますが、atoc-conv には Shift_JIS ルーチンがありますので、これを rdic-conv で使うように改造してみました。

改造した rdic-conv で変換した結果、doc/JISYO の内容と異なりますが、 各データのうち KAKASI 辞書形式に変換できた項目数は次のようになりました。

                                    2.00          2.22
corp     : 会社名データ      ( 1668 項目)  ( 1668 項目)
line     : 線名データ        ( 1194 項目)  ( 1205 項目)
station  : 駅名データ        (12135 項目)  (12276 項目)
car      : 車輛名データ      (   52 項目)  (   52 項目)
train    : 列車名データ      (  422 項目)  (  422 項目)
gengyou  : 現業機関データ    (  479 項目)  (  479 項目)
other    : 関連用語集データ  ( 2331 項目)  ( 2308 項目)

※ このうち mkkanwa で変換すると変換できない項目もあると思いますので、 実際にはもっと少なくなるものと思います。

コメント

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://namazu.asablo.jp/blog/2007/10/12/1849356/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。

_ ナマズのブログ - 2007年10月15日 00時03分26秒

r-dic 2.22 を実際に mkkanwa でバイナリ辞書に変換できた項目数は以下のようになりました。

予想通り、重複項目や、ひらがな/カタカナで始まる単語があったため、全ての項目は登録でき