緊急地震速報のリアルタイム受信機「デジタルなまず」 ― 2007年10月01日 06時40分38秒
鐚一文 ― 2007年10月02日 03時38分32秒
鐚一文は、「びたいちもん」と読みます。
$ echo 鐚一文 | kakasi -JH -p びた{いちぶん|かずふみ}
$ echo 鐚一文 | mecab -N4 鐚 名詞,一般,*,*,*,*,* 一 名詞,数,*,*,*,*,一,イチ,イチ 文 名詞,接尾,助数詞,*,*,*,文,ブン,ブン EOS 鐚 名詞,一般,*,*,*,*,* 一 名詞,数,*,*,*,*,一,イチ,イチ 文 名詞,接尾,助数詞,*,*,*,文,モン,モン EOS 鐚 名詞,一般,*,*,*,*,* 一文 名詞,一般,*,*,*,*,一文,イチブン,イチブン EOS 鐚 名詞,固有名詞,組織,*,*,*,* 一文 名詞,一般,*,*,*,*,一文,イチブン,イチブン EOS
$ echo 鐚一文 | chasen 鐚 未知語 一文 イチブン 一文 名詞-一般 EOS
と、みなさん読めません。
意外にかわいい!? 地域限定(西)なまずキューピー ― 2007年10月04日 10時35分19秒
アサブロ検索、インデックスが更新されない不具合を修正 ― 2007年10月05日 01時15分20秒
アサブロ検索では、別のマシンでインデックスを作成し、検索用レンタルサーバにインデックスをコピーして使っています。 つまり、インデクサと検索用CGIは別のマシンを使っています。
このように分けているのは、検索用サーバに高負荷がかからないように、インデックスの作成を別のマシンで行っているのです。
ところで、9月の半ばごろに、レンタルサーバの ssh のパスが変更されており、scp がエラーとなっていました。 これにより、検索用サーバのインデックスが更新されないままとなっていました。
今回、これを修正しました。
手染め型友禅ジーンズ【なまず柄】 ― 2007年10月08日 11時02分02秒
KAKASI:src/conv-util.c ― 2007年10月09日 12時41分18秒
KAKASI のソースを調べています。 今回は src/conv-util.c で、これは辞書ツール(atoc_conv, rdic_conv, wx2_conv)で使われるものです。
int isallkana PARAMS(unsigned char *str); 引数: EUC-JP 文字列 戻値: 1 ... 全てが全角「ひらがな」または全角「カタカナ」で構成。 0 ... それ以外
int isallzenkaku PARAMS(unsigned char *str); 引数: EUC-JP 文字列 戻値: 1 ... 全てが全角で構成。 0 ... それ以外
int includekanji PARAMS(unsigned char *str); 引数: 全て全角文字のEUC-JP 文字列 戻値: 1 ... 漢字を含む。 0 ... それ以外
EUC-JP 文字列は1バイトのUS-ASCIIと2バイトの全角文字で構成されていることが前提です。 0x8e 0xXX の2バイトで構成される半角カナには対応していないので、引数の文字列に含まれていてはいけません。 また、3バイトの補助漢字は考慮されていませんので、これも引数の文字列に含まれていてはいけません。
includekanji は、isallzenkaku で全てが全角で構成されていることを確認した文字列を引数に渡す必要があります。
これらは atoc_conv, rdic_conv, wx2_conv の入力データの制限に関係することになります。 ただし、atoc_conv の入力はShift_JIS であり、rdic_conv の入力は JIS ですので、内部で EUC-JP に変換する際には更に制限がかかります。
atoc_conv の入力データ ― 2007年10月09日 16時28分33秒
atoc_conv は、KAKASI 付属の辞書ツールです。 ATOK の辞書から KAKASI の辞書(ソース形式)を作成するツールです。
atoc_conv の入力データのフォーマットは次の通りです。
ヨミ,漢字
Shift_JIS コードを想定しています。半角カナは全角ひらがなに変換されます。 '#' で始まる行はコメントです。 区切り記号の "," は空白文字(タブ、スペース)でも構いませんので
よみ 漢字
でも構いません。
また、mkkanwa は、よみのカタカナをひらがなに変換して kanwadict を作成しますので、カタカナでもひらがなでも構いません。 フォーマットが合うなら、ATOKの辞書に限らず、Shift_JIS コードの辞書データの変換に利用できます。
$ nkf -Se < 入力ファイル | tr , ' '
相当の処理を atoc_conv は行います。
なお、名前が atok_conv ではない理由については、私は知りません。
r-dic 2.22 を KAKASI で使う ― 2007年10月12日 02時28分46秒
doc/JISYO には KAKASI で使用可能な辞書が紹介されています。 その中のひとつが r-dic です。
4. r-dic v 2.0.0 鉄道に関する様々な名称などを含んだデータや用語を収録 以下の辞書が使用できます。 corp : 会社名データ ( 2241 項目) line : 線名データ ( 1250 項目) station : 駅名データ (12354 項目) car : 車輛名データ ( 236 項目) train : 列車名データ ( 1152 項目) gengyou : 現業機関データ ( 1019 項目) other : 関連用語集データ ( 3667 項目) なお type と lunch は使用できません。
現在、r-dic は http://www.vector.co.jp/soft/data/writing/se001883.html から入手できるようです。
Ver. 2.00 と Ver. 2.22 のバイナリパッチです。 (バイナリパッチを当てるには bupdate.exe が必要になります。)
doc/JISYO で紹介されているものより新しい r-dic 2.22 が入手可能ですが、2.22 は 1992 年に作成されているので、もう15年前のものです。データはかなり古いでしょう。
ところで、r-dic を KAKASI 用の辞書(ソース)に変換するには、rdic-conv を使います。 この rdic-conv は辞書の中身が JIS コードを前提に作られています。 上記の r-dic は 2.00, 2.22 共に Shift_JIS コードでした。 (JUNET に流れた時の r-dic は JIS コードだったのかもしれません。そのため rdic-conv の入力は JIS だと仮定しているのでしょう。)
上記の r-dic 2.00, 2.22 はいずれも
改行コードは UNIX改行(LF) 漢字コードは Shift_JIS
です。
そのため、この r-dic は、このままでは rdic-conv で KAKASI 用辞書に変換できません。 辞書の漢字コードを変換して rdic-conv で読めるようにすることもできますが、atoc-conv には Shift_JIS ルーチンがありますので、これを rdic-conv で使うように改造してみました。
改造した rdic-conv で変換した結果、doc/JISYO の内容と異なりますが、 各データのうち KAKASI 辞書形式に変換できた項目数は次のようになりました。
2.00 2.22 corp : 会社名データ ( 1668 項目) ( 1668 項目) line : 線名データ ( 1194 項目) ( 1205 項目) station : 駅名データ (12135 項目) (12276 項目) car : 車輛名データ ( 52 項目) ( 52 項目) train : 列車名データ ( 422 項目) ( 422 項目) gengyou : 現業機関データ ( 479 項目) ( 479 項目) other : 関連用語集データ ( 2331 項目) ( 2308 項目)
※ このうち mkkanwa で変換すると変換できない項目もあると思いますので、 実際にはもっと少なくなるものと思います。
開発版 KAKASI の入手方法 ― 2007年10月13日 02時00分00秒
しばらく開発版の KAKASI が入手できない状態でしたが、サーバの設定が修正されたことで、再び入手可能となりました。
以下は、http://kakasi.namazu.org/ に記載されている開発版 KAKASI の入手方法です。(少し簡略化しています。)
anonymous cvs 経由で最新の KAKASI のソースコードを入手することができます。 % cvs -d :pserver:anonymous@cvs.namazu.org:/storage/cvsroot login CVS password: (単にリターンを入力) % cvs -d :pserver:anonymous@cvs.namazu.org:/storage/cvsroot co kakasi CVS版を利用するには autoconf 2.13, automake 1.4, libtool 1.3 (もしくはそれ以上) が必要です。 checkout 後に ./autogen.sh を実行します。 詳細はHACKING-jaをご覧ください。
WX, MS-IME とwx2_conv の話 ― 2007年10月14日 02時15分09秒
WXシリーズは、エー・アイ・システムが開発した日本語入力システムです。
WXシリーズには WX, WXS, WXP, WXII, WXII+, WXIII, WXG があり、初期の MS-IME は WX の OEM です。
KAKASI では WXII の辞書を KAKASI の辞書に変換する wx2_conv が付属します。
辞書のフォーマットは WXG で変更になりましたので、WXII, WXII+, WXIII に関しては wx2_conv で変換が可能ではないかと思います。
Windows 3.1 時代の MS-IME は WXII の OEM, Windows 95 標準の MS-IME は WXIII がベースとなっているので、これらについても wx2_conv で変換可能 ではないかと思います。
いずれにしてもテキスト形式の辞書に限ります。
辞書のフォーマットは次の通りです。
<YOMI><tab>"<KANJI>":<HINSHI><FYKUKAI>
漢字コードは Shift_JIS です。
MS-IME 2003 のテキスト形式の辞書(ユーザ辞書をテキスト形式で出力)は、
<よみ><tab><漢字><tab><品詞>
という形式です。漢字コードは Shift_JIS で、これは atoc_conv で KAKASI の辞書に変換が可能です。
最近のコメント