MeCab 0.91用Shift_JIS版、UTF-8版辞書も公開 ― 2006年05月21日 00時40分03秒
Namazu 用途以外でもActivePerlでMeCabを使いたい人がそこそこいらっしゃるようですので、EUC-JP版辞書に加え、Shift_JIS版、UTF-8版辞書を用意しました。
- http://www.akaneiro.jp/public/mecab-ipadic.zip - http://www.akaneiro.jp/public/mecab-ipadic-sjis.zip - http://www.akaneiro.jp/public/mecab-ipadic-utf8.zip
辞書ファイルをダウンロードして、手順に従ってインストールを行ってください。
- Namazu for Windows 2.0.16 では EUC-JP の辞書を前提にしています。 Shift_JIS版、UTF-8版辞書は使えません。ご注意ください。
filter/taro56.pl 無限ループに入ることがあるバグ修正 ― 2006年05月29日 03時15分42秒
filter/taro56.pl が 一太郎5の一部のファイルで無限ループに入るバグが修正されました。(HEAD, stable-2-0)
gcnmz, nmzmerge のログ形式を mknmz の形式に合わせる ― 2006年05月30日 22時47分35秒
gcnmz, nmzmerge のログを mknmz に合わせて、"Time (sec):", "System:", "Perl:" の順でログを出力するようにしました。 また、数値をコンマ区切りで出力するようにしました。
"Total Files:" を mknmz に合わせて "Total Documents:" に変更しました。
filter/taro56.pl の修正 ― 2006年05月31日 13時48分00秒
機種依存文字や外字が含まれる場合の対応が抜けているので、追加しました。
例えば、次の内容のファイル(ただし、(1),ii は機種依存文字)
(1)あいうえお
iiテスト
を mknmz で処理すると
@ あいうえお
A テスト
のように意図せず2バイト目がゴミとして現れますので、これを今回は SKIP するのではなく、GETA(〓)に変換するようにしました。
(1バイト目が0x80以上の場合は2バイト文字とみなすという手抜き処理です。)
修正後は
〓 あいうえお
〓 テスト
となります。
例えば、次の内容のファイル(ただし、(1),ii は機種依存文字)
(1)あいうえお
iiテスト
を mknmz で処理すると
@ あいうえお
A テスト
のように意図せず2バイト目がゴミとして現れますので、これを今回は SKIP するのではなく、GETA(〓)に変換するようにしました。
(1バイト目が0x80以上の場合は2バイト文字とみなすという手抜き処理です。)
修正後は
〓 あいうえお
〓 テスト
となります。
最近のコメント