MeCab 0.91 がリリース ― 2006年05月01日 03時11分00秒
MeCab 0.91 がリリースされました。
http://sourceforge.jp/projects/mecab/
mknmz.in: process_file() の仮引数の修正、--update オプションに関する修正 ― 2006年05月01日 13時16分02秒
- mknmz.in の process_file() の仮引数の数が間違っていたのを修正
- mknmz で --update オプションで指定したディレクトリの NMZ.status の内容が読み取れない場合、終了するように修正
Namazu for Windows 2.0.16 ダウンロード数(2) ― 2006年05月01日 13時39分12秒
3/12~5/1(本日)までの約7週間の nmz2.0.16.001-win32.zip のアクセスログから次のようなことがわかり ました。 [リクエストされたページ] 1. /public/nmz2.0.16.001-win32.zip 1,798 2. /PPMPackages/800/NKF.ppd 704 3. /cgi-bin/rssnmz.cgi 642 4. /PPMPackages/800/File-MMagic.ppd 585 5. /PPMPackages/800/Text-Kakasi.ppd 560 6. /PPMPackages/800/index.html 534 7. /PPMPackages/800/x86/nkf.tar.gz 416 8. /PPMPackages/800/x86/Text-Kakasi.tar.gz 408 9. /PPMPackages/800/x86/File-MMagic.tar.gz 407 リクエストされたページは、nmz2.0.16.001-win32.zip が 約1,800 件ぐらい、 PPD は 約560件ぐらいでした。 [ダウンロード数] 1. /public/nmz2.0.16.001-win32.zip 1,470 2. /PPMPackages/800/x86/nkf.tar.gz 415 3. /PPMPackages/800/x86/Text-Kakasi.tar.gz 408 4. /PPMPackages/800/x86/File-MMagic.tar.gz 407 5. /public/nmz2.0.15.004-win32.zip 112 6. /PPMPackages/800/x86/Search-Namazu.tar.gz 48 7. /PPMPackages/800/x86/MeCab.tar.gz 33 ダウンロード数は、nmz2.0.16.001-win32.zip が 約1,500件ぐらい、 PPD は 約400件ぐらいでした。 Search-Namazu も 48件ダウンロードがありました。 MeCab も 33件ダウンロードがありました。 [ブラウザ毎のセッションのドリルダウン] 1. Internet Explorer 1,688 2. Mozilla Compatible Agent 620 3. Mozilla 474 4. Googlebot 458 5. ppm 429 6. YahooFeedSeeker 342 7. gooRSSreader 95 8. Opera 81 9. msnbot 71 ppm から 約430件ぐらいアクセスがありますから、先の内容とあわせて おそらく ppm-inst.bat でインストールを試みた回数は 430 件ぐらい だろうと思われます。 この結果から、のべ430台にインストールされたということでしょう。 まぁ、この数ならWindows 版の開発を継続しても良いかな。
MeCab 0.91 PPM ― 2006年05月01日 16時30分59秒
MeCab 0.91 がリリースされましたので、MeCab の PPM を更新しました。
http://www.akaneiro.jp/PPMPackages/800/MeCab.ppd
ppm コマンドでインストールができます。
C:\> ppm uninstall MeCab C:\> ppm install http://www.akaneiro.jp/PPMPackages/800/MeCab.ppd
MeCab Perl モジュールは ppm コマンドでインストールできますが、Text-Kakasi 同様に PPM のインストールだけでは動作せず、辞書と mecabrc のインストールおよび設定が必要になります。
http://www.akaneiro.jp/public/mecab-ipadic.zip
から辞書ファイルをダウンロードして、手順に従ってインストールを行ってください。
- Namazu for Windows 2.0.16 では EUC-JP の辞書を前提にしています。
- Namazu 以外の用途用にEUC-JP版辞書以外にShift_JIS版辞書、UTF-8版辞書を用意しました。(2006.05.21修正)
[追記]
- この内容は古くなっています。 必ず最新情報をご確認ください。 http://namazu.asablo.jp/blog/cat/mecab/
MinGw における MeCab のシェアードライブラリの問題 ― 2006年05月02日 03時20分16秒
$ diff -u mecab.h.org mecab.h --- mecab.h.org 2006-04-30 23:30:26.000000000 +0900 +++ mecab.h 2006-05-02 03:19:37.000000000 +0900 @@ -122,7 +122,7 @@ extern "C" { #endif -#ifdef _WIN32 +#if defined(_WIN32) && !defined(__MINGW32__) #include# ifdef DLL_EXPORT # define MECAB_DLL_EXTERN __declspec(dllexport)
いろんなところが 2005 のまま ― 2006年05月02日 03時25分20秒
$ mecab -h MeCab: Yet Another Part-of-Speech and Morphological Analyzer Copyright (C) 2001-2005 Taku Kudo Copyright (C) 2004-2005 Nippon Telegraph and Telephone Corporation Usage: mecab [options] files -r, --rcfile=FILE use FILE as resource file -d, --dicdir=DIR set DIR as a system dicdir -u, --userdic=FILE use FILE as a user dictionary -l, --lattice-level=INT lattice information level (default 0) -a, --all-morphs output all morphs (default false) -O, --output-format-type=TYPE set output format type (wakati,none,...) -p, --partial partial parsing mode -F, --node-format=STR use STR as the user-defined node format -U, --unk-format=STR use STR as the user-defined unk format -B, --bos-format=STR use STR as the user-defined bos format -E, --eos-format=STR use STR as the user-defined eos format -b, --input-buffer-size=INT set input buffer size (default 8192) -C, --allocate-sentence allocate new memory for input sentence -N, --nbest=INT output N best results (default 1) -t, --theta=FLOAT set temparature parameter theta (default 0.75) -o, --output=FILE set the output file name -v, --version show the version and exit. -h, --help show this help and exit.
kakasi -HK -KH オプションの不具合 ― 2006年05月04日 12時13分36秒
kakasi の -HK オプションはひらがなをカタカナに、-KH オプションはカタカナをひらがなに変換するオプションですが、踊り字の一の字点(ゝゞヽヾ)の変換処理が不十分なようです。
$ echo ツヽジ,サヾエ,さゝやか,たゞし | kakasi -HK ツジ,サエ,サヤカ,タシ
一の字点は削除されてしまいます。
$ echo ツヽジ,サヾエ,さゝやか,たゞし | kakasi -KH つヽじ,さヾえ,さゝやか,たゞし
一の字点は無変換でそのまま出力されます。
一の字点はひらがなでもカタカナでもないからということでしょうが、 -HK では次のように変換されるのが望ましいと思います。
さゝやか -> サヽヤカ たゞし -> タヾシ
同様に -KH では次のように変換されるのが望ましいと思います。
ツヽジ -> つゝじ サヾエ -> さゞえ
nkf --hiragana --katakana オプションについて ― 2006年05月06日 07時52分33秒
nkf の --katakana オプションはひらがなをカタカナに、--hiragana オプションはカタカナをひらがなに変換するオプションですが、踊り字の一の字点(ゝゞヽヾ)の変換処理が行われないようです。
$ echo ツヽジ,サヾエ,さゝやか,たゞし | nkf --katakana ツヽジ,サヾエ,サゝヤカ,タゞシ
$ echo ツヽジ,サヾエ,さゝやか,たゞし | nkf --hiragana つヽじ,さヾえ,さゝやか,たゞし
一の字点はひらがなでもカタカナでもないからということでしょうが、 --katakana では次のように変換されるのが望ましいと思います。
さゝやか -> サヽヤカ たゞし -> タヾシ
同様に --hiragana では次のように変換されるのが望ましいと思います。
ツヽジ -> つゝじ サヾエ -> さゞえ
また、カタカナにしかない「ヴ」も未変換です。
$ echo ヴァイオリン | nkf --hiragana ヴぁいおりん
カタカナしかない「ヴ」を変換しないというのはひとつの仕様ではありますが、kakasi のように「ヴ」 <-> 「う゛」 の相互変換ができても良いのではないかと思います。
1文字が2文字に変換、またはその逆に変換され、文字数が変わるところは気になる部分ではありますが、JISX0201 kana の半角カナ「ウ゛ァイオリン」(7文字)を全角に変換した場合は、「ヴァイオリン」(6文字)になりますし、文字数が変わること自体は nkf の別の処理で起こっているので、さほど問題ではないでしょう。
wv-1.2.1 ― 2006年05月16日 12時45分11秒
どうやら wv-1.2.1 は filter/msword.pl がうまく動かないようです。 うすうす感じていたのですが、残念ながら開発環境の wv をバージョンアップするのは簡単ではないので確かめてはいませんでした。
例えば、こことかにあります。
http://hpcgi2.nifty.com/tokd/index.cgi?NamazuTips
しかし、この修正はあからさまにまずいところがあるので、ちゃんと wv-1.2.1 対応しないといけませんね。
そのためには、現在の開発マシンの環境を整えるよりも、新しい OS をインストールしたマシンを用意した方が早そうです。
なお、wv は 1.0.3 まで動作確認しています。
テンプレートに関する buffer overrun ― 2006年05月19日 00時45分30秒
デフォルトのテンプレートでは問題が起こることはありませんが、カスタマイズしている場合に問題が起きる場合があります。
また、置換後の文字列の中に {cgi} {doc} が含まれていると、これも置き換えようとしてバッファオーバーフローを起こします。
そのような状況はまずありませんが、再帰的な置き換えは行わないように修正しました。
最近のコメント