MeCab 0.91 がリリース2006年05月01日 03時11分00秒

MeCab 0.91 がリリースされました。

 http://sourceforge.jp/projects/mecab/

mknmz.in: process_file() の仮引数の修正、--update オプションに関する修正2006年05月01日 13時16分02秒

  • mknmz.in の process_file() の仮引数の数が間違っていたのを修正
  • mknmz で --update オプションで指定したディレクトリの NMZ.status の内容が読み取れない場合、終了するように修正

Namazu for Windows 2.0.16 ダウンロード数(2)2006年05月01日 13時39分12秒

3/12~5/1(本日)までの約7週間の
nmz2.0.16.001-win32.zip のアクセスログから次のようなことがわかり
ました。

[リクエストされたページ]
1. /public/nmz2.0.16.001-win32.zip            1,798   
2. /PPMPackages/800/NKF.ppd                     704    
3. /cgi-bin/rssnmz.cgi                          642
4. /PPMPackages/800/File-MMagic.ppd             585
5. /PPMPackages/800/Text-Kakasi.ppd             560
6. /PPMPackages/800/index.html                  534
7. /PPMPackages/800/x86/nkf.tar.gz              416
8. /PPMPackages/800/x86/Text-Kakasi.tar.gz      408
9. /PPMPackages/800/x86/File-MMagic.tar.gz      407

リクエストされたページは、nmz2.0.16.001-win32.zip が 約1,800 件ぐらい、
PPD は 約560件ぐらいでした。


[ダウンロード数]
1. /public/nmz2.0.16.001-win32.zip            1,470
2. /PPMPackages/800/x86/nkf.tar.gz              415
3. /PPMPackages/800/x86/Text-Kakasi.tar.gz      408
4. /PPMPackages/800/x86/File-MMagic.tar.gz      407
5. /public/nmz2.0.15.004-win32.zip              112
6. /PPMPackages/800/x86/Search-Namazu.tar.gz     48
7. /PPMPackages/800/x86/MeCab.tar.gz             33

ダウンロード数は、nmz2.0.16.001-win32.zip が 約1,500件ぐらい、
PPD は 約400件ぐらいでした。
Search-Namazu も 48件ダウンロードがありました。
MeCab も 33件ダウンロードがありました。


[ブラウザ毎のセッションのドリルダウン]
1. Internet Explorer        1,688
2. Mozilla Compatible Agent   620
3. Mozilla                    474  
4. Googlebot                  458
5. ppm                        429
6. YahooFeedSeeker            342  
7. gooRSSreader                95    
8. Opera                       81    
9. msnbot                      71

ppm から 約430件ぐらいアクセスがありますから、先の内容とあわせて
おそらく ppm-inst.bat でインストールを試みた回数は 430 件ぐらい
だろうと思われます。

この結果から、のべ430台にインストールされたということでしょう。
まぁ、この数ならWindows 版の開発を継続しても良いかな。

MeCab 0.91 PPM2006年05月01日 16時30分59秒

MeCab 0.91 がリリースされましたので、MeCab の PPM を更新しました。

 http://www.akaneiro.jp/PPMPackages/800/MeCab.ppd

ppm コマンドでインストールができます。

 C:\> ppm uninstall MeCab
 C:\> ppm install http://www.akaneiro.jp/PPMPackages/800/MeCab.ppd

MeCab Perl モジュールは ppm コマンドでインストールできますが、Text-Kakasi 同様に PPM のインストールだけでは動作せず、辞書と mecabrc のインストールおよび設定が必要になります。

 http://www.akaneiro.jp/public/mecab-ipadic.zip

から辞書ファイルをダウンロードして、手順に従ってインストールを行ってください。

  • Namazu for Windows 2.0.16 では EUC-JP の辞書を前提にしています。
  • Namazu 以外の用途用にEUC-JP版辞書以外にShift_JIS版辞書、UTF-8版辞書を用意しました。(2006.05.21修正)

[追記]

MinGw における MeCab のシェアードライブラリの問題2006年05月02日 03時20分16秒

MeCab 0.90,0.91 のどちらもですが、手元の MinGw 環境では作成されたスタティックライブラリをリンクするとシンボルが見つからないというエラーが発生しました。
以下の修正を行って生成したシェアードライブラリならリンクも問題なくできます。
# cygwin は修正の必要はありませんでした。
$ diff -u mecab.h.org mecab.h
--- mecab.h.org 2006-04-30 23:30:26.000000000 +0900
+++ mecab.h     2006-05-02 03:19:37.000000000 +0900
@@ -122,7 +122,7 @@
 extern "C" {
 #endif

-#ifdef _WIN32
+#if defined(_WIN32) && !defined(__MINGW32__)
 #include 
 #  ifdef DLL_EXPORT
 #    define MECAB_DLL_EXTERN  __declspec(dllexport)

いろんなところが 2005 のまま2006年05月02日 03時25分20秒

どうでもいいことですが、いろんなところが 2005 のままです。
$ mecab -h
MeCab: Yet Another Part-of-Speech and Morphological Analyzer

Copyright (C) 2001-2005 Taku Kudo
Copyright (C) 2004-2005 Nippon Telegraph and Telephone Corporation

Usage: mecab [options] files
 -r, --rcfile=FILE              use FILE as resource file
 -d, --dicdir=DIR               set DIR  as a system dicdir
 -u, --userdic=FILE             use FILE as a user dictionary
 -l, --lattice-level=INT        lattice information level (default 0)
 -a, --all-morphs               output all morphs (default false)
 -O, --output-format-type=TYPE  set output format type (wakati,none,...)
 -p, --partial                  partial parsing mode
 -F, --node-format=STR          use STR as the user-defined node format
 -U, --unk-format=STR           use STR as the user-defined unk format
 -B, --bos-format=STR           use STR as the user-defined bos format
 -E, --eos-format=STR           use STR as the user-defined eos format
 -b, --input-buffer-size=INT    set input buffer size (default 8192)
 -C, --allocate-sentence        allocate new memory for input sentence
 -N, --nbest=INT                output N best results  (default 1)
 -t, --theta=FLOAT              set temparature parameter theta (default 0.75)
 -o, --output=FILE              set the output file name
 -v, --version                  show the version and exit.
 -h, --help                     show this help and exit.

kakasi -HK -KH オプションの不具合2006年05月04日 12時13分36秒

kakasi の -HK オプションはひらがなをカタカナに、-KH オプションはカタカナをひらがなに変換するオプションですが、踊り字の一の字点(ゝゞヽヾ)の変換処理が不十分なようです。

$ echo ツヽジ,サヾエ,さゝやか,たゞし | kakasi -HK
ツジ,サエ,サヤカ,タシ

一の字点は削除されてしまいます。

$ echo ツヽジ,サヾエ,さゝやか,たゞし | kakasi -KH
つヽじ,さヾえ,さゝやか,たゞし

一の字点は無変換でそのまま出力されます。

一の字点はひらがなでもカタカナでもないからということでしょうが、 -HK では次のように変換されるのが望ましいと思います。

さゝやか  -> サヽヤカ
たゞし     -> タヾシ

同様に -KH では次のように変換されるのが望ましいと思います。

ツヽジ  -> つゝじ
サヾエ -> さゞえ

nkf --hiragana --katakana オプションについて2006年05月06日 07時52分33秒

nkf の --katakana オプションはひらがなをカタカナに、--hiragana オプションはカタカナをひらがなに変換するオプションですが、踊り字の一の字点(ゝゞヽヾ)の変換処理が行われないようです。

$ echo ツヽジ,サヾエ,さゝやか,たゞし |  nkf --katakana
ツヽジ,サヾエ,サゝヤカ,タゞシ
$ echo ツヽジ,サヾエ,さゝやか,たゞし | nkf --hiragana
つヽじ,さヾえ,さゝやか,たゞし

一の字点はひらがなでもカタカナでもないからということでしょうが、 --katakana では次のように変換されるのが望ましいと思います。

さゝやか  -> サヽヤカ
たゞし     -> タヾシ

同様に --hiragana では次のように変換されるのが望ましいと思います。

ツヽジ  -> つゝじ
サヾエ -> さゞえ

また、カタカナにしかない「ヴ」も未変換です。

$ echo ヴァイオリン | nkf --hiragana
ヴぁいおりん

カタカナしかない「ヴ」を変換しないというのはひとつの仕様ではありますが、kakasi のように「ヴ」 <-> 「う゛」 の相互変換ができても良いのではないかと思います。

1文字が2文字に変換、またはその逆に変換され、文字数が変わるところは気になる部分ではありますが、JISX0201 kana の半角カナ「ウ゛ァイオリン」(7文字)を全角に変換した場合は、「ヴァイオリン」(6文字)になりますし、文字数が変わること自体は nkf の別の処理で起こっているので、さほど問題ではないでしょう。

wv-1.2.12006年05月16日 12時45分11秒

どうやら wv-1.2.1 は filter/msword.pl がうまく動かないようです。 うすうす感じていたのですが、残念ながら開発環境の wv をバージョンアップするのは簡単ではないので確かめてはいませんでした。

例えば、こことかにあります。

http://hpcgi2.nifty.com/tokd/index.cgi?NamazuTips

しかし、この修正はあからさまにまずいところがあるので、ちゃんと wv-1.2.1 対応しないといけませんね。

そのためには、現在の開発マシンの環境を整えるよりも、新しい OS をインストールしたマシンを用意した方が早そうです。

なお、wv は 1.0.3 まで動作確認しています。

テンプレートに関する buffer overrun2006年05月19日 00時45分30秒

各テンプレートファイル(NMZ.head, NMZ.foot)で {cgi} {doc} を複数使用した時、バッファオーバーフローを起こす不具合が報告されましたので、修正しました。

デフォルトのテンプレートでは問題が起こることはありませんが、カスタマイズしている場合に問題が起きる場合があります。

また、置換後の文字列の中に {cgi} {doc} が含まれていると、これも置き換えようとしてバッファオーバーフローを起こします。
そのような状況はまずありませんが、再帰的な置き換えは行わないように修正しました。