MeCab 0.90rc7 で修正される内容2006年01月14日 06時09分51秒

CVS の最新ソースでは、Perl から MeCab のバージョンを取得できるようになったそうです。

MeCab-perl-0.81 までは、
parse ($1);
というように特殊変数を渡すことができましたが、0.90rc6ではエラーになりました。これはバグであり、最新ソースでは修正されたそうです。

また、

$ echo -n "本日は晴天なり" | mecab -Owakai

とした場合、改行で終わらない行は処理されませんでしたが、これも修正されたそうです。

手元の環境で起こっていた(FreeBSD 6.0 では正常)Perl で無限ループになっていた ipadic の辞書作成部分は C++ のモジュールが使われるように変更されるそうです。

フィールドファイルについて2006年01月14日 13時54分27秒

フィールドデータの from や to, newsgroups, subject などは、複数の文書で同一であることが多々あります。
これをテーブル参照型にすることで、インデックスのサイズを減らすことができるのではないかと思います。

また、フィールド検索は全数チェックなので、テーブル参照型にすることでデータ総数を減らすことができ、高速化が可能ではないかと思います。

現在のフィールドファイルは、文書と1対1対応であり、エディタでの編集が簡単というメリットがあります。
このため、rfnmz の代わりに現在の形式からテーブル参照型に変換するコンバータ、またその逆コンバータがあれば良いでしょう。

フィールドデータは内部的には文字列として扱われています。(ソート時には文字列と、数値の2種類で扱われます。)
これを文字列、数値、日付、etc...等に、より細かく分類することで、より複雑な検索が可能となるでしょう。
たとえば、ある日からある日までの期間検索ができる等です。

テーブルのデータは、データタイプに従ってあらかじめソートしておくと、検索に便利です。