MeCab 0.90rc7 で修正される内容2006年01月14日 06時09分51秒

CVS の最新ソースでは、Perl から MeCab のバージョンを取得できるようになったそうです。

MeCab-perl-0.81 までは、
parse ($1);
というように特殊変数を渡すことができましたが、0.90rc6ではエラーになりました。これはバグであり、最新ソースでは修正されたそうです。

また、

$ echo -n "本日は晴天なり" | mecab -Owakai

とした場合、改行で終わらない行は処理されませんでしたが、これも修正されたそうです。

手元の環境で起こっていた(FreeBSD 6.0 では正常)Perl で無限ループになっていた ipadic の辞書作成部分は C++ のモジュールが使われるように変更されるそうです。

フィールドファイルについて2006年01月14日 13時54分27秒

フィールドデータの from や to, newsgroups, subject などは、複数の文書で同一であることが多々あります。
これをテーブル参照型にすることで、インデックスのサイズを減らすことができるのではないかと思います。

また、フィールド検索は全数チェックなので、テーブル参照型にすることでデータ総数を減らすことができ、高速化が可能ではないかと思います。

現在のフィールドファイルは、文書と1対1対応であり、エディタでの編集が簡単というメリットがあります。
このため、rfnmz の代わりに現在の形式からテーブル参照型に変換するコンバータ、またその逆コンバータがあれば良いでしょう。

フィールドデータは内部的には文字列として扱われています。(ソート時には文字列と、数値の2種類で扱われます。)
これを文字列、数値、日付、etc...等に、より細かく分類することで、より複雑な検索が可能となるでしょう。
たとえば、ある日からある日までの期間検索ができる等です。

テーブルのデータは、データタイプに従ってあらかじめソートしておくと、検索に便利です。

Namazu 2.0.15RC3 公開2006年01月15日 01時24分13秒

Namazu 2.0.15RC3 を公開します。 この Namazu 2.0.15R3 のコンパイル + 動作チェックをしていただける方を広く募集しておりますので、皆様ご参加のほどよろしくお願いします。

(アーカイブファイル)

http://www.namazu.org/test/namazu-2.0.15RC3.tar.gz

(署名ファイル)

http://www.namazu.org/test/namazu-2.0.15RC3.tar.gz.sig

(MD5sumファイル)

http://www.namazu.org/test/namazu-2.0.15RC3.tar.gz.md5

(sha1sumファイル)

http://www.namazu.org/test/namazu-2.0.15RC3.tar.gz.sha1

Windows ネイティブ版 Namazu 2.0.15RC3 公開 + 動作チェックに協力していただける方募集2006年01月15日 01時25分47秒

Namazu 2.0.15 をリリースするにあたり、様々な環境での動作チェックを 行う必要があるかと思っています。 動作チェックに協力していただけるボランティアを募集いたします。

Windows 環境で、コンパイル環境を整えるのは大変かと思いますので、コンパイル済みパッケージを用意しました。

皆様、ふるってご参加ください。(もちろん無保証ですし、エンドユーザ向け のインストーラも用意できていませんので、初心者の方はご遠慮ください。)

(アーカイブファイル)

http://www.namazu.org/test/nmz2.0.15RC3-win32.zip

(署名ファイル)

http://www.namazu.org/test/nmz2.0.15RC3-win32.zip.sig

(MD5sumファイル)

http://www.namazu.org/test/nmz2.0.15RC3-win32.zip.md5

(sha1sumファイル)

http://www.namazu.org/test/nmz2.0.15RC3-win32.zip.sha1


募集期間:

 随時

動作チェック期間:

 1/15~1/23 を予定(状況により、変更の可能性あり)

対象OS:

 Windows 各種
 同じ OS でも複数の方が動作チェックに協力していただけると嬉しい

 です。

条件:

 ・C:\ に Win32 ネイティブ版の namazu 2.0.14 をインストールして
   おり、正常に動作していること
 ・ActivePerl 800台を使っていること

 備考:上記以外の環境で動作確認できるバイナリは準備できません。

      ご了承ください。

資格:

 ・Windows, ActivePerl, Namazu について十分な知識があり、
   Namazu 2.0.15RC3 をインストールを行うことのリスクについて
   理解ができる方。

インストール方法:

 1. Namazu 2.0.14 がインストール済みのため、これをバックアップします。
    c:\namazu を c:\namazu-2.0.14 に名前の変更を行います。
 2. nmz2.0.15RC3-win32.zip を C:\ に展開します。
 3. c:\namazu-2.0.15RC3 を c:\namazu に名前の変更を行います。
 4. msvcr71.dll がシステムにインストールされていない場合、これを
    入手し、システムディレクトリにコピーします。
 5. コマンドプロンプト(DOS窓)を開きます。
 6. ppm を起動し、repository を登録します。
    C:\>ppm
    ppm> rep add "Namazu" "http://www.akaneiro.jp/PPMPackages/800/"
 7. rep up コマンドを使用し、"Namazu" が repository の1番にします。
    ppm> rep up 3
    [1] ......
    [2] Namazu
    ppm> rep up 2
    [1] Namazu
 
 8. Perlモジュールをインストールします。
    (インターネット接続環境が必要)
    ppm> install NKF -force
    ppm> install File-MMagic -force
    ppm> install Text-Kakasi -force
    ppm> quit
 9. 環境変数 HOME を設定します。
    (適当なディレクトリがなければ C:\namazu を設定してください。)

アンインストール方法:

 1. c:\namazu を削除します。
 2. バックアップしてあった Namazu 2.0.14 を戻します。
    c:\namazu-2.0.14 を c:\namazu に名前の変更を行います。

 注意:  ・いくつかのモジュールは新しいものに置き換わります。

動作チェック(1):

 1. 環境変数 pkgdatadir に C:\namazu\share\namazu を設定してください。
 2. c:\namazu\pltests に移動し、perl alltests.pl を実行します。
    画面にチェック結果が出力されます。また、test-log ファイルに
    ログが出力されます。 
 3. OS, Perl のバージョンをお知らせください。
 4. 画面に出力された結果をお知らせください。
 5. test-log の中の最初の方に記録される mknmz -C の
    出力結果も省略せずお知らせください。(テスト時に有効となって

  いるフィルタを確認するため)

動作チェック(2):

 1. 普段使用している文書を念のためバックアップをとります。
 2. 普段通り Namazu 2.0.15RCx を使用します。
 3. 結果を評価します。
 何か不具合が確認されましたら、その内容を報告してください。

RC3で動作確認したい内容:

 - 外部コマンド呼び出しを行うフィルタの動作確認
   可能な限り多くのフィルタのテストを希望します。

 - 変更した kakasi, ChaSen, MeCab による分かち書き結果の評価

   -> 特に普段 ChaSen を使われている方
 以下は、RC1で判明した不具合でRC2/RC3で修正を行ったもの
 - pltests で、辞書が EUC-JP 以外の場合に FAIL するかどうかの確認
 - pltests で、kakasi-3.pl が FAIL する原因の調査
 - Windows 64bit OS 動作確認
 - Windows 95/98 動作確認

注意事項:

 - 通常のインストールパッケージではありません。事前に Namazu 2.0.14

  がインストールされており、正常動作している必要があります。

 - 自己責任で Namazu 2.0.15RC3 のインストールを行ってください。
   最悪のケースでは Namazu 2.0.14 に戻せない場合もあります。
 - 大切な文書はバックアップを取った上でご使用ください。開発中のもの
   のため、対象文書を削除する危険があるかもしれません。

used only once: possible typo at ... 対策2006年01月16日 04時23分46秒

kakasi-2.pl.in, chasen-2.pl.in のPerl モジュールのバージョンを表示する部分で、発生した used only once: possible typo at ... のワーニングを消しました。

checkcmd 修正2006年01月16日 04時25分50秒

pl/util.c と pltests/pltests.pl.in の checkcmd に以下の修正を行いました。

* 実行ファイルと誤ってディレクトリを選択するバグを取り除きました。
* 空のパスを無視するようにしました。

rtf2html 1.1a beta for Windows2006年01月16日 05時29分03秒

Windows 用に rtf2html 1.1a を VC++ でコンパイルしたものを公開しました。

http://www.asahi-net.or.jp/~yw3t-trns/namazu/windows/rtf2html/index.htm

filter/rtf.pl で使用可能です。

記事を執筆いたしました。2006年01月18日 07時11分09秒

本日1月18日発売の月刊誌「Software Design」2006年2月号  特集 今すぐできる最新検索システム  第6章「最新Namazuシステム構築/活用ガイド」に約10ページほどの記事を執筆いたしました。

もうすぐリリースが予定されている Namazu 2.0.15 の紹介と、ソースから のインストール手順、システム運用の際のコツ、今後の Namazu について、 過去に namazu-devel-ja メーリングリストで書いた内容を中心に整理して まとめました。

全国書店で発売中ですので、興味のある方はぜひお手にとってみてください。 何かの参考になれば幸いです。

http://www.gihyo.co.jp/magazines/SD/archive/200602

timezone 対応 mailutime の話2006年01月21日 01時32分35秒

mailutime は timezone 対応を行ったから、多少動作が異なるようになりました。 それで今まで気づかなかったのですが、fuzzy モードで day と year を間違うことがあるのがわかりました。 このため、 day の処理を year より前に変更しました。

ただし、元々 day の処理は と書かれているのが、気にはなるのですが...。 何故、そうでなければならなかったのかは不明です。

なお、mailutime の主な変更点は以下の通りです。

http://www.namazu.org/ml/namazu-devel-ja/msg03568.html

また、mknmz 自体も 2.0.15 から timezone に対応しています。

何度目かの pltests の不具合修正2006年01月21日 01時39分17秒

cygwin環境で、kakasi-[12].pl, chasen-[1-2].pl, mecab-[12].pl に NMZ.w の中身をダンプしているところがあるのですが、ここが EUC-JP のままになっていました。

このため、pltests/codeconv_to_*() を修正しました。

make check とは異なり pltests のログは、EUC-JP 環境では全て EUC-JP、Shift_JIS 環境では Shift_JIS で出力するようにしています。
これは、ログの内容を容易に確認できるようにです。