filter/pipermail.pl のdecode_entityに   を追加2005年09月01日 22時33分22秒

HEADとstable-2-0の filter/pipermail.pl の decode_entity に   を追加しました。

ただ、何故専用の decode_entity をこのフィルタに用意しているのか、すっかり忘れてしまいました。
html::decode_entity を使うのではダメな理由はなんだったけかな?

ISO-8859-* に関するドキュメント関係の記述を修正2005年09月02日 18時24分36秒

ISO-8859-* に関するドキュメント関係の記述に誤りがあったので、これを修正しました。(HEAD, stable-2-0)

Namazu が ISO-8859-* に対応しているかの内容になっている箇所があるのですが、実際のプログラムはそのようにはなっていません。
このため、プログラムに合わせてドキュメントを修正しました。

README-es に関しては、語学力がないため問題箇所の修正ではなくて、残念ながら削除になっています。

adnmz, kwnmz, lnnmz の不具合 : カレントディレクトリにインデックスがない場合2005年09月13日 22時28分45秒

カレントディレクトリにインデックスがない場合に次のコマンドを実行すると、下記のようなメッセージが出力されます。

引数なしで実行すると、カレントディレクトリのインデックスを処理の対象とするように作られているのですが、インデックスがない場合の処理が含まれていないようです。


$ adnmz
Use of uninitialized value in -s at nmzidx.pl line 205.
Use of uninitialized value in division (/) at nmzidx.pl line 205.
Can't call method "read" on an undefined value at nmzidx.pl line 223.



$ kwnmz
Use of uninitialized value in -s at nmzidx.pl line 205.
Use of uninitialized value in division (/) at nmzidx.pl line 205.



$ lnnmz
Use of uninitialized value in -s at nmzidx.pl line 205.
Use of uninitialized value in division (/) at nmzidx.pl line 205.
Can't call method "close" on an undefined value at nmzidx.pl line 212.

filter/mp3.pl 修正2005年09月17日 18時27分38秒

以下のfilter/mp3.pl の不具合が修正されました。
(HEAD, stable-2-0)

・MP3::Info1.10 以降で文字化けする不具合を修正
・ID3 ver1 の mp3 ファイルが検出できない不具合を修正

ChaSen 問題修正2005年09月17日 21時02分22秒

Chasen (MeCab)では、ASCII 文字列も分かち書きで分解してしまい、kakasi と 分かち書きの結果が大きく異なってしまいます。 また、英文ドキュメントを日本語環境で処理した場合と、英語環境で処理 した場合で、文字列の分解方法が異なるため、インデックスに登録される 単語に違いがでてしまいます。

例えば、「httpd.confは設定ファイルです。」は、kakasi だと「httpd.conf は 設定 ファイル です 。」に分かち書きされ、ChaSen だと「httpd . conf は 設定 ファイル です 。」に、MeCab だと「httpd . conf は 設定 ファイル です 。」になります。

kakasi だと 「httpd.conf」という単語が登録されますが、ChaSen やMeCab では「httpd.conf」という単語は登録されません。このため、namazu で "httpd.conf" で検索しても見つかりません。


以上の Chasen 問題を Text::ChaSen, MeCab モジュールを使用した場合に限り修正しました。(とりあえず HEAD のみ)

参考)

http://www.namazu.org/pipermail/namazu-devel-ja/2005-August/000554.html

同様に以下の問題も解決すると思います。

http://www.namazu.org/pipermail/namazu-devel-ja/2004-October/000217.html

副作用として、ipadic-2.7.0 の chasenrc そのまま使うと、例えば、「httpd.confは設定ファイルです。」は、「h t t p d . c o n f は 設定 ファイル です 。」になるので、chasenrc に

(COMPOSIT_POS ((名詞 数))
          ((記号 アルファベット)))

を追加しなければなりませんでしたが、今回の修正でこの追加を行わなく てもよくなりました。


なお、chasen (mecab)コマンド呼び出しの場合は今回修正していません。

Namazu での利用を前提とした kakasi 用辞書2005年09月17日 22時23分07秒

全文検索システム Namazu での利用を前提とした私家版の kakasi 用辞書(kanwadict)を更新しました。

Namazu での利用の場合は、kakasi の辞書に登録する語は、これ以上分解すると意味をなさない最小単位のものを登録するのが良く、やみくもに単語を増やしても分かち書き性能が上がるものではありません。

本 kakasi 用辞書は GPL です。

http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/index.htm

--decode-base64 のテスト2005年09月18日 00時11分08秒

mknmz --decode-base64 オプションの有無による動作の違いを確認するテストtests/mknmz-19, tests/namazu-13とテスト用データtests/data/decodebase64/multi-part-mail.txtが追加されました。

また、同時に複数添付ファイルがある場合に単語がくっついてしまうという不具合が発見されたため、filter/mailnews.pl も修正されました。
(HEAD, stable-2-0)

茶筌(ChaSen)のインストール方法2005年09月18日 13時34分22秒

日本語全文検索システム Namazu の分かち書き処理に利用できる茶筌(ChaSen)のインストール方法を以下にまとめました。

茶筌(ChaSen)のインストール方法

KAKASI のインストール方法2005年09月18日 15時11分16秒

日本語全文検索システム Namazu の分かち書き処理に利用できるKAKASIのインストール方法を以下にまとめました。

KAKASIのインストール方法

MeCab のインストール方法2005年09月18日 16時04分33秒

日本語全文検索システム Namazu の分かち書き処理に将来利用できる和布蕪(MeCab)のインストール方法を以下にまとめました。

MeCab のインストール方法