filter/pipermail.pl のdecode_entityに を追加 ― 2005年09月01日 22時33分22秒
HEADとstable-2-0の filter/pipermail.pl の decode_entity に を追加しました。
ただ、何故専用の decode_entity をこのフィルタに用意しているのか、すっかり忘れてしまいました。
html::decode_entity を使うのではダメな理由はなんだったけかな?
ただ、何故専用の decode_entity をこのフィルタに用意しているのか、すっかり忘れてしまいました。
html::decode_entity を使うのではダメな理由はなんだったけかな?
ISO-8859-* に関するドキュメント関係の記述を修正 ― 2005年09月02日 18時24分36秒
ISO-8859-* に関するドキュメント関係の記述に誤りがあったので、これを修正しました。(HEAD, stable-2-0)
Namazu が ISO-8859-* に対応しているかの内容になっている箇所があるのですが、実際のプログラムはそのようにはなっていません。
このため、プログラムに合わせてドキュメントを修正しました。
README-es に関しては、語学力がないため問題箇所の修正ではなくて、残念ながら削除になっています。
Namazu が ISO-8859-* に対応しているかの内容になっている箇所があるのですが、実際のプログラムはそのようにはなっていません。
このため、プログラムに合わせてドキュメントを修正しました。
README-es に関しては、語学力がないため問題箇所の修正ではなくて、残念ながら削除になっています。
adnmz, kwnmz, lnnmz の不具合 : カレントディレクトリにインデックスがない場合 ― 2005年09月13日 22時28分45秒
カレントディレクトリにインデックスがない場合に次のコマンドを実行すると、下記のようなメッセージが出力されます。
引数なしで実行すると、カレントディレクトリのインデックスを処理の対象とするように作られているのですが、インデックスがない場合の処理が含まれていないようです。
引数なしで実行すると、カレントディレクトリのインデックスを処理の対象とするように作られているのですが、インデックスがない場合の処理が含まれていないようです。
$ adnmz Use of uninitialized value in -s at nmzidx.pl line 205. Use of uninitialized value in division (/) at nmzidx.pl line 205. Can't call method "read" on an undefined value at nmzidx.pl line 223.
$ kwnmz Use of uninitialized value in -s at nmzidx.pl line 205. Use of uninitialized value in division (/) at nmzidx.pl line 205.
$ lnnmz Use of uninitialized value in -s at nmzidx.pl line 205. Use of uninitialized value in division (/) at nmzidx.pl line 205. Can't call method "close" on an undefined value at nmzidx.pl line 212.
filter/mp3.pl 修正 ― 2005年09月17日 18時27分38秒
以下のfilter/mp3.pl の不具合が修正されました。
(HEAD, stable-2-0)
・MP3::Info1.10 以降で文字化けする不具合を修正
・ID3 ver1 の mp3 ファイルが検出できない不具合を修正
(HEAD, stable-2-0)
・MP3::Info1.10 以降で文字化けする不具合を修正
・ID3 ver1 の mp3 ファイルが検出できない不具合を修正
ChaSen 問題修正 ― 2005年09月17日 21時02分22秒
Chasen (MeCab)では、ASCII 文字列も分かち書きで分解してしまい、kakasi と
分かち書きの結果が大きく異なってしまいます。
また、英文ドキュメントを日本語環境で処理した場合と、英語環境で処理
した場合で、文字列の分解方法が異なるため、インデックスに登録される
単語に違いがでてしまいます。
例えば、「httpd.confは設定ファイルです。」は、kakasi だと「httpd.conf は 設定 ファイル です 。」に分かち書きされ、ChaSen だと「httpd . conf は 設定 ファイル です 。」に、MeCab だと「httpd . conf は 設定 ファイル です 。」になります。
kakasi だと 「httpd.conf」という単語が登録されますが、ChaSen やMeCab では「httpd.conf」という単語は登録されません。このため、namazu で "httpd.conf" で検索しても見つかりません。
以上の Chasen 問題を Text::ChaSen, MeCab モジュールを使用した場合に限り修正しました。(とりあえず HEAD のみ)
参考)
http://www.namazu.org/pipermail/namazu-devel-ja/2005-August/000554.html
同様に以下の問題も解決すると思います。
http://www.namazu.org/pipermail/namazu-devel-ja/2004-October/000217.html
副作用として、ipadic-2.7.0 の chasenrc そのまま使うと、例えば、「httpd.confは設定ファイルです。」は、「h t t p d . c o n f は 設定 ファイル です 。」になるので、chasenrc に
なお、chasen (mecab)コマンド呼び出しの場合は今回修正していません。
例えば、「httpd.confは設定ファイルです。」は、kakasi だと「httpd.conf は 設定 ファイル です 。」に分かち書きされ、ChaSen だと「httpd . conf は 設定 ファイル です 。」に、MeCab だと「httpd . conf は 設定 ファイル です 。」になります。
kakasi だと 「httpd.conf」という単語が登録されますが、ChaSen やMeCab では「httpd.conf」という単語は登録されません。このため、namazu で "httpd.conf" で検索しても見つかりません。
以上の Chasen 問題を Text::ChaSen, MeCab モジュールを使用した場合に限り修正しました。(とりあえず HEAD のみ)
参考)
http://www.namazu.org/pipermail/namazu-devel-ja/2005-August/000554.html
同様に以下の問題も解決すると思います。
http://www.namazu.org/pipermail/namazu-devel-ja/2004-October/000217.html
副作用として、ipadic-2.7.0 の chasenrc そのまま使うと、例えば、「httpd.confは設定ファイルです。」は、「h t t p d . c o n f は 設定 ファイル です 。」になるので、chasenrc に
(COMPOSIT_POS ((名詞 数))
((記号 アルファベット)))
を追加しなければなりませんでしたが、今回の修正でこの追加を行わなく
てもよくなりました。
なお、chasen (mecab)コマンド呼び出しの場合は今回修正していません。
Namazu での利用を前提とした kakasi 用辞書 ― 2005年09月17日 22時23分07秒
全文検索システム Namazu での利用を前提とした私家版の kakasi 用辞書(kanwadict)を更新しました。
Namazu での利用の場合は、kakasi の辞書に登録する語は、これ以上分解すると意味をなさない最小単位のものを登録するのが良く、やみくもに単語を増やしても分かち書き性能が上がるものではありません。
本 kakasi 用辞書は GPL です。
http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/index.htm
Namazu での利用の場合は、kakasi の辞書に登録する語は、これ以上分解すると意味をなさない最小単位のものを登録するのが良く、やみくもに単語を増やしても分かち書き性能が上がるものではありません。
本 kakasi 用辞書は GPL です。
http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/index.htm
--decode-base64 のテスト ― 2005年09月18日 00時11分08秒
mknmz --decode-base64 オプションの有無による動作の違いを確認するテストtests/mknmz-19, tests/namazu-13とテスト用データtests/data/decodebase64/multi-part-mail.txtが追加されました。
また、同時に複数添付ファイルがある場合に単語がくっついてしまうという不具合が発見されたため、filter/mailnews.pl も修正されました。
(HEAD, stable-2-0)
また、同時に複数添付ファイルがある場合に単語がくっついてしまうという不具合が発見されたため、filter/mailnews.pl も修正されました。
(HEAD, stable-2-0)
最近のコメント