filter/mp3.pl 修正2005年09月17日 18時27分38秒

以下のfilter/mp3.pl の不具合が修正されました。
(HEAD, stable-2-0)

・MP3::Info1.10 以降で文字化けする不具合を修正
・ID3 ver1 の mp3 ファイルが検出できない不具合を修正

ChaSen 問題修正2005年09月17日 21時02分22秒

Chasen (MeCab)では、ASCII 文字列も分かち書きで分解してしまい、kakasi と 分かち書きの結果が大きく異なってしまいます。 また、英文ドキュメントを日本語環境で処理した場合と、英語環境で処理 した場合で、文字列の分解方法が異なるため、インデックスに登録される 単語に違いがでてしまいます。

例えば、「httpd.confは設定ファイルです。」は、kakasi だと「httpd.conf は 設定 ファイル です 。」に分かち書きされ、ChaSen だと「httpd . conf は 設定 ファイル です 。」に、MeCab だと「httpd . conf は 設定 ファイル です 。」になります。

kakasi だと 「httpd.conf」という単語が登録されますが、ChaSen やMeCab では「httpd.conf」という単語は登録されません。このため、namazu で "httpd.conf" で検索しても見つかりません。


以上の Chasen 問題を Text::ChaSen, MeCab モジュールを使用した場合に限り修正しました。(とりあえず HEAD のみ)

参考)

http://www.namazu.org/pipermail/namazu-devel-ja/2005-August/000554.html

同様に以下の問題も解決すると思います。

http://www.namazu.org/pipermail/namazu-devel-ja/2004-October/000217.html

副作用として、ipadic-2.7.0 の chasenrc そのまま使うと、例えば、「httpd.confは設定ファイルです。」は、「h t t p d . c o n f は 設定 ファイル です 。」になるので、chasenrc に

(COMPOSIT_POS ((名詞 数))
          ((記号 アルファベット)))

を追加しなければなりませんでしたが、今回の修正でこの追加を行わなく てもよくなりました。


なお、chasen (mecab)コマンド呼び出しの場合は今回修正していません。

Namazu での利用を前提とした kakasi 用辞書2005年09月17日 22時23分07秒

全文検索システム Namazu での利用を前提とした私家版の kakasi 用辞書(kanwadict)を更新しました。

Namazu での利用の場合は、kakasi の辞書に登録する語は、これ以上分解すると意味をなさない最小単位のものを登録するのが良く、やみくもに単語を増やしても分かち書き性能が上がるものではありません。

本 kakasi 用辞書は GPL です。

http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/index.htm