filter/mp3.pl 修正 ― 2005年09月17日 18時27分38秒
以下のfilter/mp3.pl の不具合が修正されました。
(HEAD, stable-2-0)
・MP3::Info1.10 以降で文字化けする不具合を修正
・ID3 ver1 の mp3 ファイルが検出できない不具合を修正
(HEAD, stable-2-0)
・MP3::Info1.10 以降で文字化けする不具合を修正
・ID3 ver1 の mp3 ファイルが検出できない不具合を修正
ChaSen 問題修正 ― 2005年09月17日 21時02分22秒
Chasen (MeCab)では、ASCII 文字列も分かち書きで分解してしまい、kakasi と
分かち書きの結果が大きく異なってしまいます。
また、英文ドキュメントを日本語環境で処理した場合と、英語環境で処理
した場合で、文字列の分解方法が異なるため、インデックスに登録される
単語に違いがでてしまいます。
例えば、「httpd.confは設定ファイルです。」は、kakasi だと「httpd.conf は 設定 ファイル です 。」に分かち書きされ、ChaSen だと「httpd . conf は 設定 ファイル です 。」に、MeCab だと「httpd . conf は 設定 ファイル です 。」になります。
kakasi だと 「httpd.conf」という単語が登録されますが、ChaSen やMeCab では「httpd.conf」という単語は登録されません。このため、namazu で "httpd.conf" で検索しても見つかりません。
以上の Chasen 問題を Text::ChaSen, MeCab モジュールを使用した場合に限り修正しました。(とりあえず HEAD のみ)
参考)
http://www.namazu.org/pipermail/namazu-devel-ja/2005-August/000554.html
同様に以下の問題も解決すると思います。
http://www.namazu.org/pipermail/namazu-devel-ja/2004-October/000217.html
副作用として、ipadic-2.7.0 の chasenrc そのまま使うと、例えば、「httpd.confは設定ファイルです。」は、「h t t p d . c o n f は 設定 ファイル です 。」になるので、chasenrc に
なお、chasen (mecab)コマンド呼び出しの場合は今回修正していません。
例えば、「httpd.confは設定ファイルです。」は、kakasi だと「httpd.conf は 設定 ファイル です 。」に分かち書きされ、ChaSen だと「httpd . conf は 設定 ファイル です 。」に、MeCab だと「httpd . conf は 設定 ファイル です 。」になります。
kakasi だと 「httpd.conf」という単語が登録されますが、ChaSen やMeCab では「httpd.conf」という単語は登録されません。このため、namazu で "httpd.conf" で検索しても見つかりません。
以上の Chasen 問題を Text::ChaSen, MeCab モジュールを使用した場合に限り修正しました。(とりあえず HEAD のみ)
参考)
http://www.namazu.org/pipermail/namazu-devel-ja/2005-August/000554.html
同様に以下の問題も解決すると思います。
http://www.namazu.org/pipermail/namazu-devel-ja/2004-October/000217.html
副作用として、ipadic-2.7.0 の chasenrc そのまま使うと、例えば、「httpd.confは設定ファイルです。」は、「h t t p d . c o n f は 設定 ファイル です 。」になるので、chasenrc に
(COMPOSIT_POS ((名詞 数))
((記号 アルファベット)))
を追加しなければなりませんでしたが、今回の修正でこの追加を行わなく
てもよくなりました。
なお、chasen (mecab)コマンド呼び出しの場合は今回修正していません。
Namazu での利用を前提とした kakasi 用辞書 ― 2005年09月17日 22時23分07秒
全文検索システム Namazu での利用を前提とした私家版の kakasi 用辞書(kanwadict)を更新しました。
Namazu での利用の場合は、kakasi の辞書に登録する語は、これ以上分解すると意味をなさない最小単位のものを登録するのが良く、やみくもに単語を増やしても分かち書き性能が上がるものではありません。
本 kakasi 用辞書は GPL です。
http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/index.htm
Namazu での利用の場合は、kakasi の辞書に登録する語は、これ以上分解すると意味をなさない最小単位のものを登録するのが良く、やみくもに単語を増やしても分かち書き性能が上がるものではありません。
本 kakasi 用辞書は GPL です。
http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/index.htm
最近のコメント