decode_numbered_entity 関係修正2005年12月07日 07時59分14秒

Malformed UTF-8 character .... というワーニングやWide character in print at mknmz といったワーニングが発生し、インデックスを壊す可能性があるので、とりあえずfilter/html.pl の decode_numbered_entity で、256以上を削除するようにしました。(本来ですと 128以上は削除しなければなりませんが...。)
日本語環境では元々128以上は削除されるので、あまり関係ありません。

filter/gnumeric.pl も似たような問題があったので修正しました。
gnumeric では日本語はEUC-JPのままエンコードされるらしいです。
(というより何も考えずにエンコードしているのでしょう。)
このため、日本語環境以外でデコードすると文字化けの原因となるため、日本語環境以外では128以上は削除するようにしました。
また、EUC-JPの範囲外のコードをデコードするのは好ましくないため、簡単なコードの範囲チェックを加えました。

namazu-2.0.15pre3.tar.gz 公開2005年12月07日 08時00分28秒

Namazu 2.0.15 pre3 を公開します。

http://www.namazu.org/test/namazu-2.0.15pre3.tar.gz http://www.namazu.org/test/namazu-2.0.15pre3.tar.gz.md5 http://www.namazu.org/test/namazu-2.0.15pre3.tar.gz.sha1 http://www.namazu.org/test/namazu-2.0.15pre3.tar.gz.sig

$ md5sum namazu-2.0.15pre3.tar.gz

bea9d1e42c7ceeb307883b726cffd03a namazu-2.0.15pre3.tar.gz

$ sha1sum namazu-2.0.15pre3.tar.gz

245e66d8378615fd48c25f09ebf4bd0fd887a3ac namazu-2.0.15pre3.tar.gz

・主な pre2 からの修正内容(漏れがあるかもしれません)

* mknmz に --norc オプションを追加
* MaxHit, MaxMatch の比較を削除された文書を含めて行っていたのを修正
* フィールド検索の MaxHit の修正
* fseek の戻り値を -1 と比較していた部分を 0 でないかどうかで比較
  するように修正
* 「中間一致検索」および「後方一致検索」で正規表現を含めることができ
  たバグを修正
* cmd.exe に /d /x /c オプションを付ける
* QUERY_STRING の区切り '&' に加えて、';' を追加
* テンプレートの value="", selected, checked を削除する部分を修正
* xdoc2txt.exe 用フィルタ追加
* nmz_getlong_option() の戻り値チェックで EOF を -1 に変更
* namazu -4 オプションに引数が必要なので、short_options の 4 の後に 
  ':' を追加
* namazu に --norc オプション
* フレーズ検索で 文書ID=0 がヒットしないバグを修正
* 日付順ソートのため $fields{'utc'} を追加
* MeCab 対応
* conf/namazurc-sample に Suicide_Time と Regex_Search を追加
* MinGw版 nmz.dll を作成できるように Makefile を修正
* DDN(DOS Device Name)を排除するように修正
* tutorial.html のソフトウェアを最新バージョンに更新
* pltests の cmd.exe に /d /x オプションを追加
* filter/gnumeric.pl(decode_numbered_entity) コード範囲をチェック
* filter/html.pl decode_numbered_entity 256以上を削除

・今後の予定

* pre3のWindowsで動作確認するためのテスト用バイナリの作成
* Namazu 2.0.15RC1 の公開

とくに大きな問題がない限り、基本的には、このpre3をほぼそのままRC1 として早々に公開したいと考えています。

免責) テストする場合は、文書が削除される危険性もあるので、念のため バックアップをとった文書を使ってテストしてください。

「Namazuの開発日記」メールマガジン第一号発行2005年12月07日 21時56分21秒

「Namazuの開発日記」メールマガジン第一号発行しました。

登録はもちろん無料です。
下記から登録/解除が可能です。

Namazuの開発日 記  登録 解除
メールアドレス