2006年01月29日
Namazu Project
日本語全文検索システム Namazu 2.0.15 リリース
Namazu Project は、オープンソースソフトウェア Namazu 2.0.15 を
2006年01月29日にリリースいたしました。
GPL2(GNU General Public License version 2)に従って、Webサイトにて
一般公開したことを発表します。
Namazu は手軽に使えることを第一に目指した日本語全文検索システムです。
CGI として動作させることにより小中規模の WWW 全文検索システムを構築す
ることができるほか、コマンドラインから利用する用途にも使えます。
Namazu 2.0.13 から実に1年9ヶ月ぶりのリリースである Namazu 2.0.15
には、セキュリティの強化、オプション追加による機能強化、より多くの
文書形式に対応、Microsoft Windows 環境での動作向上、各種バグフィックス
等が行われています。(Namazu 2.0.14 はセキュリティフィックスバージョン)
Namazu 2.0.14 をご利用の方は、是非バージョンアップを実施されること
をお勧めいたします。
■ 主な変更内容
1. セキュリティ面の強化
- 「中間一致検索」および「後方一致検索」で正規表現を含めることが
できたバグを修正 (緊急度:低)
- フレーズ検索に正規表現が記述できるバグを修正 (緊急度:低)
[Windows版のみ]
- ファイル名に Unicode の '\' や DDN(DOS DEVICE NAME)が含まれる場合
の不具合に対応 (緊急度:低)
2.新機能の追加
- DDN を排除する機能の追加 ($DENY_DDN で設定)
- 分かち書きツール Mecab に正式対応
- ファイル名検索の追加($SEARCH_FIELD に filename の追加が必要)
- フィールドによる日付順ソートの追加
($SEARCH_FIELD に utc の追加が必要)
- mknmz, namazu に --norc オプションの追加
- QUERY_STRING の区切りに'&'に加えて、';'を追加
- HTML タグにクラス名"namazu-result-header"と"namazu-result-footer"
を付加
- xdoc2txt.pl フィルタ追加 (Windows専用)
- 付属ツールに nmzcat, nmzegrep を新たに追加
3.Microsoft Windows 環境での動作向上
- OLE コントロールフィルタの安定性向上
- インデックス作成時のネットワークドライブ(UNC パス)指定に対応
- Windows 95,98,Meでの外部コマンド呼び出しの安定性向上
(win95cmd.exe が必要)
- 各種フィルタの Windows 環境への対応
(msword.pl, excel.pl, powerpoint.pl 等)
4.対応文書形式を追加(注1)
- Gnumeric文書
- KOffice文書(KWord, KSpread, KPresenter, Kivio)
- Mail 内の添付ファイル(--decode-base64 オプション使用時)
- MHTML文書(--decode-base64 オプション使用時)
- OpenOffice.org2.0 OpenDocumentフォーマット文書
- MailMan/Pipermail文書
- Microsoft Visio文書(Windows限定)
- Zip 文書
5.文書抽出精度の向上
- Microsoft Office 文書に混ざるマークアップタグの削除
- Microsoft Office 文書内のフィールド情報(title, author,
keywords)の抽出
- mailutime に Timezone を考慮
6.バグフィックス
下記の問題をはじめ多数の修正をしました
- HTML, Excel ファイルのインデックス作成が低速になるバグ
- %01 がqueryに含まれる場合の強調表示のバグ
- ファイルの中身に 0x7f(DEL) を含むと,それ以降の文字列が無視
されるバグ
- ドイツ語テンプレートの lang が dn になっているバグ
- 文書削除後に新たに追加した場合,NMZ.head の文書数を誤るバグ
- ファイル名に機種依存文字があると NMZ.field.uri がずれるバグ
- nmzmerge で一方の field の種類が無効になるバグ
- gcnmz, lnnmz, nmzmerge でテンポラリファイルが残るバグ
- 検索式と補助検索式の評価順序のバグ
- Microsoft Office 未インストールの Microsoft Windows 環境で
mknmz が停止するバグ
- MaxHit, MaxMatch の比較を削除された文書を含めて行っていたバグ
- 正規表現検索で \D 等大文字のものが小文字 \d として扱われるバグ
- ディレクトリをコマンドと誤認し、外部プログラムのパス取得を誤るバグ
- 誤動作を防止するために HTML で256以上の数値実態参照を削除
- conf/namazurc-sample に Suicide_Time と Regex_Search を追加
- テンプレートの value="", selected, checked を削除する処理のバグ
- フィールド検索での MaxHit の修正
- フレーズ検索で 文書ID=0 がヒットしないバグ
7.必要外部プログラムの整理
- lv 依存の解消(Nkf 2.* または Perl5.8.* 使用の場合)
8.開発者のための機能追加,修正
- Microsoft Windows 環境を考慮した Perl 版テストツール(pltests)
の整備
- テンプレート,ヘッダ等を HTML 規格に合うように修正
- namazu.spec を修正。RPM, SRPM の作成が可能
- 入れ子構造のファイル用の文書フィルタに対応
(例:mailnews.pl, zip.pl)
- MinGw版で nmz.dll 作成に対応
- configure のメッセージを新しい ExtUtils::MakeMaker に対応
■ 動作確認OS
Linux, FreeBSD, OpenBSD, NetBSD, Solaris, MacOS X, Win32 他
■ 配布元
Namazu Web サイト http://www.namazu.org/ で配布しています。
■ ライセンス
GPL2
■ 商標について
商品名・会社名等はすべて各社、各組織の商標または登録商標です。
(注1)
文書フィルタの他に、アプリケーションまたは Perl モジュールの
インストールを必要とするものがあります。
■ 本件に関するお問合せ先
Namazu Project
e-mail: info@namazu.org
URL: http://www.namazu.org/
最近のコメント