MeCab 0.93 リリース2006年08月02日 16時03分56秒

MeCab 0.93 がリリースされました。

ライセンスがLGPLから、LGPL,GPL,BSDライセンスのトリプルライセンスに変更となったぐらいだそうです。

namazu.cgi のタイムアウトに関して2006年08月04日 19時39分32秒

namazu.cgi は Suicide_Time で設定した時間(デフォルトで60秒)でタイムアウトする機能があります。
しかし、この機能は UNIX でしか働かないということが今回わかりました。
これは UNIX の機能を利用した仕組みのためです。

元々、念のためにという機能ですので、Suicide_Time に頼らず、UNIX にしても Windows にしても、Web サーバのタイムアウトでリソースの制限を加えるようにお願いします。

例えば、Apache 2.0では、RLimitCPU/RLimitMEM/RLimitNPROCディレクティブを利用することでサーバリソースを制限できます。

cygwin 版はこの場合 UNIX 版として扱ってください。

Windows 版の namazu.cgi のタイムアウト問題に関する修正2006年08月04日 21時05分50秒

  • namazurc-sample の SUICIDE_TIME の項に (Only UNIX) と追加しました。
  • MinGw で未サポートの SIGALRM を signal に使っているのと、alarm を SetTimer としているので、これらを呼び出さないように修正しました。

Namazu for Windows 2.0.16 ダウンロード数(4)2006年08月08日 11時32分50秒

アクセスログの保存期間が3ヶ月しかないので、前回以降の集計です。

6/15~8/8(本日)までの nmz2.0.16.001-win32.zip のダウンロード数は、1,100 でした。

NKF, File-MMagic, Text-Kakasi の PPM のダウンロード数はそれぞれ 370 でした。

Search-Namazu の PPM のダウンロード数は 60、MeCab の PPM のダウンロード数は 35 でした。

PPM のセッション数は 430 ですので、370 + 60 + 35 = 465 とほぼ一致します。

このことから、この期間のインターネットからの Namazu 2.0.16 for Windows ののべインストール数は 370 台ということでしょう。
(PPM を含む zip ファイルをダウンロードし、ローカルからインストールすることもできるので、実際にはもう少し多いとは思います。zip ファイルのダウンロード数はそれぞれ 30 ほどでした。)

相変わらず nmz2.0.16.001-win32.zip のダウンロード数と PPM のダウンロード数に3倍ほどのひらきがありますね。

なお、前回の調査と合わせると、nmz2.0.16.001-win32.zip ののべダウンロード数は 3,700。インターネットからの Namazu 2.0.16 for Windows ののべインストール数は 1,000~1,200 ぐらいのようです。

そろそろ旧バージョンは一掃し、2.0.16 に置き換えられたと思いたいところですが、8/1~8/8の期間だけでもダウンロード数120、インストール数40でした。

皆さん、早々にバージョンアップしましょう。

HEAD を Namazu 2.3.X へ移行2006年08月13日 09時04分53秒

従来の HEAD(2.1.X) を development-2-1 ブランチに分け、HEAD をutf8index-branch に置き換えを行う作業がスタートしました。

これにより HEAD を Namazu 2.3.X とし、Namazu 2.2.X の開発版という位置づけにします。

従来の安定版 stable-2-0 に対する開発版は development-2-1 となります。

「"」「/」を検索すると無限ループになるバグ修正2006年08月13日 09時13分15秒

namazu.cgi および namazu -h で「"」または「/」のみを検索した場合、インデックスに単語としてそれらが含まれる場合(つまり、ヒットする場合)で、無限ループに入ることが分かりましたので、これを修正しました。(stable, devel)

なお、インデックスにこれらが単語として含まれない場合(ヒットしない場合)には無限ループにはなりません。

また、強調処理と HTML エンコードの順番を逆にして、強調表示されないバグを修正しました。(stable, devel)

whence, query が空の場合はデフォルト値を使うように修正2006年08月17日 03時05分06秒

namazu.cgi で、whence, query を空の値で設定した場合は、デフォルト値を使うように修正しました。

【Trac】リポジトリの全文検索 with Namazu プラグイン ver 0.12006年08月20日 00時55分27秒

【Trac】リポジトリの全文検索 with Namazu プラグイン ver 0.1

というものを見つけました。

http://weekbuild.blog39.fc2.com/blog-entry-9.html

Tracからリポジトリの中を検索するためのプラグインです。

バッチでリポジトリをエクスポートし、Namazuのインデックスを生成し、Trac内でコマンド版namazuを実行し、その結果を表示するそうです。

namazu を実行するのはどうかと思いますが、Trac の Namazu検索に使えそうです。

nmz/codeconv.c(get_external_charset) について2006年08月25日 10時09分13秒

nmz/codeconv.c にローカル関数 get_external_charset() を用意しました。 nmz_get_lang() の値から、外部キャラセット文字列を生成します。 文字列はキャッシュされており、nmz_get_lang() の値に変化がなけれ前回と同じ文字列を返します。 nmz_get_lang() の値がサポート外の場合は、NULL を返します。

get_external_charset() は nmz_codeconv_external() から呼び出し、UTF-8 から外部コードへの変換に利用します。

サポートしているキャラセットは、"UTF-8", "EUC-JP", "Shift_JIS", "ISO-2022-JP", "ISO-8859-1", "ISO-8859-2", "ISO-8859-15" です。 ただし、"EUC-JP", "Shift_JIS", "ISO-2022-JP" 以外は、従来の英語、フランス語、ドイツ語、スペイン語、ポーランド語をサポートするための限定されたものです。 また、"UTF-8" はコード変換をしないことを意味します。

  • "*.utf8" は UTF-8 として扱います。
  • "*.ISO-2022-JP", "*.ISO2022JP" は ISO-2022-JP として扱います。
  • "*.ISO-8859-1", "*.ISO88591" は ISO-8859-1 として扱います。同様に ISO-8859-2, ISO-8859-15 に対応します。
  • 上記のような接尾語が付かない場合、 "ja_*" は EUC-JP, "en_*", "fr_*", "de_*", "es_*" は ISO-8859-1, "pl_*" は ISO-8859-2 として扱います。
  • "french", "deutsch", "german", "spanish" は ISO-8859-1, "polish" は ISO-8859-2 として扱いますが、"german", "spanish", "polish" はメッセージカタログの方は対応していないので、暫定状態です。

従来は US-ASCII 前提の英語を他の国の言語と同様に扱いました。 これは、英語だけが ISO-8859-* を扱えないのも不自然なためです。 とは言え、全ての環境で利用できる US-ASCII がないのも不便です。 "en" の扱いを変えて、US-ASCII の "C" と分ける等考えないといけないのかもしれません。 メッセージカタログと合わせて今後検討していきたいと思います。

なお、これらの修正は HEAD に対して行いましたが、development-2-1 にも評価用に廉価版の get_external_charset() を導入しました。

高騰!? 改訂 Namazuシステムの構築と活用2006年08月30日 19時26分41秒

どうやら最近品切れとなってしまったようです。 書店でもネット販売でも見つかりませんね。 そのためか古本の価格が異常なまでに高騰しています。

内容は今となっては古いところもあるのですが、良本ですからね。



改訂 Namazuシステムの構築と活用
馬場 肇 (著)
日本語全文検索システム Namazu を基本的な設定からカスタマイズ、関連ツールまで幅広く紹介した一冊。2001年刊の改訂版です。
Namazuシステムの構築と活用改訂日本語全文検索徹底ガイド Namazuシステムの構築と活用改訂日本語全文検索徹底ガイド

著者:馬場肇
出版社:ソフトバンクパブリッシング
本体価格:2,800円
楽天ブックスで購入する楽天ブックスで購入する