Namazu 2.0.X のインデックスの種類2007年04月28日 21時31分07秒

Namazu 2.0.X のインデックスは大きく分けると次の3種類に分類できます。

  • A. 日本語インデックス (EUC-JP で構成)
  • B. 英語インデックス (US_ASCII のみで構成されたもの)
    • 日本語インデックスの下位互換。
  • C. イリーガルインデックス
    • ISO-8859-1 文字を含むインデックス。
    • 日本語インデックスと互換性がない。未サポート。
    • 現在の 2.3.X の UTF-8 インデックスとは皮肉なことに後方互換となっているが、2.3.X のインデックス形式は将来変更される可能があります。

A は日本語の文書を日本語で言語処理を行ってインデックスを作成したもの。

B は英語(US_ASCII)の文書からインデックスを作成したもの。

C は英語(ISO-8859-1)の文書を日本語以外(英語を含むISO-8859-1の言語)で言語処理を行ってインデックスを作成したもの。

  • 日本語インデックスを用いて検索結果を表示するには、メッセージの表示言語は日本語でなければなりません。(漢字コードについては制限があります。)
  • 英語インデックスを用いて検索結果を表示する場合は、メッセージの表示言語に制限はありません。(デフォルトでサポートしていない言語については、テンプレートおよびメッセージカタログを用意する必要はあります。)
  • イリーガルインデックスを用いて検索結果を表示するには、メッセージの表示言語はISO-8859-1の言語でなければなりません。日本語はISO-8859-1ではありませんので、日本語を選択することはできません。

namazu.cgi におけるメッセージ表示言語の切替機能2007年04月28日 22時52分56秒

namazu.cgi では、検索ページの input タグの lang (CGI変数のlang)により、メッセージ表示言語の切替を可能とする機能があります。

この機能を利用する条件としては、

  • MESSAGES関係の環境変数が未設定であること。 (LANGUAGE, LC_ALL, LC_MESSAGES, LANG)

MacOS X + gettext 0.14.2 以降の場合は、OS の言語環境が未設定であること。(デフォルトで何か設定されている場合は、切替機能を利用することはできいないことになります。)

  • 英語インデックスを使用すること。

となります。

切り替える言語は何でも構いません。(文字コード(エンコード)には制限あり)

  • 英語インデックスを用いて検索結果を表示する場合は、メッセージの表示言語に制限はありません。(デフォルトでサポートしていない言語については、テンプレートおよびメッセージカタログを用意する必要はあります。)
  • イリーガルインデックスを用いて検索結果を表示するには、メッセージの表示言語はISO-8859-1の言語でなければなりません。日本語はISO-8859-1ではありませんので、日本語を選択することはできません。
  • 日本語インデックスを用いて検索結果を表示するには、メッセージの表示言語は日本語でなければなりません。(漢字コードについては制限があります。) つまり、メッセージ表示言語の切替機能を使うことはできません。

これはインデックスに含まれる文字をサポートする言語でなければ、メッセージ表示言語として選択できないためです。

以上のことから、メッセージ表示言語切替機能の主な用途として次のものがあります。 RFC や英文のニュース、メーリングリスト等の英文ドキュメントを検索するシステムで、インターフェイス部分は多数の言語をサポートし、利用者がメッセージ表示言語を選択できるシステム。

備考)

  • メッセージ表示切替機能を利用する目的以外で input タグの lang を使う必要はありません。
  • 固定のメッセージ表示言語を指定する目的には、環境変数か、.namazurc の Lang を使用してください。