MeCab 0.90 における mecabrc ファイルの優先順位2006年04月04日 02時27分56秒

MeCab 0.90 における mecabrc ファイルの優先順位

1. コマンドラインパラメータ -r, --rcfile で指定した mecabrc ファイル

2. 環境変数 HOME が設定されている場合 ~/.mecabrc ファイル

3. 環境変数 MECABRC で指定した mecabrc ファイル

4. レジストリ HKEY_LOCAL_MACHINE\software\mecab\mecabrc の mecabrc ファイル
[Windowsのみ]

5. レジストリ HKEY_CURRENT_USER\software\mecab\mecabrc の mecabrc ファイル
[Windowsのみ]

6. DLL と同じディレクトリの mecabrc
[Windowsのみ]

7. MECAB_DEFAULT_RC
UNIX は /usr/local/etc/mecabrc
Windows は、C:\Program Files\mecab\etc\mecabrc

 注意) コンパイルオプションに変更が可能


Windows版はインストーラにより、Administrator でインストールを行うとHKEY_LOCAL_MACHINE (共有利用)を設定します。 通常は、HKEY_CURRENT_USER (個人利用)を設定します。

Windows 版の mecabrc の位置は {app}\etc\mecabrc です。

ちなみに 辞書は UNIX では /usr/local/lib/mecab/dic/ipadic に Windows では {app}\dic\ipadic になります。

MeCab PPM2006年04月04日 15時46分19秒

MeCab 0.90 がリリースされましたので、MeCab の PPM を作成しました。

 http://www.akaneiro.jp/PPMPackages/800/MeCab.ppd

ppm コマンドでインストールができます。

 C:> ppm uninstall MeCab
 C:> ppm install http://www.akaneiro.jp/PPMPackages/800/MeCab.ppd

MeCab Perl モジュールは ppm コマンドでインストールできますが、Text-Kakasi 同様に PPM のインストールだけでは動作せず、辞書と mecabrc のインストールおよび設定が必要になります。

 http://www.akaneiro.jp/public/mecab-ipadic.zip

から辞書ファイルをダウンロードして、手順に従ってインストールを行ってください。

Namazu for Windows 2.0.16 では EUC-JP の辞書を前提にしています。

[追記]

現在、インストール方法が変わりました。 詳しくは http://namazu.asablo.jp/blog/2008/09/29/3788573 をご覧ください。

MeCab 分かち書き用辞書2006年04月04日 19時13分27秒

MeCab の辞書作成ツールの mecab-dict-index には -w オプションがあり、分かち書き用の辞書を作成することができます。

Namazu では MeCab を分かち書きにしか使いませんので、分かち書き用の辞書で十分です。

分かち書き用の辞書は通常の辞書よりサイズが小さくなります。
sys.dic のサイズを比較すると以下の通りです。
通常 36897200
分かち書き用 15062273

また、-c オプションに euc-jp shift_jis utf-8 を指定することで、それぞれの漢字コードの辞書が作成できます。(Namazu では EUC-JP の辞書を使います。)

sys.dic のサイズを比較すると
euc-jp 36897200
shift-jis 36755616
cp932 36753464
utf-8 48055864
となりました。
Perl のバージョンは 5.8.0 でしたので、cp932 の結果は Perl のバージョンによって異なるでしょう。

ところで、Linux で作成した辞書と Windows で作成した辞書とで、ファイルサイズは同じでしたが、内容に差がありました。
この差は何によって生じるものかは不明です。(精度の問題???)