MeCab 0.90 における mecabrc ファイルの優先順位 ― 2006年04月04日 02時27分56秒
MeCab 0.90 における mecabrc ファイルの優先順位
1. コマンドラインパラメータ -r, --rcfile で指定した mecabrc ファイル
2. 環境変数 HOME が設定されている場合 ~/.mecabrc ファイル
3. 環境変数 MECABRC で指定した mecabrc ファイル
4. レジストリ HKEY_LOCAL_MACHINE\software\mecab\mecabrc の mecabrc ファイル
[Windowsのみ]
5. レジストリ HKEY_CURRENT_USER\software\mecab\mecabrc の mecabrc ファイル
[Windowsのみ]
6. DLL と同じディレクトリの mecabrc
[Windowsのみ]
7. MECAB_DEFAULT_RC
UNIX は /usr/local/etc/mecabrc
Windows は、C:\Program Files\mecab\etc\mecabrc
注意) コンパイルオプションに変更が可能
Windows版はインストーラにより、Administrator でインストールを行うとHKEY_LOCAL_MACHINE (共有利用)を設定します。 通常は、HKEY_CURRENT_USER (個人利用)を設定します。
Windows 版の mecabrc の位置は {app}\etc\mecabrc です。
ちなみに 辞書は UNIX では /usr/local/lib/mecab/dic/ipadic に Windows では {app}\dic\ipadic になります。
1. コマンドラインパラメータ -r, --rcfile で指定した mecabrc ファイル
2. 環境変数 HOME が設定されている場合 ~/.mecabrc ファイル
3. 環境変数 MECABRC で指定した mecabrc ファイル
4. レジストリ HKEY_LOCAL_MACHINE\software\mecab\mecabrc の mecabrc ファイル
[Windowsのみ]
5. レジストリ HKEY_CURRENT_USER\software\mecab\mecabrc の mecabrc ファイル
[Windowsのみ]
6. DLL と同じディレクトリの mecabrc
[Windowsのみ]
7. MECAB_DEFAULT_RC
UNIX は /usr/local/etc/mecabrc
Windows は、C:\Program Files\mecab\etc\mecabrc
注意) コンパイルオプションに変更が可能
Windows版はインストーラにより、Administrator でインストールを行うとHKEY_LOCAL_MACHINE (共有利用)を設定します。 通常は、HKEY_CURRENT_USER (個人利用)を設定します。
Windows 版の mecabrc の位置は {app}\etc\mecabrc です。
ちなみに 辞書は UNIX では /usr/local/lib/mecab/dic/ipadic に Windows では {app}\dic\ipadic になります。
MeCab PPM ― 2006年04月04日 15時46分19秒
MeCab 0.90 がリリースされましたので、MeCab の PPM を作成しました。
http://www.akaneiro.jp/PPMPackages/800/MeCab.ppd
ppm コマンドでインストールができます。
C:> ppm uninstall MeCab C:> ppm install http://www.akaneiro.jp/PPMPackages/800/MeCab.ppd
MeCab Perl モジュールは ppm コマンドでインストールできますが、Text-Kakasi 同様に PPM のインストールだけでは動作せず、辞書と mecabrc のインストールおよび設定が必要になります。
http://www.akaneiro.jp/public/mecab-ipadic.zip
から辞書ファイルをダウンロードして、手順に従ってインストールを行ってください。
Namazu for Windows 2.0.16 では EUC-JP の辞書を前提にしています。
[追記]
現在、インストール方法が変わりました。 詳しくは http://namazu.asablo.jp/blog/2008/09/29/3788573 をご覧ください。
MeCab 分かち書き用辞書 ― 2006年04月04日 19時13分27秒
MeCab の辞書作成ツールの mecab-dict-index には -w オプションがあり、分かち書き用の辞書を作成することができます。
Namazu では MeCab を分かち書きにしか使いませんので、分かち書き用の辞書で十分です。
分かち書き用の辞書は通常の辞書よりサイズが小さくなります。
sys.dic のサイズを比較すると以下の通りです。
通常 36897200
分かち書き用 15062273
また、-c オプションに euc-jp shift_jis utf-8 を指定することで、それぞれの漢字コードの辞書が作成できます。(Namazu では EUC-JP の辞書を使います。)
sys.dic のサイズを比較すると
euc-jp 36897200
shift-jis 36755616
cp932 36753464
utf-8 48055864
となりました。
Perl のバージョンは 5.8.0 でしたので、cp932 の結果は Perl のバージョンによって異なるでしょう。
ところで、Linux で作成した辞書と Windows で作成した辞書とで、ファイルサイズは同じでしたが、内容に差がありました。
この差は何によって生じるものかは不明です。(精度の問題???)
Namazu では MeCab を分かち書きにしか使いませんので、分かち書き用の辞書で十分です。
分かち書き用の辞書は通常の辞書よりサイズが小さくなります。
sys.dic のサイズを比較すると以下の通りです。
通常 36897200
分かち書き用 15062273
また、-c オプションに euc-jp shift_jis utf-8 を指定することで、それぞれの漢字コードの辞書が作成できます。(Namazu では EUC-JP の辞書を使います。)
sys.dic のサイズを比較すると
euc-jp 36897200
shift-jis 36755616
cp932 36753464
utf-8 48055864
となりました。
Perl のバージョンは 5.8.0 でしたので、cp932 の結果は Perl のバージョンによって異なるでしょう。
ところで、Linux で作成した辞書と Windows で作成した辞書とで、ファイルサイズは同じでしたが、内容に差がありました。
この差は何によって生じるものかは不明です。(精度の問題???)
最近のコメント