MeCab 用 IPA バイナリ辞書インストーラ公開のお知せ ― 2008年09月22日 20時49分10秒
以前より .zip 形式で公開しておりました MeCab PPM 用 IPA バイナリ辞書を .msi (Microsoft Installer 形式)で公開することになりました。
MeCab では、入力データの漢字コードと同じ漢字コードの辞書を使う必要があります。 3種類の辞書を用意していますので、目的に合せてご利用ください。
●MeCab 用 IPA バイナリ辞書インストーラ(EUC-JP版)
http://www.akaneiro.jp/public/mecab/ipadic/
Namazu for Windows で使用する場合は EUC-JP 版の辞書をご利用ください。
●MeCab 用 IPA バイナリ辞書インストーラ(Shift_JIS版)
https://www.akaneiro.jp/members/mecab/ipadic-sjis/
メンバエリアにて公開。グレー会員以上の方がダウンロード可能です。 ブルー会員、グリーン会員の方もダウンロード可能です。
●MeCab 用 IPA バイナリ辞書インストーラ(UTF-8版)
https://www.akaneiro.jp/members/mecab/ipadic-utf8/
メンバエリアにて公開。グレー会員以上の方がダウンロード可能です。 ブルー会員、グリーン会員の方もダウンロード可能です。
[インストール方法]
IE で上記 URL にアクセスするとインストーラが起動します。 あとはインストーラの指示に従ってインストールしてください。
[動作環境]
- ActivePerl Windows(x86) 版のみに対応しています。
ActivePerl Windows(x64) 版には対応していません。
- ActivePerl 800番台(5.8.X) のみに対応しています。
ActivePerl 600番台(5.6.X)、1000番台(5.10.X) にはインストールできません。
詳しくは
http://www.akaneiro.jp/mecab/ppm/
をご覧ください。
なお、従来の .zip ファイルの公開は終了しました。
コメント
_ koke ― 2008年10月15日 13時18分40秒
_ opengl2772 ― 2008年10月15日 14時04分21秒
発想としてはN-gramに近いものと思いますが、「東京都」から「東京」「京都」「東京都」を登録すると、「京都」を検索したい時に「東京都」というゴミが見つかることになります。これは避けたい問題です。
見つけることも重要ですが、絞り込むことも重要なのです。
ゴミが一杯で絞り込めないのは、見つからないのと同じように困った問題となります。
重要なのはバランスでして、商用大手検索エンジンはこのバランスがうまいのです。
また、検索対象の文書を基に専用辞書を作成するという話ですが、用途によっては実際に行われています。
ただし、辞書作成には膨大な時間とメモリを消費することが多いため、汎用の辞書で済ますのが一般的です。
_ koke ― 2008年10月17日 00時35分44秒
_ opengl2772 ― 2008年10月17日 13時37分47秒
その分割を簡単に行うには、辞書が必要になります。
で、MeCab 等で分かち書きをするわけです。
MeCab の辞書は統計をとって作成するものですから、大変な作業を行っているわけです。その成果を Namazu は使っています。
たとえば、MeCab だと、「東京都」を分かち書きすると「東京」「都」に分けるというのが第一候補として出てくるのは、統計から作成した辞書のおかげです。
結局、文字列を単純に分割するのでは都合が悪く、それを統計取って区切りを判断するということになると、つまりは分かち書きツールと同じ処理を行うということになります。また、統計をとるということは区切りの精度を上げるということでもあります。
_ koke ― 2008年10月17日 16時11分09秒
_ opengl2772 ― 2008年10月17日 19時12分44秒
たとえば、「宇多田」という単語に対して「多田」という単語と重複部分があるので分割すると「宇」「多田」になりますが、意味のある分割ではありません。
また、「東京」と「京都」という単語の重要度から、「東京都」を分割しようという発想は強引すぎます。
「東京」も「京都」もどちらも十分重要な単語ですから、一般的に「東京」「都」と「東」「京都」のどちらも登録となってしまうでしょう。しかし、やりたいことは「東」「京都」の排除です。
もちろん KAKASI のような単純な分かち書きでは、ここで書いたような強引な処理を行っています。
分かち書きを簡易に行うという場合には、こういった手法でも良いのですが、そもそもの話は、「日本語の区切りの精度を上げても駄目」「日本語処理に苦労する事はない」といった話でした。それならば、MeCab を使った分かち書きの性能を超えなければいけないのですが、とてもそのレベルに達するような処理ではありません。
_ koke ― 2008年10月17日 20時20分58秒
_ opengl2772 ― 2008年10月17日 21時11分44秒
また検索処理も複雑です。
「京都」という語で検索した場合に「京都」が含まれる文書をピックアップします。次にその文書で「京都」の分割前が何であったかを調べ、「東京都」を得る必要があります。
その後、「東京都」のもう一方の分割である「東京」を割り出し、その「東京」と「京都」の価値を判断して、除外しなければならないのですから。
次に文章に「東京」「京都」が含まれず「東京都」のみ記述されている場合、「東京」と「京都」の価値に違いはありません。この場合、「東京」「京都」のどちらも除外するか、どちらも採用するしかなく、結局検索漏れになるか、ゴミを含めることになるかのどちらかになり、決定打にはなりえません。
多くのケースでうまくいくのであれば実用上、多少の検索漏れ、ゴミは問題ではないわけですが、今回の「東京都」には当てはまっても、多くの単語で同様に当てはまるかどうかは疑問が残るところです。
いずれにしろ「日本語処理に苦労する事はない」というレベルの話ではありません。
コメントをどうぞ
※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。
※なお、送られたコメントはブログの管理者が確認するまで公開されません。
トラックバック
このエントリのトラックバックURL: http://namazu.asablo.jp/blog/2008/09/22/3779524/tb
※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。