鐚一文2007年10月02日 03時38分32秒


$ echo 鐚一文 | kakasi -JH -p 
$ echo 鐚一文 | mecab -N4
鐚      名詞,一般,*,*,*,*,*
一      名詞,数,*,*,*,*,一,イチ,イチ
文      名詞,接尾,助数詞,*,*,*,文,ブン,ブン
鐚      名詞,一般,*,*,*,*,*
一      名詞,数,*,*,*,*,一,イチ,イチ
文      名詞,接尾,助数詞,*,*,*,文,モン,モン
鐚      名詞,一般,*,*,*,*,*
一文    名詞,一般,*,*,*,*,一文,イチブン,イチブン
鐚      名詞,固有名詞,組織,*,*,*,*
一文    名詞,一般,*,*,*,*,一文,イチブン,イチブン
$ echo 鐚一文 | chasen
鐚                      未知語
一文    イチブン        一文    名詞-一般


ChaSen 2.3.3 における chasenrc ファイルの優先順位2007年09月16日 12時08分12秒

ChaSen 2.3.3 における chasenrc ファイルの優先順位

A. -R オプションが指定されている場合

1. レジストリ HKEY_CURRENT_USER\Software\NAIST\ChaSen\chasenrc の chasenrc ファイル

2. システムのデフォルトパス ${prefix}/etc/chasenrc
UNIX では、/usr/local/etc/chasenrc
Windows では、c:\Program Files\chasen\etc\chasenrc

B. -R オプションが指定されていない場合(通常)

1. コマンドラインパラメータ -r で指定した chasenrc ファイル

2. 環境変数 CHASENRC で指定した chasenrc ファイル

3. 環境変数 HOME が設定されている場合 ~/.chasen2rc ファイル

4. 環境変数 HOME が設定されている場合 ~/.chasenrc ファイル

5. HOMEDRIVE\HOMEPATH\.chasen2rc ファイル [Windowsのみ]

6. HOMEDRIVE\HOMEPATH\.chasenrc ファイル [Windowsのみ]

7. レジストリ HKEY_CURRENT_USER\Software\NAIST\ChaSen\chasenrc の chasenrc ファイル

8. システムのデフォルトパス ${prefix}/etc/chasenrc
UNIX では、/usr/local/etc/chasenrc
Windows では、c:\Program Files\chasen\etc\chasenrc

chasen-ipadic.zip をメンバエリアに移動2007年06月28日 10時59分38秒

Namazu for Windows 用 Text-ChaSen のための IPADIC をまとめた chasen-ipadic.zip をメンバエリアに移動しました。



Text-ChaSen と MeCab の PPM2007年01月29日 04時54分09秒

そう言えば、Text-ChaSen の PPM を公開していないことに気づきました。

Kakasi, MeCab のように辞書のインストールが必要なので PPM で一発インストールとはいきませんが、PPM があると楽ですよね。

また、MeCab の PPM も 0.92 のままでした。
0.93 はライセンス変更だけなのですが、バージョンアップしておくべきですよね。

Text-ChaSen 1.04 リリース2007年01月28日 04時22分21秒

Text-ChaSen 1.04 がリリースされました。



pltests でChaSenの辞書がUTf-8の場合、FAILするように修正2006年01月10日 00時49分28秒

pltests の kakasi-[12].pl, chasen-[12].pl, mecab-[12].pl で "*全* *文* *検* *索*"の文字列で検索するように変更しました。

また、検索対象も html.html のみとしました。

これにより、ChaSen の辞書が UTF-8 のものになっている場合にはテストがFAILするようになりました。

ちなみに Namazu では EUC-JP の辞書でなければなりません。

Re: ChaSen 問題修正2005年10月06日 03時58分39秒

分かち書き外部コマンド呼び出しの場合もPerlモジュールを使用した場合と同じようにASCII文字とそれ以外を分割して処理するようにしました。 (HEAD のみ)
その際に、Perl モジュール版も処理にも若干手を加えています。

また、MeCab コマンド呼び出しの場合、8192 を超える文字列はバッファサイズ(オプションで変更は可能ですが)をオーバーする問題がありますが、多くの場合、分割処理されますので問題になることはほとんどないでしょう。
# 本来ですと必ず 8192 文字以下になるように分割しないといけませんが、
# そこまではできていません。

ただ、--use-chasen-noun オプションを付けると誤動作するので、この場合は、Perlモジュール版と同様に日本語のみ ChaSen に渡すのではなく ASCII テキストを含めてChaSen に渡すようにしました。

修正前に比べると、オーバーヘッドのため処理速度が落ちるかと思いますが、Perl モジュール版を利用すればオーバーヘッドも少なくなるので、特に 大きな問題にはならないものと思います。

Text::ChaSen インストール方法修正2005年10月04日 04時40分43秒

Text::ChaSen 1.0.3 は chasen-2.3.3.tar.gz に含まれているので、chasen-2.3.3.tar.gz 付属の Text::ChaSen をインストールする方法に変更しました。

ChaSen のインストール方法

Text::ChaSen の COPYRIGHT2005年10月04日 04時36分38秒

Text::ChaSen の COPYRIGHT

IPADIC のライセンスにあわせているようです。

Copyright(c) 1998, 1999 NOKUBI Takatsugu 
Copyright(c) 1997 Nara Institute of Science and Technorogy.
All Rights Reserved.

Use, reproduction, and distribution of this software is permitted.
Any copy of this software, whether in its original form or modified,
must include both the above copyright notice and the following

Nara Institute of Science and Technology (NAIST),
the copyright holders, disclaims all warranties with regard to this
software, including all implied warranties of merchantability and
fitness, in no event shall NAIST be liable for
any special, indirect or consequential damages or any damages
whatsoever resulting from loss of use, data or profits, whether in an
action of contract, negligence or other tortuous action, arising out
of or in connection with the use or performance of this software.

The Japanese morphological dictionary included in this system
originates from ICOT Free Software.  The following conditions for ICOT
Free Software applies to the morphological dictionary of the system.

Each User may also freely distribute the Program, whether in its
original form or modified, to any third party or parties, PROVIDED
that the provisions of Section 3 ("NO WARRANTY") will ALWAYS appear
on, or be attached to, the Program, which is distributed substantially
in the same form as set out herein and that such intended
distribution, if actually made, will neither violate or otherwise
contravene any of the laws and regulations of the countries having
jurisdiction over the User or the intended distribution itself.


The program was produced on an experimental basis in the course of the
research and development conducted during the project and is provided
to users as so produced on an experimental basis.  Accordingly, the
program is provided without any warranty whatsoever, whether express,
implied, statutory or otherwise.  The term "warranty" used herein
includes, but is not limited to, any warranty of the quality,
performance, merchantability and fitness for a particular purpose of
the program and the nonexistence of any infringement or violation of
any right of any third party.

Each user of the program will agree and understand, and be deemed to
have agreed and understood, that there is no warranty whatsoever for
the program and, accordingly, the entire risk arising from or
otherwise connected with the program is assumed by the user.

Therefore, neither ICOT, the copyright holder, or any other
organization that participated in or was otherwise related to the
development of the program and their respective officials, directors,
officers and other employees shall be held liable for any and all
damages, including, without limitation, general, special, incidental
and consequential damages, arising out of or otherwise in connection
with the use or inability to use the program or any product, material
or result produced or otherwise obtained by using the program,
regardless of whether they have been advised of, or otherwise had
knowledge of, the possibility of such damages at any time during the
project or thereafter.  Each user will be deemed to have agreed to the
foregoing by his or her commencement of use of the program.  The term
"use" as used herein includes, but is not limited to, the use,
modification, copying and distribution of the program and the
production of secondary products from the program.

In the case where the program, whether in its original form or
modified, was distributed or delivered to or received by a user from
any person, organization or entity other than ICOT, unless it makes or
grants independently of ICOT any specific warranty to the user in
writing, such person, organization or entity, will also be exempted
from and not be held liable to the user for any such damages as noted
above as far as the program is concerned.

ipadic の COPYRIGHT2005年10月04日 03時12分21秒

ipadic 2.6.3 の COPYRIGHT
Copyright 2000, 2001, 2002, 2003 Nara Institute of Science
and Technology.  All Rights Reserved.

Use, reproduction, and distribution of this software is permitted.
Any copy of this software, whether in its original form or modified,
must include both the above copyright notice and the following

Nara Institute of Science and Technology (NAIST),
the copyright holders, disclaims all warranties with regard to this
software, including all implied warranties of merchantability and
fitness, in no event shall NAIST be liable for
any special, indirect or consequential damages or any damages
whatsoever resulting from loss of use, data or profits, whether in an
action of contract, negligence or other tortuous action, arising out
of or in connection with the use or performance of this software.

A large portion of the dictionary entries
originate from ICOT Free Software.  The following conditions for ICOT
Free Software applies to the current dictionary as well.

Each User may also freely distribute the Program, whether in its
original form or modified, to any third party or parties, PROVIDED
that the provisions of Section 3 ("NO WARRANTY") will ALWAYS appear
on, or be attached to, the Program, which is distributed substantially
in the same form as set out herein and that such intended
distribution, if actually made, will neither violate or otherwise
contravene any of the laws and regulations of the countries having
jurisdiction over the User or the intended distribution itself.


The program was produced on an experimental basis in the course of the
research and development conducted during the project and is provided
to users as so produced on an experimental basis.  Accordingly, the
program is provided without any warranty whatsoever, whether express,
implied, statutory or otherwise.  The term "warranty" used herein
includes, but is not limited to, any warranty of the quality,
performance, merchantability and fitness for a particular purpose of
the program and the nonexistence of any infringement or violation of
any right of any third party.

Each user of the program will agree and understand, and be deemed to
have agreed and understood, that there is no warranty whatsoever for
the program and, accordingly, the entire risk arising from or
otherwise connected with the program is assumed by the user.

Therefore, neither ICOT, the copyright holder, or any other
organization that participated in or was otherwise related to the
development of the program and their respective officials, directors,
officers and other employees shall be held liable for any and all
damages, including, without limitation, general, special, incidental
and consequential damages, arising out of or otherwise in connection
with the use or inability to use the program or any product, material
or result produced or otherwise obtained by using the program,
regardless of whether they have been advised of, or otherwise had
knowledge of, the possibility of such damages at any time during the
project or thereafter.  Each user will be deemed to have agreed to the
foregoing by his or her commencement of use of the program.  The term
"use" as used herein includes, but is not limited to, the use,
modification, copying and distribution of the program and the
production of secondary products from the program.

In the case where the program, whether in its original form or
modified, was distributed or delivered to or received by a user from
any person, organization or entity other than ICOT, unless it makes or
grants independently of ICOT any specific warranty to the user in
writing, such person, organization or entity, will also be exempted
from and not be held liable to the user for any such damages as noted
above as far as the program is concerned.

All rights reserved。

このソフトウェアの使用、再現、および分配は受入れられます。 このソフトウェアのどんなコピーも原型か変更にされるにかかわらず上の版権情報と以下のパラグラフの両方を含まなければなりません。


エントリーがICOT Free Softwareから溯源する辞書の大きい部分。 ICOT Free Softwareのための以下の条件はまた、現在の辞書に適用されます。

また、各Userは自由にProgramを分配するかもしれません、セクション3(「保証がありません」)に関する条項がいつも現れるか、または添付されるPROVIDED、プログラム、どれがこの場所に出されるのと同じ書式で実質的に分配されるか、そして、およびそのそのようなものがフォームの、または、どんな第三者かパーティーにも変更されたオリジナルで分配を意図したか否かに関係なく; 実際に作られると、どちらも、Userか意図された分配自体に管轄する法のどれかと国の規則に、違反しますか、そうでなければ、違反しないでしょうか?


プログラムを実験的にプロジェクトの間に行われた研究開発の間に作り出して、そのように実験的に生産されているとしてユーザに提供します。 それに従って、急行、暗示する、法定またはそうでないことにかかわらず全く少しも保証なしでプログラムを提供します。 「保証」という用語は、この場所にインクルードを使用しますが、有限でなくて、プログラムの特定の目的のための品質、性能、市場性、およびフィットネスのどんな保証とどんな侵害の非実在であるかいずれの違反はどんな第三者の右です。


したがって、ICOT、著作権保有者もプログラムの開発に参加しているか、またはそうでなければ関連するいかなる他の組織と彼らのそれぞれのない職員も、ディレクター、役員、および他の従業員はありとあらゆる損害賠償に支払いの義務があるように保たれるものとします、制限なしで一般的で、特別で、付帯的で必然的な損害賠償を含んでいて; そうでなければ、無能の外へ、または、使用かいつでもプロジェクトの間、においてその後プログラムかどんな製品か材料か生産されたか、または別の方法でそれらについて通知するか、またはそうでなければ、知識を持っていたことにかかわらずプログラムを使用することによって得られた結果、そのような損害賠償の可能性も使用することができないことに関して起こります; 各ユーザがその人のプログラムで役に立つ始めによる上記に同意したと考えられるでしょう。 プログラムからのこの場所に含んでいますが、中古の同じくらい「使用」が制限されない用語、使用、変更、プログラムのコピーと分配、および二次製品の生産。
