Re: ChaSen 問題修正 ― 2005年10月06日 03時58分39秒
分かち書き外部コマンド呼び出しの場合もPerlモジュールを使用した場合と同じようにASCII文字とそれ以外を分割して処理するようにしました。
(HEAD のみ)
その際に、Perl モジュール版も処理にも若干手を加えています。
また、MeCab コマンド呼び出しの場合、8192 を超える文字列はバッファサイズ(オプションで変更は可能ですが)をオーバーする問題がありますが、多くの場合、分割処理されますので問題になることはほとんどないでしょう。
# 本来ですと必ず 8192 文字以下になるように分割しないといけませんが、
# そこまではできていません。
ただ、--use-chasen-noun オプションを付けると誤動作するので、この場合は、Perlモジュール版と同様に日本語のみ ChaSen に渡すのではなく ASCII テキストを含めてChaSen に渡すようにしました。
修正前に比べると、オーバーヘッドのため処理速度が落ちるかと思いますが、Perl モジュール版を利用すればオーバーヘッドも少なくなるので、特に 大きな問題にはならないものと思います。
その際に、Perl モジュール版も処理にも若干手を加えています。
また、MeCab コマンド呼び出しの場合、8192 を超える文字列はバッファサイズ(オプションで変更は可能ですが)をオーバーする問題がありますが、多くの場合、分割処理されますので問題になることはほとんどないでしょう。
# 本来ですと必ず 8192 文字以下になるように分割しないといけませんが、
# そこまではできていません。
ただ、--use-chasen-noun オプションを付けると誤動作するので、この場合は、Perlモジュール版と同様に日本語のみ ChaSen に渡すのではなく ASCII テキストを含めてChaSen に渡すようにしました。
修正前に比べると、オーバーヘッドのため処理速度が落ちるかと思いますが、Perl モジュール版を利用すればオーバーヘッドも少なくなるので、特に 大きな問題にはならないものと思います。
コメント
トラックバック
このエントリのトラックバックURL: http://namazu.asablo.jp/blog/2005/10/06/99684/tb
※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。
コメントをどうぞ
※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。
※なお、送られたコメントはブログの管理者が確認するまで公開されません。