UTF-8 に対応した分かち書きツール2006年04月19日 22時25分22秒

開発版の kakasi では UTF-8 の入出力が可能です。
しかし、内部で EUC-JP に変換して処理後、UTF-8 に再変換して出力するだけですので、EUC-JP に含まれない文字の処理はできません。
kakasi では3バイト文字に対応していませんので、JISX0212補助漢字(またはJISX0213 JIS第3/4水準漢字)には対応していません。

このため、Namazu の UTF-8 化に伴い、UTF-8 の分かち書きが可能なツールが欲しいものです。
Namazu の開発版には簡易分かち書き機能がありますので、これを発展させるか、あるいは kakasi の分かち書き機能を切り出して UTF-8 化を行うというのも良いかもしれません。

なお、ChaSen, MeCab は、辞書を UTF-8 で用意すれば UTF-8 で処理が可能ではあります。

コメント

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://namazu.asablo.jp/blog/2006/04/19/334026/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。