KAKASI ローマ字テーブル2014年04月09日 04時21分50秒

KAKASI には "-t" オプションがあってローマ字変換テーブルがもう一組ずつ用意されていました。

これも後方互換性のためか...。

KAKASI ローマ字(訓令式)と ISO3602との違い2014年04月09日 02時51分43秒

KAKASI のローマ字(訓令式)と ISO3602との違いを調べてみました。

いろいろ複雑なのでとりあえずは、単純変換できるところだけ。

ヅ : du -> zu
ヲ : wo -> o

ヂャ : dya -> zya 
ヂュ : dyu -> zyu
ヂョ : dyo -> zyo

長音節を表わす2連字の仮名
長音節を表わす3連字の仮名

あたりが異なっているようです。 ただし、厳格な転字をする場合という体系の方に近いかもしれない。

また、長音以外は内閣訓令第1号「ローマ字のつづり方の実施について」の第2表には載っている。(ISO3602には含まれないのか??)

長音はまず KAKASI の場合、母音を重ねる代書法で変換しています。 これはこれで妥当なのですが、「ー」を使った場合は後置で「^]を付けるとか、統一感がありません。 また、オ段+ウが異なります。例えば、「オウ」は「オオ」と同じ「oo」でなければなりませんが、KAKASI では「ou」になっています。

Text-Kakasi PPM アップデート2014年03月29日 07時29分46秒

Build 1600 番台用の Text-Kakasi PPM (x64版) をアップデートしました。

先日リリースされた KAKASI 2.3.6 ベースのものに変更しました。

KAKASI 2.3.6リリース2014年03月27日 08時32分57秒

KAKASI 2.3.6 がリリースされました。 バグ修正のみのリリースとなります。

http://kakasi.namazu.org/stable/kakasi-2.3.6.tar.gz

Text-Kakasi PPM アップデート2014年01月25日 10時14分00秒

Build 1600 番台用の Text-Kakasi PPM (x64版) をアップデートしました。

先日リリースされた KAKASI 2.3.5 ベースのものに変更しました。

KAKASI 2.3.5 リリース2014年01月18日 17時55分55秒

KAKASI 2.3.5がリリースされました。

http://kakasi.namazu.org/stable/kakasi-2.3.5.tar.gz

変更点は以下になります(NEWSより抜粋)。

  • UTF-8 の入出力に対応 (要 iconv)
  • 長音符号(ー)の扱いをより正しく修正
  • do_kakasi() が不正なメモリ領域を返すことがあるバグを修正
  • kakasidict に含まれていた誤ったエントリを修正
  • ヘボン式ローマ字表に含まれていた誤りを修正
  • 従来のローマ字表も指定できるよう -t オプションを新規追加
  • 誤った SS2 sequence を与えたとき segfault する問題を修正
  • コンパイル時の warning に対応して修正
  • 新規にテストスクリプトを追加
  • 分かち書き時(あるいは -s オプション指定時)の区切り文字として任意の ASCII 文字列を指定できるように -S オプションを新規追加
  • 学年別ひらがな変換機能として -l および -L オプションを新規追加 (詳しくは doc/README.level 参照)
  • ふりがな付与時(-JH -f オプションあるいは -Lx オプション)の括弧記号として任意の ASCII 文字列を指定できるように -F オプションを新規追加
  • 漢字1文字ごとの全ての読みを表示する -y オプションを新規追加
  • エンディアンに依存しないバイナリ辞書のサポート
  • ローマ字テーブルの修正 (古いテーブルを利用するには -t オプションを指定)

KAKASI UTF-8 対応版のパッチ2010年12月17日 23時08分27秒

すっかり忘れてしまっている KAKASI UTF-8 対応版ですが、そのままでは make できないという Makefile の不具合が長期間放置されていました。

メーリングリストに流れていたのだろうけれども、KAKASI UTF-8 対応版をビルドしたことがないので、そんなバグもあったっけ? って感じではありますが...。

で、その修正パッチが反映されました。

PLAYSTATION3 FC5用 KAKASI 2.3.4 (ppc64 用)2008年03月05日 09時45分13秒

先日、PLAYSTATION3 でも Namazu 2.0.18RC2 の動作テストを行いました。

PLAYSTATION3 購入して HDD に最初にインストールしたのが Linux でした。 その当時のままなので Fedora Core 5 なのですが、様々な環境でテストするという目的には丁度良いかなと思います。 (そのうちバージョンアップします)

その時は分かち書きに MeCab 0.97 を使ったのですが、これは KAKASI 2.3.4 のconfigure が通らなかったためで、手っ取り早くコンパイルできた MeCab にしたということです。

さて、KAKASI 2.3.4 の configure が通らない理由ですが、これは単純にスクリプトが ppc64 に対応していなかったためです。 KAKASI 2.3.4 自体が ppc64 に対応していないということではありません。

そこで、CVS から開発版をチェックアウトして autogen.sh を PLAYSTATION3 で動かし、configure 等を作り直しました。 それを KAKASI 2.3.4 に持っていき、再度 ./configure を実行すると、無事コンパイル&インストールができました。 Text-Kakasi も問題なく使えます。

ということで、ppc64 環境で KAKASI 2.3.4 を使いたい方おられますかね?

KAKASI の補助漢字2007年11月04日 15時32分49秒

EUC-JP で 0x8f は補助漢字の1バイト目。KAKASI は3バイト漢字に対応していないため、1バイト目を削除して動くようです。 NKFでは(デフォルトでは)3バイトとも削除します。

$ echo -n -e "\x8f\xd4\xda" | kakasi -ieuc -oeuc| od -tx1
0000000 d4 da
$ echo -n -e "\x8f\xd4\xda" | nkf -Ee | od -tx1
0000000

本来正しい動作ではありませんが、補助漢字をサポートしていない仕様なので文字化けは仕方がないところです。 異常終了しないようになっているだけマシということですね。

補足) これは man KAKASI の EUC のところを見ると説明がありました。

     EUC:
         GL -- G0 -- ASCII
                   G1 -- JISx0201のかたかな
                   G2 -- JISx0201のかたかな
         GR -- G3 -- JISx0208 の文字

この説明にはいささか疑問を持つところもありますが、G3 に JISX0208 を割り当てることになっているので、KAKASI の仕様ということでしょう。 昔の商用 UNIX では補助漢字に対応していなかったので、この仕様は十分に意味がある(あった)と思います。

なお、実際は

     EUC:
         GL -- G0 -- ASCII
         GR -- G1 -- JIS X 0208 の文字
                   G2 -- JIS X 0201のかたかな
                   G3 -- JIS X 0208 の文字 (本来は JIS X 0212 補助漢字)

となっているはずです。

訂正) と思いましたが、man のままで何故かデフォルトで GR に G3 が割り当てられているという変則でした。 そういえば、G4 まで用意していたり、SJIS を同様に扱っていたりとかなりの変則をやっているので??? なところは他にも多々あります。

ファイルのクローズ忘れ2007年10月21日 16時56分55秒

atoc-conv.c, rdic-conv.c, wx2-conv.c のいずれもファイルをクローズして いないことに気づきました。

また、src/kanjiio.c には iconv_open が2箇所あるのですが、こちらも iconv_close を呼び出していないことに気づきました。

詳しくは http://www.namazu.org/pipermail/kakasi-dev/2007-October/000078.html をご覧ください。