KAKASI ローマ字テーブル ― 2014年04月09日 04時21分50秒
KAKASI には "-t" オプションがあってローマ字変換テーブルがもう一組ずつ用意されていました。
これも後方互換性のためか...。
KAKASI ローマ字(訓令式)と ISO3602との違い ― 2014年04月09日 02時51分43秒
KAKASI のローマ字(訓令式)と ISO3602との違いを調べてみました。
いろいろ複雑なのでとりあえずは、単純変換できるところだけ。
ヅ : du -> zu ヲ : wo -> o ヂャ : dya -> zya ヂュ : dyu -> zyu ヂョ : dyo -> zyo 長音節を表わす2連字の仮名 長音節を表わす3連字の仮名
あたりが異なっているようです。 ただし、厳格な転字をする場合という体系の方に近いかもしれない。
また、長音以外は内閣訓令第1号「ローマ字のつづり方の実施について」の第2表には載っている。(ISO3602には含まれないのか??)
長音はまず KAKASI の場合、母音を重ねる代書法で変換しています。 これはこれで妥当なのですが、「ー」を使った場合は後置で「^]を付けるとか、統一感がありません。 また、オ段+ウが異なります。例えば、「オウ」は「オオ」と同じ「oo」でなければなりませんが、KAKASI では「ou」になっています。
Text-Kakasi PPM アップデート ― 2014年03月29日 07時29分46秒
Build 1600 番台用の Text-Kakasi PPM (x64版) をアップデートしました。
先日リリースされた KAKASI 2.3.6 ベースのものに変更しました。
KAKASI 2.3.6リリース ― 2014年03月27日 08時32分57秒
KAKASI 2.3.6 がリリースされました。 バグ修正のみのリリースとなります。
Text-Kakasi PPM アップデート ― 2014年01月25日 10時14分00秒
Build 1600 番台用の Text-Kakasi PPM (x64版) をアップデートしました。
先日リリースされた KAKASI 2.3.5 ベースのものに変更しました。
KAKASI 2.3.5 リリース ― 2014年01月18日 17時55分55秒
KAKASI 2.3.5がリリースされました。
http://kakasi.namazu.org/stable/kakasi-2.3.5.tar.gz
変更点は以下になります(NEWSより抜粋)。
- UTF-8 の入出力に対応 (要 iconv)
- 長音符号(ー)の扱いをより正しく修正
- do_kakasi() が不正なメモリ領域を返すことがあるバグを修正
- kakasidict に含まれていた誤ったエントリを修正
- ヘボン式ローマ字表に含まれていた誤りを修正
- 従来のローマ字表も指定できるよう -t オプションを新規追加
- 誤った SS2 sequence を与えたとき segfault する問題を修正
- コンパイル時の warning に対応して修正
- 新規にテストスクリプトを追加
- 分かち書き時(あるいは -s オプション指定時)の区切り文字として任意の ASCII 文字列を指定できるように -S オプションを新規追加
- 学年別ひらがな変換機能として -l および -L オプションを新規追加 (詳しくは doc/README.level 参照)
- ふりがな付与時(-JH -f オプションあるいは -Lx オプション)の括弧記号として任意の ASCII 文字列を指定できるように -F オプションを新規追加
- 漢字1文字ごとの全ての読みを表示する -y オプションを新規追加
- エンディアンに依存しないバイナリ辞書のサポート
- ローマ字テーブルの修正 (古いテーブルを利用するには -t オプションを指定)
KAKASI UTF-8 対応版のパッチ ― 2010年12月17日 23時08分27秒
すっかり忘れてしまっている KAKASI UTF-8 対応版ですが、そのままでは make できないという Makefile の不具合が長期間放置されていました。
メーリングリストに流れていたのだろうけれども、KAKASI UTF-8 対応版をビルドしたことがないので、そんなバグもあったっけ? って感じではありますが...。
で、その修正パッチが反映されました。
PLAYSTATION3 FC5用 KAKASI 2.3.4 (ppc64 用) ― 2008年03月05日 09時45分13秒
先日、PLAYSTATION3 でも Namazu 2.0.18RC2 の動作テストを行いました。
PLAYSTATION3 購入して HDD に最初にインストールしたのが Linux でした。 その当時のままなので Fedora Core 5 なのですが、様々な環境でテストするという目的には丁度良いかなと思います。 (そのうちバージョンアップします)
その時は分かち書きに MeCab 0.97 を使ったのですが、これは KAKASI 2.3.4 のconfigure が通らなかったためで、手っ取り早くコンパイルできた MeCab にしたということです。
さて、KAKASI 2.3.4 の configure が通らない理由ですが、これは単純にスクリプトが ppc64 に対応していなかったためです。 KAKASI 2.3.4 自体が ppc64 に対応していないということではありません。
そこで、CVS から開発版をチェックアウトして autogen.sh を PLAYSTATION3 で動かし、configure 等を作り直しました。 それを KAKASI 2.3.4 に持っていき、再度 ./configure を実行すると、無事コンパイル&インストールができました。 Text-Kakasi も問題なく使えます。
ということで、ppc64 環境で KAKASI 2.3.4 を使いたい方おられますかね?
KAKASI の補助漢字 ― 2007年11月04日 15時32分49秒
EUC-JP で 0x8f は補助漢字の1バイト目。KAKASI は3バイト漢字に対応していないため、1バイト目を削除して動くようです。 NKFでは(デフォルトでは)3バイトとも削除します。
$ echo -n -e "\x8f\xd4\xda" | kakasi -ieuc -oeuc| od -tx1 0000000 d4 da $ echo -n -e "\x8f\xd4\xda" | nkf -Ee | od -tx1 0000000
本来正しい動作ではありませんが、補助漢字をサポートしていない仕様なので文字化けは仕方がないところです。 異常終了しないようになっているだけマシということですね。
補足) これは man KAKASI の EUC のところを見ると説明がありました。
EUC: GL -- G0 -- ASCII G1 -- JISx0201のかたかな G2 -- JISx0201のかたかな GR -- G3 -- JISx0208 の文字
この説明にはいささか疑問を持つところもありますが、G3 に JISX0208 を割り当てることになっているので、KAKASI の仕様ということでしょう。 昔の商用 UNIX では補助漢字に対応していなかったので、この仕様は十分に意味がある(あった)と思います。
なお、実際は
EUC: GL -- G0 -- ASCII GR -- G1 -- JIS X 0208 の文字 G2 -- JIS X 0201のかたかな G3 -- JIS X 0208 の文字 (本来は JIS X 0212 補助漢字)
となっているはずです。
訂正) と思いましたが、man のままで何故かデフォルトで GR に G3 が割り当てられているという変則でした。 そういえば、G4 まで用意していたり、SJIS を同様に扱っていたりとかなりの変則をやっているので??? なところは他にも多々あります。
ファイルのクローズ忘れ ― 2007年10月21日 16時56分55秒
atoc-conv.c, rdic-conv.c, wx2-conv.c のいずれもファイルをクローズして いないことに気づきました。
また、src/kanjiio.c には iconv_open が2箇所あるのですが、こちらも iconv_close を呼び出していないことに気づきました。
詳しくは http://www.namazu.org/pipermail/kakasi-dev/2007-October/000078.html をご覧ください。
最近のコメント