kanwadict-20060415.tar.gz 公開2006年04月15日 03時27分17秒

kakasidict に含まれない7文字のJIS第2水準漢字を追加した私家版 kanwadict を公開しました。

 http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/

filter/oleexcel.pl のタイプミスを修正2006年04月16日 02時49分17秒

filter/oleexcel.pl で $English::PERL_VERSION を $English::Perl_VERSION と間違えている箇所があったので、これを修正しました。

nmz_isalpha, nmz_isdigit に変更2006年04月16日 02時51分09秒

環境やローケルによって問題を引き起こすため、tolower, toupper 同様、isalpha, isdigit 等に非ASCII文字を与えないように nmz_isalpha, nmz_isdigit 等を追加し、nmz/*.c src/*.c ではnmz_isalpha, nmz_isdigt を使うように修正しました。

これによりWindows環境で、強調表示が動作しない場合がある問題が解決します。

デバッグ: 複数の <script> タグへの対応、XHTML 形式の META タグに対応他2006年04月16日 21時37分52秒

HEAD で修正済みの内容を stable-2-0 に下ろしてきました。

- 複数の <script> タグの処理
- XHTML 形式の META タグ
- filter/olevisio.pl の VISIO 2000 対応
- パス区切り文字を含まないファイルに対応
- filter/zip.pl テンポラリが残るバグを修正
- ファイルサイズが$FILE_SIZE_MAXを超えた場合のエラーメッセージを変更

mkkanwa の辞書登録における問題点2006年04月17日 00時01分22秒

mkkanwa で読み込む辞書を調べていると、読みはひらがなだけではなく、カタカナでも良いようです。

これは、内部処理として src/dic.c(add_item) でカタカナをひらがなに変換して、以後の処理を行うためです。

ただ、「ヴ」「ヵ」「ヶ」に関しては対応するひらがながないにもかかわらず、単純にコード変換を行うため、これら3文字を読みに含む場合は登録を行わない等の対策が必要なのではないかと思われます。

kakasidict に含まれない5文字のJIS第2水準漢字2006年04月17日 01時08分05秒

kakasidict を調べてみると、以下のエントリがありました。

?おんぎみしょう? 彁
?おんぎみしょう? 恷
?おんぎみしょう? 暃
?おんぎみしょう? 穃
?おんぎみしょう? 粫

これらは先の7文字のJIS第2水準漢字同様、実際には登録されていませんでした。 標準辞書には、7+5=合計12文字が未登録ということになります。

か せい 彁
きゅう こう 恷
ひ 暃
よう 穃
じ めん 粫

これらを登録して、また辞書を公開したいと思います。

kanwadict-20060417.tar.gz 公開2006年04月17日 01時37分54秒

kakasidict に含まれない5文字のJIS第2水準漢字を追加した私家版 kanwadict を公開しました。

http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/

標準辞書 kakasidict について2006年04月17日 19時02分22秒

以前にも書きましたが、kakasidict に含まれる以下のものは実際には登録されません。

 ?おんぎみしょう? 彁
 ?おんぎみしょう? 恷
 ?おんぎみしょう? 暃
 ?おんぎみしょう? 穃
 ?おんぎみしょう? 粫

これらは読みにUS-ASCII(語尾1文字のアルファベットを除く)が含まれるためです。(元々 ?XXX? としているのは、よみが不明という意味のようですから、登録されないのは正しい。)

これに加えて、以下の漢字にUS-ASCIIが含まれるものも登録されません。

 さいしょうじじょう 最小2乗
 りさん 理III

更に、何故か読みが2つある(バグ?)以下のものも登録されません。

 え しけんひこう 試験飛行

そして、漢字の語尾に活用をしめす1文字のアルファベットが付いているものが1つだけあります。これについては登録されるようですが、意味をなすのかどうかわかりません。

 きづk 気付k

これもバグでしょうか。

長音問題/波文字問題2006年04月17日 23時36分32秒

長音「ー」をカタカナとして扱うため、kakasi で分かち書きを行うと、

分かち書き前       分かち書き後
こんぴゅーた   ->  こんぴゅ ー た
コンピュータ    ->  コンピュータ
ろーどまっぷ   ->  ろ ー どまっぷ
ロードマップ    ->  ロードマップ

というようにひらがなの場合、長音なります。 とりあえずパッチもありますが。

くだけた表現で、長音の代わりに波文字「~」を使うこともあります。 kakasi では波文字は記号として扱われるため、分かち書きを行うと、

 $ echo だよ~ん | kakasi -w
 だよ ~ ん

となります。 できれば、波文字も長音と同様に扱いたいと考えています。

同様に、

0x213D  ―  # HORIZONTAL BAR
0x213E  ‐  # HYPHEN
0x215D  -  # MINUS SIGN

これらのものも長音の代わりに使われることがあるのですが、これらについては記号扱いの方が便利かと今のところ考えています。

濁点/半濁点問題2006年04月18日 00時14分04秒

kakasi では濁点「゛」半濁点「゜」は記号扱いのため、分かち書きで問題が生じます。

 0x212b ゛   # KATAKANA-HIRAGANA VOICED SOUND MARK
 0x212c ゜   # KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK
 $ echo しう゛ぁ | kakasi -w
 しう ゛ ぁ
 $ echo シウ゛ァ | kakasi -w
 シウ ゛ ァ
 $ echo コンヒ゜ュータ | kakasi -w
 コンヒ ゜ ュータ
 $ echo こんひ゜ゅーた | kakasi -w
 こんひ ゜ ゅ ー た

長音同様、ひらがな、カタカナの両方として扱うように修正したいと思います。