mkkanwa の辞書登録における問題点2006年04月17日 00時01分22秒

mkkanwa で読み込む辞書を調べていると、読みはひらがなだけではなく、カタカナでも良いようです。

これは、内部処理として src/dic.c(add_item) でカタカナをひらがなに変換して、以後の処理を行うためです。

ただ、「ヴ」「ヵ」「ヶ」に関しては対応するひらがながないにもかかわらず、単純にコード変換を行うため、これら3文字を読みに含む場合は登録を行わない等の対策が必要なのではないかと思われます。

kakasidict に含まれない5文字のJIS第2水準漢字2006年04月17日 01時08分05秒

kakasidict を調べてみると、以下のエントリがありました。

?おんぎみしょう? 彁
?おんぎみしょう? 恷
?おんぎみしょう? 暃
?おんぎみしょう? 穃
?おんぎみしょう? 粫

これらは先の7文字のJIS第2水準漢字同様、実際には登録されていませんでした。 標準辞書には、7+5=合計12文字が未登録ということになります。

か せい 彁
きゅう こう 恷
ひ 暃
よう 穃
じ めん 粫

これらを登録して、また辞書を公開したいと思います。

kanwadict-20060417.tar.gz 公開2006年04月17日 01時37分54秒

kakasidict に含まれない5文字のJIS第2水準漢字を追加した私家版 kanwadict を公開しました。

http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/

標準辞書 kakasidict について2006年04月17日 19時02分22秒

以前にも書きましたが、kakasidict に含まれる以下のものは実際には登録されません。

 ?おんぎみしょう? 彁
 ?おんぎみしょう? 恷
 ?おんぎみしょう? 暃
 ?おんぎみしょう? 穃
 ?おんぎみしょう? 粫

これらは読みにUS-ASCII(語尾1文字のアルファベットを除く)が含まれるためです。(元々 ?XXX? としているのは、よみが不明という意味のようですから、登録されないのは正しい。)

これに加えて、以下の漢字にUS-ASCIIが含まれるものも登録されません。

 さいしょうじじょう 最小2乗
 りさん 理III

更に、何故か読みが2つある(バグ?)以下のものも登録されません。

 え しけんひこう 試験飛行

そして、漢字の語尾に活用をしめす1文字のアルファベットが付いているものが1つだけあります。これについては登録されるようですが、意味をなすのかどうかわかりません。

 きづk 気付k

これもバグでしょうか。

長音問題/波文字問題2006年04月17日 23時36分32秒

長音「ー」をカタカナとして扱うため、kakasi で分かち書きを行うと、

分かち書き前       分かち書き後
こんぴゅーた   ->  こんぴゅ ー た
コンピュータ    ->  コンピュータ
ろーどまっぷ   ->  ろ ー どまっぷ
ロードマップ    ->  ロードマップ

というようにひらがなの場合、長音なります。 とりあえずパッチもありますが。

くだけた表現で、長音の代わりに波文字「~」を使うこともあります。 kakasi では波文字は記号として扱われるため、分かち書きを行うと、

 $ echo だよ~ん | kakasi -w
 だよ ~ ん

となります。 できれば、波文字も長音と同様に扱いたいと考えています。

同様に、

0x213D  ―  # HORIZONTAL BAR
0x213E  ‐  # HYPHEN
0x215D  -  # MINUS SIGN

これらのものも長音の代わりに使われることがあるのですが、これらについては記号扱いの方が便利かと今のところ考えています。