kanwadict-20060415.tar.gz 公開 ― 2006年04月15日 03時27分17秒
kakasidict に含まれない7文字のJIS第2水準漢字を追加した私家版 kanwadict を公開しました。
http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/
filter/oleexcel.pl のタイプミスを修正 ― 2006年04月16日 02時49分17秒
nmz_isalpha, nmz_isdigit に変更 ― 2006年04月16日 02時51分09秒
これによりWindows環境で、強調表示が動作しない場合がある問題が解決します。
デバッグ: 複数の <script> タグへの対応、XHTML 形式の META タグに対応他 ― 2006年04月16日 21時37分52秒
HEAD で修正済みの内容を stable-2-0 に下ろしてきました。
- 複数の <script> タグの処理 - XHTML 形式の META タグ - filter/olevisio.pl の VISIO 2000 対応 - パス区切り文字を含まないファイルに対応 - filter/zip.pl テンポラリが残るバグを修正 - ファイルサイズが$FILE_SIZE_MAXを超えた場合のエラーメッセージを変更
mkkanwa の辞書登録における問題点 ― 2006年04月17日 00時01分22秒
これは、内部処理として src/dic.c(add_item) でカタカナをひらがなに変換して、以後の処理を行うためです。
ただ、「ヴ」「ヵ」「ヶ」に関しては対応するひらがながないにもかかわらず、単純にコード変換を行うため、これら3文字を読みに含む場合は登録を行わない等の対策が必要なのではないかと思われます。
kakasidict に含まれない5文字のJIS第2水準漢字 ― 2006年04月17日 01時08分05秒
kakasidict を調べてみると、以下のエントリがありました。
?おんぎみしょう? 彁 ?おんぎみしょう? 恷 ?おんぎみしょう? 暃 ?おんぎみしょう? 穃 ?おんぎみしょう? 粫
これらは先の7文字のJIS第2水準漢字同様、実際には登録されていませんでした。 標準辞書には、7+5=合計12文字が未登録ということになります。
か せい 彁 きゅう こう 恷 ひ 暃 よう 穃 じ めん 粫
これらを登録して、また辞書を公開したいと思います。
kanwadict-20060417.tar.gz 公開 ― 2006年04月17日 01時37分54秒
kakasidict に含まれない5文字のJIS第2水準漢字を追加した私家版 kanwadict を公開しました。
http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/
標準辞書 kakasidict について ― 2006年04月17日 19時02分22秒
以前にも書きましたが、kakasidict に含まれる以下のものは実際には登録されません。
?おんぎみしょう? 彁 ?おんぎみしょう? 恷 ?おんぎみしょう? 暃 ?おんぎみしょう? 穃 ?おんぎみしょう? 粫
これらは読みにUS-ASCII(語尾1文字のアルファベットを除く)が含まれるためです。(元々 ?XXX? としているのは、よみが不明という意味のようですから、登録されないのは正しい。)
これに加えて、以下の漢字にUS-ASCIIが含まれるものも登録されません。
さいしょうじじょう 最小2乗 りさん 理III
更に、何故か読みが2つある(バグ?)以下のものも登録されません。
え しけんひこう 試験飛行
そして、漢字の語尾に活用をしめす1文字のアルファベットが付いているものが1つだけあります。これについては登録されるようですが、意味をなすのかどうかわかりません。
きづk 気付k
これもバグでしょうか。
長音問題/波文字問題 ― 2006年04月17日 23時36分32秒
長音「ー」をカタカナとして扱うため、kakasi で分かち書きを行うと、
分かち書き前 分かち書き後 こんぴゅーた -> こんぴゅ ー た コンピュータ -> コンピュータ ろーどまっぷ -> ろ ー どまっぷ ロードマップ -> ロードマップ
というようにひらがなの場合、長音なります。 とりあえずパッチもありますが。
くだけた表現で、長音の代わりに波文字「~」を使うこともあります。 kakasi では波文字は記号として扱われるため、分かち書きを行うと、
$ echo だよ~ん | kakasi -w だよ ~ ん
となります。 できれば、波文字も長音と同様に扱いたいと考えています。
同様に、
0x213D ― # HORIZONTAL BAR 0x213E ‐ # HYPHEN 0x215D - # MINUS SIGN
これらのものも長音の代わりに使われることがあるのですが、これらについては記号扱いの方が便利かと今のところ考えています。
濁点/半濁点問題 ― 2006年04月18日 00時14分04秒
kakasi では濁点「゛」半濁点「゜」は記号扱いのため、分かち書きで問題が生じます。
0x212b ゛ # KATAKANA-HIRAGANA VOICED SOUND MARK 0x212c ゜ # KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK
$ echo しう゛ぁ | kakasi -w しう ゛ ぁ $ echo シウ゛ァ | kakasi -w シウ ゛ ァ $ echo コンヒ゜ュータ | kakasi -w コンヒ ゜ ュータ $ echo こんひ゜ゅーた | kakasi -w こんひ ゜ ゅ ー た
長音同様、ひらがな、カタカナの両方として扱うように修正したいと思います。
最近のコメント