外字 ― 2006年04月09日 18時44分03秒
外字は全文検索に不向きです。 自由に定義できるため、どのような内容が定義されているのかを知る手段がありません。
しかし、世の中には市販されている有名な外字フォントというものも多々あります。 (外字はコードというよりもフォントに依存すると考えるのが妥当です。)
例えばMacintoshDTPで定番となっている「ビブロスフォント外字セット」
http://www.biblosfont.co.jp/product.html
もそのひとつです。Windows 版の
http://www.est.co.jp/fe/kigou/index.html
もあります。
あらかじめビブロスフォントを使用している文書であるとわかっている場合には、これらの外字を全文検索用に別の文字に置き換える等の処理を行えば、全文検索に利用することもできるでしょう。
例えば、
(0) -> 0 や (普) -> 普 といった置換するライブラリです。
かなり限定した用途であり、運用する上で注意しないといけませんが、そういった特殊な用途に特化するのも面白いかもしれません。
ただ、ひとつの文書の中に複数のフォントを切り替えていることは多々あり、それぞれ別の外字が定義されていると、フォントごとにテキストを取り出さないと正しく処理できないので、あくまでも外字の種類は1種類のみといった簡単な対応しかできないでしょう。
同様に CP932 の機種依存文字も変換するライブラリがあれば良いかもしれません。(こちらの方が実用的)
例えば、
(株) -> 株 や 平成(1文字) -> 平成(2文字)
といったよう。
異体字 ― 2006年04月09日 22時34分27秒
JIS X 0208 の JIS83制定時の変更点
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/jis78-83.html
を見ていて、kakasi の異体字辞書(itaijidict)に含まれていない文字があることに気づきました。
JIS83で第1水準と第2水準が入れ替わったもの(22組) のうち5組
礦砿 邇迩 鶯鴬 諫諌 頸頚
JIS83で字形を変更し、従来の字形を第2水準に追加したもの(4字) のうち1組
堯尭
これらは JIS X 0208 の JIS83制定時の変更で挿し換わったものであるから異体字になります。 近いうちに itaijidic に追加して公開したいと思います。
そう思って異体字辞書を調べてみると
http://www.eonet.ne.jp/~kotobukispace/ddt/ddtj.html
にフリーの異体字辞書がありました。 厳密異体辞書、慣用異体辞書という区別があったり、JIS第3・4水準対応という区別もあったりもします。
kakasi での使用を考えた場合には、慣用異体字までは必要ないような印象を受けましたが、用途によっては有用でしょう。
また kakasi の場合は、EUC-JP ですので JIS X 0213 をサポートしたEUC-JISX0213を考えるというよりは、UNICODE化の際にJIS第3・4水準対応を考えた方が良いでしょう。
最近のコメント