ここのところ成瀬さんにNKF のUNICODEマッピングに関することをいろいろと
教えてもらっています。
ところで、JISX0208 の範囲の文字だけ各ツールで変換してみたところ
Perl
JIS EUC-JP JISX0208 Encode Iconv Iconv nkf
X208 *1 EUC-JP EUC-JP EUC-JP-MS 2.0.15
---------------------------------------------------------------
213D 0xa1bd ― U+2015 : U+2015 : U+2014 : U+2015 : U+2015
2140 0xa1c0 \ U+005c : U+ff3c : U+ff3c : U+ff3c : U+ff3c
2141 0xa1c1 ~ U+301c : U+301c : U+301c : U+ff5e : U+301c
2142 0xa1c2 ∥ U+2016 : U+2016 : U+2016 : U+2225 : U+2016
215D 0xa1dd - U+2212 : U+2212 : U+2212 : U+ff0d : U+2212
2171 0xa1f1 ¢ U+00a2 : U+00a2 : U+00a2 : U+ffe0 : U+00a2
2172 0xa1f2 £ U+00a3 : U+00a3 : U+00a3 : U+ffe1 : U+00a3
224C 0xa2cc ¬ U+00ac : U+00ac : U+00ac : U+ffe2 : U+00ac
*1
http://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0
208.TXT
のマッピングによる変換
という結果が得られました。
Perl Encode の EUC-JP や Iconv の EUC-JP は JIS0208.TXT
のマッピングかと思っていましたが、違うのですね。
今頃知りました。
んー。こんなに違うと嫌ですね。
結局、mknmz では Text::Iconv を、namazu は libiconv(glibc の iconv) を
使うというようにツールを統一しないといけないかもしれません。
それにしても Perl の Encode のマッピングは結構謎です。
そのため、Encode を mknmz で使ってしまうと、namazu 側で困るかもしれません。
# あぁ、厄介。
最近のコメント