decode_numbered_entity 関係修正2005年12月07日 07時59分14秒

Malformed UTF-8 character .... というワーニングやWide character in print at mknmz といったワーニングが発生し、インデックスを壊す可能性があるので、とりあえずfilter/html.pl の decode_numbered_entity で、256以上を削除するようにしました。(本来ですと 128以上は削除しなければなりませんが...。)
日本語環境では元々128以上は削除されるので、あまり関係ありません。

filter/gnumeric.pl も似たような問題があったので修正しました。
gnumeric では日本語はEUC-JPのままエンコードされるらしいです。
(というより何も考えずにエンコードしているのでしょう。)
このため、日本語環境以外でデコードすると文字化けの原因となるため、日本語環境以外では128以上は削除するようにしました。
また、EUC-JPの範囲外のコードをデコードするのは好ましくないため、簡単なコードの範囲チェックを加えました。

コメント

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://namazu.asablo.jp/blog/2005/12/07/168869/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。