OLE::Storage_Lite を用いた SummaryInfomation の取得2006年02月10日 06時41分11秒

現在、OLE::Storage_Lite を用いて OLE の複合ファイルに含まれる SummaryInformation や DocumentSummaryInformation のプロパティ情報を取得するプログラムを Perl で書いています。

これにより、現在 非OLE コントロールフィルタ(および xdoc2txt.plを除く) でプロパティ情報の取得に使用している wvSummary の置き換えが可能となります。

実用上、wvSummary でも十分ですが、外部コマンドであることと、wvWare をインストールする必要があることから、OLE::Storage_Lite で実装できれば手軽に使えるものと思います。

Windows のプログラムであれば、これらのプロパティを取得するのは以前書いた時に比較的簡単に書けた記憶があるのですが、OLE::Storage_Lite を使うと少々面倒でした。(後から OLE::Storage を使うと簡単に取得できることを知りましたが、OLE::Storage をインストールよりは OLE::Storage_Lite を使う方が他のフィルタでも使っているので、都合が良いでしょう。)

さて、現在 SummaryInformation の取得はほぼできていまして、DocumentSummaryInformation の取得を書いています。 ただ、DocumentSummaryInformation のプロパティのうち、

http://msdn.microsoft.com/library/default.asp?url=/library/en-us/stg/stg/the_summary_information_property_set.asp

に載っていないものがあるのですが、これはどこに情報があるのでしょうか???

手元には Property identifier value に 0x00000017, 0x00000013, 0x00000016 を含むファイルがあるのです。

現在の Namazu では DocumentSummaryInformation のプロパティを今のところ使ってはいないのですが、もう少しフィールド情報を増やそうかと思って調べています。 ついでに、UserDefined property も少し調べてみようかと思ってはいますが、UserDefined property のプロパティ名の定義ってどうやっているのだろう。

html.pl フィルタの XHTML 対応2006年02月10日 10時55分32秒

Namazu は HTML には対応しているが XHTML には対応していないので、html.pl フィルタでは "/>" でタグが閉じているものを無視して処理してしまっています。

今時、それはないので XHTML 対応も考えないといけないでしょう。

とりあえず、html_filter の最初の方で "/>" を ">" に置換してから処理を通せば大丈夫なはず。
あと、isexcluded が html_filter の前に通るので ここだけは個別に対応しておく必要がありますが、現状のままで問題ないようです。

# しかし、"/>" を ">" に置換するのは少々強引か...。
# 問題が起こるのは、"\s*>" 等のパターンを使っているところ。そこを "\s*/?>" に全て変える方が良いか...。

HEAD の場合、テンプレートは XHTML にも多少対応しているのですが、stable-2-0 への対応はまだ甘かったかもしれません。
ちなみに HEAD の方は、HTML パーサを使うこともできるので、もう少しまともな処理が可能なはずです。

ドイツ語Webサイトのお洒落な Namazu2006年02月10日 16時58分13秒

http://www.ne.jp/asahi/music/marinkyo/namazu/tipo.html.ja.sjis

から Namazu を使ったドイツ語Webサイト「ボンLINUXユーザーズグループの検索ページ」を知る。

http://bolug.uni-bonn.de/suchen/index.html

Namazu Projet が公開している Namazu のドイツ語のテンプレートは不十分なのだが、翻訳されて使われている。その上、デザインもお洒落。