2つのインデックスが同じかどうか比較するツール2007年04月20日 03時43分46秒

最近、2つのインデックスが同じかどうかを比較するツールが欲しいと感じています。

例えば、update を繰り返したインデックスと、新規に作りなおしたインデックスが同じかどうかを比較したり、文書を2つのグループに分けてそれぞれインデックスを作った後にマージしたものと、最初からまとめてインデックスを作ったものが同じかどうかを比較したりといったことのためにです。

これは単純に diff や cmp での比較では同じかどうかをチェックすることができないからです。

まず、Namazu のインデックスはupdateを繰り返すとゴミが含まれます。ゴミが含まれる以上、diff や cmp で一致しないのは明白です。ただ、このゴミは gcnmz で除去できます。しかし、ゴミを除去しても diff や cmp では一致しません。 これは、Namazu のインデックスは処理した文書の順番に依存するデータ構造のためです。

このため、インデックスを比較するためには、専用のツールが必要となります。

また、gcnmz にインデックスを文書名順にソートする機能を加えて、変換後に diff や cmp で比較するという方法も考えられます。

コメント

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://namazu.asablo.jp/blog/2007/04/20/1444131/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。