2つのインデックスが同じかどうか比較するツール ― 2007年04月20日 03時43分46秒
最近、2つのインデックスが同じかどうかを比較するツールが欲しいと感じています。
例えば、update を繰り返したインデックスと、新規に作りなおしたインデックスが同じかどうかを比較したり、文書を2つのグループに分けてそれぞれインデックスを作った後にマージしたものと、最初からまとめてインデックスを作ったものが同じかどうかを比較したりといったことのためにです。
これは単純に diff や cmp での比較では同じかどうかをチェックすることができないからです。
まず、Namazu のインデックスはupdateを繰り返すとゴミが含まれます。ゴミが含まれる以上、diff や cmp で一致しないのは明白です。ただ、このゴミは gcnmz で除去できます。しかし、ゴミを除去しても diff や cmp では一致しません。 これは、Namazu のインデックスは処理した文書の順番に依存するデータ構造のためです。
このため、インデックスを比較するためには、専用のツールが必要となります。
また、gcnmz にインデックスを文書名順にソートする機能を加えて、変換後に diff や cmp で比較するという方法も考えられます。
最近のコメント