コマンドプロンプトからのエラーメッセージ STDERR/STDOUT のリダイレクト2006年04月10日 16時31分09秒

何故かあまり知られていませんが、NT/2000/XP/2003 Server のコマンドプロンプトからエラーメッセージ STDERR/STDOUT をリダイレクトすることができます。

 http://support.microsoft.com/default.aspx?scid=kb;en-us;110930

NUL に標準エラーをリダイレクトするために、次のコマンドを使用します。

 C:\> dir file.xxx 2> nul

標準出力からファイルに出力と 標準エラーからファイルの出力を指定できます。

 C:\> dir file.xxx > output.msg 2> output.err

単一なファイルに標準出力と標準エラーを出力できます。

 C:\> dir file.xxx 1> output.msg 2>&1

Windows 95/98/Me の場合、MS-DOS プロンプト(command.com)では駄目ですが、Win95cmd.exe であれば同じように利用できます。

KAKASI, ChaSen, MeCab の異体字の扱い2006年04月10日 22時19分49秒

KAKASI には異体字辞書 itaijidict があるので、辞書にある異体字の違いは吸収されます。
例えば kakasidict には「国語」は登録されていますが、「國語」は登録されていません。しかし、itaijidict で 「國」と「国」が関係付けられているため、

$ echo 國語 | kakasi -JH
こくご

と異体字を用いた単語であっても、認識します。
ChaSen/MeCab を調べてみると、ChaSen では

$ echo 国語 | chasen
国語 コクゴ 国語 名詞-一般
EOS

$ echo 國語 | chasen
國 クニ 國 名詞-一般
語 ゴ 語 名詞-接尾-一般
EOS

となり、単語として認識していません。
MeCab では

$ echo 国語 | mecab
国語 名詞,一般,*,*,*,*,国語,コクゴ,コクゴ
EOS

$ echo 國語 | mecab
國 名詞,一般,*,*,*,*,國,クニ,クニ
語 名詞,接尾,一般,*,*,*,語,ゴ,ゴ
EOS

となり、こちらも単語として認識していません。

ChaSen/MeCab では異体字の単語を登録しておかなければならないということでしょうか。

ところで、Namazu は異体字を特別扱いしていないので、"国語" で "國語" が見つかることはありません。
そういうモードがあると良いかもしれません。(旧字の文献を検索する場合等には)