KAKASI:src/conv-util.c: ナマズのブログ

アサブロ検索

このブログについて

日本語全文検索システム Namazu の開発日記です。
　その他、鯰に関するもの何でも。

カテゴリ一覧

★★★★★

バックナンバー

リンク

天気予報

<A href="http://www.tenki-yoho.com/" target=_blank>天気予報</A>
-天気予報コム- -FC2-

RSS

<<前次>>

KAKASI:src/conv-util.c ― 2007年10月09日 12時41分18秒

KAKASI のソースを調べています。今回は src/conv-util.c で、これは辞書ツール(atoc_conv, rdic_conv, wx2_conv)で使われるものです。

int isallkana PARAMS(unsigned char *str);

引数: EUC-JP 文字列
戻値: 1 ... 全てが全角「ひらがな」または全角「カタカナ」で構成。 0 ... それ以外

int isallzenkaku PARAMS(unsigned char *str);

引数: EUC-JP 文字列
戻値: 1 ... 全てが全角で構成。 0 ... それ以外

int includekanji PARAMS(unsigned char *str);

引数: 全て全角文字のEUC-JP 文字列
戻値: 1 ... 漢字を含む。 0 ... それ以外

EUC-JP 文字列は1バイトのUS-ASCIIと2バイトの全角文字で構成されていることが前提です。 0x8e 0xXX の2バイトで構成される半角カナには対応していないので、引数の文字列に含まれていてはいけません。また、3バイトの補助漢字は考慮されていませんので、これも引数の文字列に含まれていてはいけません。

includekanji は、isallzenkaku で全てが全角で構成されていることを確認した文字列を引数に渡す必要があります。

これらは atoc_conv, rdic_conv, wx2_conv の入力データの制限に関係することになります。ただし、atoc_conv の入力はShift_JIS であり、rdic_conv の入力は JIS ですので、内部で EUC-JP に変換する際には更に制限がかかります。

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

トラックバック

このエントリのトラックバックURL: http://namazu.asablo.jp/blog/2007/10/09/1844835/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。

<<前次>>

<< 2007/10 >>
日	月	火	水	木	金	土
	01	02	03	04	05	06
07	08	09	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

KAKASI:src/conv-util.c: ナマズのブログ

アサブロ検索

このブログについて

カテゴリ一覧

★★★★★

バックナンバー

リンク

天気予報

RSS

KAKASI:src/conv-util.c ― 2007年10月09日 12時41分18秒

コメント

トラックバック

アクセスカウンタ

メルマガ

メンバエリア

ダウンロード販売

なまずストア

書籍

最近のコメント

最近のトラックバック

グッズ

twitter

携帯からアクセス

コピーライト

KAKASI:src/conv-util.c: ナマズのブログ

アサブロ検索

このブログについて

カテゴリ一覧

★★★★★

バックナンバー

リンク

天気予報

RSS

ログイン

KAKASI:src/conv-util.c ― 2007年10月09日 12時41分18秒

コメント

トラックバック

アクセスカウンタ

メルマガ

メンバエリア

ダウンロード販売

なまずストア

書籍

最近のコメント

最近のトラックバック

グッズ

twitter

携帯からアクセス

コピーライト