日本語文字の正規化
Lingua::JA::Regular - search.cpan.org
以前機種依存文字の排除に相当苦戦したんだが、こんなのがあるとは…あの頃知ってたらなぁ…。今度実験してみよう。
追記
ちなみに当時取った手法は、ファイルをbytesレイヤーで(まぁつまりレイヤー指定なしで)開いて正規表現でごにょごにょした後decodeするというもの。
Lingua::JA::Regular - search.cpan.org
以前機種依存文字の排除に相当苦戦したんだが、こんなのがあるとは…あの頃知ってたらなぁ…。今度実験してみよう。
ちなみに当時取った手法は、ファイルをbytesレイヤーで(まぁつまりレイヤー指定なしで)開いて正規表現でごにょごにょした後decodeするというもの。