日本語文字の正規化

Lingua::JA::Regular - search.cpan.org

以前機種依存文字の排除に相当苦戦したんだが、こんなのがあるとは…あの頃知ってたらなぁ…。今度実験してみよう。

追記

ちなみに当時取った手法は、ファイルをbytesレイヤーで(まぁつまりレイヤー指定なしで)開いて正規表現でごにょごにょした後decodeするというもの。