読者です 読者をやめる 読者になる 読者になる

日本語文字の正規化

日記

Lingua::JA::Regular - search.cpan.org

以前機種依存文字の排除に相当苦戦したんだが、こんなのがあるとは…あの頃知ってたらなぁ…。今度実験してみよう。

追記

ちなみに当時取った手法は、ファイルをbytesレイヤーで(まぁつまりレイヤー指定なしで)開いて正規表現でごにょごにょした後decodeするというもの。