小池啓仁 ヒロヒト応援ブログ By はてな

小池啓仁(コイケヒロヒト)の動画など。

小池啓仁 ヒロヒト応援ブログ By はてな

PerlでのシフトJIS漢字問題

WINDOWSPerlスクリプトを組む時の漢字コードは、一番自然なのが、コードも入出力もシフトJISです。
しかし、シフトJIS漢字コードでスクリプトを組むと、不可解な世界に陥るのです。
そして、その不可解は、大きく分けて以下の2つの問題が原因なのです。

シフトJISの第2バイトコード問題

シフトJIS漢字は、第1バイトと第2バイトの2バイトで表現されています。
そして、第2バイトには、ASCII 1バイト文字『@-~(10進で64-126)』と、かぶるコードが割りついているのです。
この1バイト文字には、以下の問題発生が潜在的に含んでいるのです。

  1. 第2バイトの『\』0x5c問題 - \でその後に続く文字をエスケープしてしまう。
  2. 第2バイトの『\\』連続問題 - エスケープを入れた前の漢字が1の場合だった時、\が連続してエスケープにならない。
  3. 第2バイトの『\n』連続改行問題 - 1の場合で、後に続く文字がたまたま『n』だったら改行になってしまう。
  4. 第2バイトの『@』問題 - 漢字スペースの第2バイトは『@』と同じコードで、Perlでの配列変数と区別がつかなくなる。
  5. 第2バイトの『アルファベット』問題 - 漢字なのにアルファベットだと誤認識。また、アルファベットの大文字小文字で誤認識(lc関数)
  6. その他の第2バイト問題 - 明らかに問題がありそうなコード『{,},|,^,[,]』、他にもあるかも。

バイト列による漢字コード境界問題

漢字コードは普通2バイト以上で、これが連続した場合に漢字毎の境界を挟んで、たまたま別の漢字に認識されることがあるのです。
たとえば、シフトJISの場合、全角『c』の文字コードは 0x82 0x83 で、全角『d』は 0x82 0x84 で、全角『モ』は 0x83 0x82 です。
『cd』の場合、0x82 0x83 0x82 0x84 となり、2つの漢字コードの境界を挟んで、0x83 0x82となり、『モ』と同じになってしまうのです。


結論として、シフトJIS漢字コードでPerlスクリプトを組むには、相当な覚悟が必要なのです。
現象さえ見抜けば、回避する方法も、Perlでは、ほぼ用意されていますが・・・。
また、回避したコードは、他のOS上に移植した時に、例えばUNIX系とかでは動かなくなる可能性が大です。

ということで、漢字処理に関しては、以下のページがお奨めです。


尚、本記事は、以下のページを参考にさせていただきました。
しかし、このページは、Perl文字コードに相当詳しくないと読みこなせないですね。