PerlでのシフトJIS漢字問題 - 小池啓仁ヒロヒト応援ブログ By はてな

WINDOWSでPerl スクリプトを組む時の漢字コードは、一番自然なのが、コードも入出力もシフトJISです。
しかし、シフトJIS漢字コードでスクリプトを組むと、不可解な世界に陥るのです。
そして、その不可解は、大きく分けて以下の２つの問題が原因なのです。

シフトJISの第２バイトコード問題
バイト列による漢字コード境界問題

シフトJISの第２バイトコード問題

シフトJIS漢字は、第１バイトと第２バイトの２バイトで表現されています。
そして、第２バイトには、ASCII １バイト文字『@-~（10進で64-126）』と、かぶるコードが割りついているのです。
この１バイト文字には、以下の問題発生が潜在的に含んでいるのです。

第２バイトの『\』0x5c問題 - \でその後に続く文字をエスケープしてしまう。
第２バイトの『\\』連続問題 - エスケープを入れた前の漢字が１の場合だった時、\が連続してエスケープにならない。
第２バイトの『\n』連続改行問題 - １の場合で、後に続く文字がたまたま『n』だったら改行になってしまう。
第２バイトの『@』問題 - 漢字スペースの第２バイトは『@』と同じコードで、Perlでの配列変数と区別がつかなくなる。
第２バイトの『アルファベット』問題 - 漢字なのにアルファベットだと誤認識。また、アルファベットの大文字小文字で誤認識（lc関数）
その他の第２バイト問題 - 明らかに問題がありそうなコード『{,},|,^,[,]』、他にもあるかも。

バイト列による漢字コード境界問題

漢字コードは普通２バイト以上で、これが連続した場合に漢字毎の境界を挟んで、たまたま別の漢字に認識されることがあるのです。
たとえば、シフトJISの場合、全角『ｃ』の文字コードは 0x82 0x83 で、全角『ｄ』は 0x82 0x84 で、全角『モ』は　0x83 0x82 です。
『ｃｄ』の場合、0x82 0x83 0x82 0x84 となり、２つの漢字コードの境界を挟んで、0x83 0x82となり、『モ』と同じになってしまうのです。

結論として、シフトJIS漢字コードでPerl スクリプトを組むには、相当な覚悟が必要なのです。
現象さえ見抜けば、回避する方法も、Perlでは、ほぼ用意されていますが･･･。
また、回避したコードは、他のOS上に移植した時に、例えばUNIX系とかでは動かなくなる可能性が大です。

ということで、漢字処理に関しては、以下のページがお奨めです。

http://d.hatena.ne.jp/chaichanPaPa/20080507/1210160763

尚、本記事は、以下のページを参考にさせていただきました。
しかし、このページは、Perlと文字コードに相当詳しくないと読みこなせないですね。

http://homepage1.nifty.com/nomenclator/perl/shiftjis.htm

小池啓仁 ヒロヒト応援ブログ By はてな

シフトJISの第２バイトコード問題

バイト列による漢字コード境界問題

小池啓仁ヒロヒト応援ブログ By はてな