Win上で漢字変換し、それをLinuxに持っていく
◆ プロローグ
えーと、まずはじめに、Perlで漢字処理をするには、ソースコードを utf8 で書くのが基本です。
しかし、Windowsだと、なかなかそうできないケースがあったりします・・・。
以下は、ソースコードを shiftjis で書いています。
◆ 本題
Linuxでの漢字コードは、昔は euc ですが、今は utf8 です。
また、改行コードは、昔から FL です。
たとえば、データをWin上で処理した後に、Linuxに持っていく場合があるとします。
その時は、Win上で漢字コードを utf8 か、または euc にして、改行コードを FL にしないとなりません。
以下は、そんな時のためのサンプルです。ソースコードは shiftjis で書いています。
use strict; use warnings; use encoding 'shiftjis'; my $fileBody = "aaaちゃいちゃん\nbbb\nヒロ\nccc\n"; open my $fh, '>', 'test_euc.txt' or die "Error ($!)"; binmode $fh; binmode $fh, ':encoding(euc-jp)'; print $fh $fileBody; close $fh; open $fh, '>', 'test_utf8.txt' or die "Error ($!)"; binmode $fh; binmode $fh, ':encoding(utf8)'; print $fh $fileBody; close $fh; open $fh, '>', 'test_sjis.txt' or die "Error ($!)"; binmode $fh, ':encoding(shiftjis)'; print $fh $fileBody; close $fh;
補足1
test_euc.txtとtest_utf8.txtでbinmodeを2回呼んでいるのは、1回目が改行をLF出力指定にし、2回目が漢字変換指定です。
補足2
尚、上記サンプルでの『encoding 'shiftjis'』指定は、ファイル出力系のデフォルト漢字コードを utf8 にしてしまいます。
なので、今まで shiftjis で出力していた思いがけないところが、いきなり utf8 になって、あせったりします。
他に影響がないようにするには、以下のように文字列だけを変換すると吉かもしれません。
use strict; use warnings; use Encode qw(from_to); my $fileBody = "aaaちゃいちゃん\nbbb\nヒロ\nccc\n"; open my $fh, '>', 'test_euc.txt' or die "Error ($!)"; binmode $fh; from_to $fileBody, 'shiftjis', 'euc-jp'; print $fh $fileBody; close $fh; $fileBody = "aaaちゃいちゃん\nbbb\nヒロ\nccc\n"; open $fh, '>', 'test_utf8.txt' or die "Error ($!)"; binmode $fh; from_to $fileBody, 'shiftjis', 'utf8'; print $fh $fileBody; close $fh; $fileBody = "aaaちゃいちゃん\nbbb\nヒロ\nccc\n"; open $fh, '>', 'test_sjis.txt' or die "Error ($!)"; print $fh $fileBody; close $fh;
補足3
euc-jp と utf8 と shiftjisは、少なくとも英数字は、各々と同じコードです。
漢字コードのところが、各々で定められて違うのです。ちなみにUTF-16は、英数字のコードも異なります。
また、改行コードは、Linux系が FL(\x0a) で、Windows系は CRLF(\x0d\x0a) です。ちなみにMac系は CR(\x0d) とのことです。
◆ エピローグ
ただし、あくまでも、漢字を扱う時の基本は、ソースコードを utf8 で書くことですよ!
ではなぜ、ソースコードを utf8 で書くことが推奨なのでしょうか・・・。
それは、正規表現での漢字のパターンマッチが、ちゃんとできるようになるからです。
ソースコードを utf8 で書いて、『use encoding 'utf8';』指定することにより、漢字をバイト列でなく、文字列とみなしてくれるのです。
euc-jp や shiftjisは、漢字をバイト列とみなしているので、漢字同士の境界で誤認識したり、shiftjisなどは、漢字コードがアスキーコードとかぶっていたりするのです。
以下は、ソースコードを utf8 にしてみました。
use strict; use warnings; use encoding 'utf8'; my $fileBody = "aaaちゃいちゃん\nbbb\nヒロ\nccc\n"; open my $fh, '>', 'test_euc.txt' or die "Error ($!)"; binmode $fh; binmode $fh, ':encoding(euc-jp)'; print $fh $fileBody; close $fh; open $fh, '>', 'test_utf8.txt' or die "Error ($!)"; binmode $fh; binmode $fh, ':encoding(utf8)'; print $fh $fileBody; close $fh; open $fh, '>', 'test_sjis.txt' or die "Error ($!)"; binmode $fh, ':encoding(shiftjis)'; print $fh $fileBody; close $fh;