小池啓仁 ヒロヒト応援ブログ By はてな

小池啓仁(コイケヒロヒト)の動画など。

小池啓仁 ヒロヒト応援ブログ By はてな

WINDOWS上のPerl漢字処理では、ソースコードは UTF-8 で I/O は Shift-JIS で・・・

WINDOWS上のPerl漢字処理の留意点

  • Perl5.8.xでは、内部的には、文字列は、UnicodeUTF-8)で扱われます。
  • 内部的に扱われている Unicode文字列には、UTF8フラグというものがついて、普通のバイト列とは区別されます。
  • WINODWSでは、外部的には、文字列は Shift-JIS で扱われます。
  • Perlの方向性としては、ソースコードUTF-8 で書き、utf8プラグマを指定する。


以下のサンプルは、ソースコードUTF-8 で書き、utf8プラグマを指定し、I/O は Shift-JISにエンコードしています。
注意しなくてはいけないのは、ファイルI/Oでは、shiftjisのファイルを読んで内容をdecodeし、utf-8上で任意の処理後、encodeする手順です。
なお、ここで云うdecodeとは、shiftjisバイト列(UTF8フラグなし)をUnicode文字列(UTF8フラグ付き)へデコードします。
また、ここで云うencodeとは、Unicode文字列(UTF8フラグ付き)をshiftjisバイト列(UTF8フラグなし)へエンコードします。

サンプルソース

use strict;
use warnings;
use Encode qw(encode decode);
use utf8;                             # ソースがutf-8で書かれていることの宣言
binmode STDOUT, ':encoding(shiftjis)';# 標準出力はutf-8からshiftjisへ変換
binmode STDERR, ':encoding(shiftjis)';# 標準エラーはutf-8からshiftjisへ変換
binmode STDIN, ':encoding(shiftjis)'; # 標準入力はshiftjisからutf-8へ変換

open(FH_IN, 'sjis_in.txt');
open(FH_OUT, '>sjis_out.txt');
while (<FH_IN>) {
    my $wk = decode('shiftjis', $_);  # shiftjisからutf-8へ変換
    #ここで$wkに対して任意の処理をする。
    print FH_OUT encode('shiftjis', $wk); # utf8からshiftjisへ変換しファイル出力
}
close(FH_OUT);
close(FH_IN);
print "----------------------\n";
while (<STDIN>) {              # 標準入力からshiftjisを読み込むとutf-8なっている
    print $_;                  # 標準出力にutf8を書き込むとshiftjisになっている
}
my $wk = '表示';
print unpack('H*', $wk), "\n"; # ダンプするとutf-8コードになっている
print $wk;

とにかく、ソース記述コード、内部コード、外部コード、バイト列(UTF8フラグなし)、文字列(UTF8フラグ付き)が複雑に絡み合うので、混乱しないようにね。