燈明ブログ

現状は小池啓仁の応援ブログ

VB2005での文字コード変換処理

まず、VB2005では文字列を表示するときの文字コードは『UTF16』です。
たとえば、ファイル内容の文字コードが『UTF8』、『EUC』、『SJIS』のいずれかが、分からない場合があったとします。
そんな時は、まず、バイト列で読み込んで、『UTF8』、『EUC』、『SJIS』の各々から『UTF16』に変換してあげれば良いわけですね。

◆手順としては、以下の通り

  • バイト列でファイルを読み込み、バイト型配列変数へ格納します。
  • そのバイト型配列変数から各々のエンコーディングをして、文字列変数へ格納します。

ということで、ググると以下のサンプルに遭遇しました。
どぼんさん、いつも有用な情報、ありがとうございます。

◆バイト列でファイルを読み込み、バイト型配列変数へ格納するサンプル

'読み込むファイルの名前
Dim fileName As String = "C:\test.txt"
'ファイルを開く
Dim fs As New System.IO.FileStream(fileName, _
    System.IO.FileMode.Open, _
    System.IO.FileAccess.Read)
'ファイルを読み込むバイト型配列を作成する
Dim bs(fs.Length - 1) As Byte
'ファイルの内容をすべて読み込む
fs.Read(bs, 0, bs.Length)
'閉じる
fs.Close()
http://dobon.net/vb/dotnet/file/filestream.html

◆バイト列(各文字コード)を文字列(UTF16)に変換するサンプル

'バイト型配列"bytesData"に文字列データが入っているものとする

Dim str As String

'Shift JISとして文字列に変換
str = System.Text.Encoding.GetEncoding(932).GetString(bytesData)

'JISとして変換
str = System.Text.Encoding.GetEncoding(50220).GetString(bytesData)

'EUCとして変換
str = System.Text.Encoding.GetEncoding(51932).GetString(bytesData)

'UTF-8として変換
str = System.Text.Encoding.UTF8.GetString(bytesData)
http://dobon.net/vb/dotnet/string/getencoding.html

要は、VB2005の内部コードはUTF16でなくてならず、外部から読み込んだデータを各々の場合に応じてUTF16に変換するわけです。
留意点としては、UTF16とした段階で、文字列として化けている場合は、その文字列を各々場合のバイト列に変換(GetBytes)してもNGみたいです。
あくまで、読み込んだ元のバイト列を変換し直さないと上手く行かない感じだと思います。