公開日

2013/07/15

最終更新

2017/04/21

記事区分

一般公開

日本語を含めて多言語対応する際には、Asciiコード以外の文字コードセットが必要になります。日本語が主となる場合、よく使われる文字セットにはUnicode, Shift_JIS, EUC-JPがあります。このうち Unicode だけは特殊であり、世界中のあらゆる文字を収録しようとしていることから 1 文字を表現するために必要なバイト数が大きくなってしまっています。そのため Unicode のうちよく使用する文字は少ないバイト数で表現でき、あまり使用しない文字を表現する際にはバイト数が大きくなるようなエンコーディングを行って使用します。Web上で最も使用されているものは UTF-8 符号化方式です。Asciiコード範囲内の文字は 1 バイトで表現できるようになります。ただ、日本語に特化している Shift_JIS などと比較して、日本語 1 文字を表現するために必要なバイト数は大きくなってしまっています。そのため、日本語が頻出する文章の場合 UTF-8 よりも UTF-16 符号化方式の方が文章全体として効率的にエンコーディングできます。

UTF-16 は 2 バイト単位であることからも想像のつくようにバイトオーダを判別する必要があり、文章の最初にはBOM (Byte Order Mark) の付与が推奨されます。このBOMによって UTF-8 と UTF-16 の判別も可能です。このBOMは UTF-8 に対しては必須ではありません。BOMがない UTF-8 を特に UTF-8N ともよびます。

ファイルのエンコーディング

ソースファイルに記述された

str = "日本語"

は、str変数に「日本語」というUnicode文字列を何らかの形式でエンコーディングした結果を代入する式です。
つまり、ソースファイルのエンコーディング次第で異なる値が代入されます。

# -*- coding: utf-8 -*-

とファイルの一行目 (または #!/path/to/ruby の次) に記述することで、Rubyはエンコーディング形式を知ることができます。
Perlでいうところの、"use utf8;" です。

sample.rb (utf-8で保存)

#!/usr/bin/ruby
# -*- coding: utf-8 -*-

utf = "日本語"
p utf
p utf.encoding
p utf.length
p utf.bytesize

出力例

$ ruby sample.rb 
"\u65E5\u672C\u8A9E"
#<Encoding:UTF-8>
3
9

エンコーディング形式を変更

sample.rb (utf-8で保存)

#!/usr/bin/ruby
# -*- coding: utf-8 -*-

utf = "日本語"
p utf
p utf.encoding
p utf.length
p utf.bytesize

sjis = utf.encode("Shift_JIS")
p sjis
p sjis.encoding
p sjis.length
p sjis.bytesize

euc = sjis.encode("EUC-JP")
p euc
p euc.encoding
p euc.length
p euc.bytesize

# 16進数で表現された文字列など、そのエンコーディングが
# 必ずしも自動判別できない場合は、明示的に指定する必要があります。
puts "\xE3\x81\x82\xE3\x81\x84\xE3\x81\x86\xE3\x81\x88\xE3\x81\x8A".encode('Shift_JIS', 'UTF-8')
# (UTF-8 から Shift_JISへ)

出力例

$ ruby sample.rb 
"\u65E5\u672C\u8A9E"
#<Encoding:UTF-8>
3
9
"\x{93FA}\x{967B}\x{8CEA}"
#<Encoding:Shift_JIS>
3
6
"\x{C6FC}\x{CBDC}\x{B8EC}"
#<Encoding:EUC-JP>
3
6
あいうえお

putsなどと異なり、pはデバッグ用の出力メソッドでありバイト列を出力します。
例えばターミナルのエンコーディング形式がEUC-JPの場合、

p euc
puts euc

とすると

"\x{C6FC}\x{CBDC}\x{B8EC}"
日本語

となります。

比較

エンコーディングが異なる場合は比較結果が偽になります。

sample.rb

#!/usr/bin/ruby
# -*- coding: utf-8 -*-

utf = "日本語"
sjis = utf.encode("Shift_JIS")

p utf == sjis
p utf == sjis.encode("UTF-8")

出力例

$ ruby sample.rb 
false
true

だいふくうさぎ

Rubyを使った効率的なスクリプトの書き方を紹介

記事の執筆者にステッカーを贈る

有益な情報に対するお礼として、またはコメント欄における質問への返答に対するお礼として、記事の読者は、執筆者に有料のステッカーを贈ることができます。

さらに詳しく →

Feedbacks

ログインするとコメントを投稿できます。

レイアウトおよび部分テンプレートに関するまとめ (Rails4)
レイアウトおよび部分テンプレートはどちらもテンプレート (*.html.erb) に共通の要素をまとめておき、任意のテンプレートから利用できるようにしておくための仕組みです。フッターやヘッダーといった大枠はレイアウト、小さなパーツは部分テンプレートというイメージで使い分けましょう。レイアウトの使用方法クラス毎に指定する方法と、アクション毎に指定する方法があります。 app/views/layo...
taro三世10/21/2016に更新
0
- Ruby
- Rails
Ruby コードスニペット (正規表現)
sample.rb str = "001: This is a string." var1,var2 = 2,3 # 'EOS'とすると#{}による変数展開がなされない (%03dは展開される) doc = (<<"EOS" % var1) # 括弧は省略可。要は<<"EOS"の次の行からEOSまで。(参: <<-"EOS"とすると前に空白...
だいふくうさぎ5/13/2018に更新
0
- Ruby
OAuthを用いずにTwitterに自動投稿する (回数制限あり, Selenium with Ruby)
Seleniumを用いて、OAuthを用いずにTwitterに自動投稿するRubyスクリプトを記述してみます。連続で複数回実行すると、ボット判定としてキャプチャ認証が発生します。その認証までは通過できませんので悪しからず。また、Twitterの仕様変更次第ではDOMの構造が変化するため、下記サンプルは機能しなくなる恐れが有ります。 twitter_post.rb #!/usr/bin/ruby r...
カレーおじさん10/7/2018に更新
0
- Ruby
- Selenium
Rails3ビューテンプレートの基本的な使用方法 (Ruby)
Railsでは、ERB (eRuby (テキストファイルにRubyスクリプトを埋込む書式の仕様) をRubyで実装したもの) を用いてHTML内にRubyスクリプトを埋込むことができます。 <% %> で囲むと出力されません (if-elseなど制御構文を記述します) <%= %> で囲むとエスケープ出力されます <%== %> で囲むとエスケープされずに...
ほんわかパンダ10/21/2016に更新
0
- Ruby
- Rails
ビューヘルパーの作成方法 (Rails4)
事前準備 $ rails generate scaffold myModel field1:string field2:integer field3:date field4:boolean $ rake db:migrate config/application.rb module MyApp class Application < Rails::Application ... ...
クロ10/21/2016に更新
0
- Ruby
- Rails

Ruby における日本語のエンコーディング

目次

ファイルのエンコーディング

エンコーディング形式を変更

比較

記事の執筆者にステッカーを贈る

Feedbacks

関連記事