モーダルを閉じる工作HardwareHub ロゴ画像

工作HardwareHubは、ロボット工作や電子工作に関する情報やモノが行き交うコミュニティサイトです。さらに詳しく

利用規約プライバシーポリシー に同意したうえでログインしてください。

工作HardwareHub ロゴ画像 (Laptop端末利用時)
工作HardwareHub ロゴ画像 (Mobile端末利用時)

Ruby における日本語のエンコーディング

モーダルを閉じる

ステッカーを選択してください

モーダルを閉じる

お支払い内容をご確認ください

購入商品
」ステッカーの表示権
メッセージ
料金
(税込)
決済方法
GooglePayマーク
決済プラットフォーム
確認事項

利用規約をご確認のうえお支払いください

※カード情報はGoogleアカウント内に保存されます。本サイトやStripeには保存されません

※記事の執筆者は購入者のユーザー名を知ることができます

※購入後のキャンセルはできません

作成日作成日
2013/07/15
最終更新最終更新
2017/04/21
記事区分記事区分
一般公開

目次

    Rubyを使った効率的なスクリプトの書き方を紹介

    0
    ステッカーを贈るとは?

    日本語を含めて多言語対応する際には、Asciiコード以外の文字コードセットが必要になります。日本語が主となる場合、よく使われる文字セットにはUnicode, Shift_JIS, EUC-JPがあります。このうち Unicode だけは特殊であり、世界中のあらゆる文字を収録しようとしていることから 1 文字を表現するために必要なバイト数が大きくなってしまっています。そのため Unicode のうちよく使用する文字は少ないバイト数で表現でき、あまり使用しない文字を表現する際にはバイト数が大きくなるようなエンコーディングを行って使用します。Web上で最も使用されているものは UTF-8 符号化方式です。Asciiコード範囲内の文字は 1 バイトで表現できるようになります。ただ、日本語に特化している Shift_JIS などと比較して、日本語 1 文字を表現するために必要なバイト数は大きくなってしまっています。そのため、日本語が頻出する文章の場合 UTF-8 よりも UTF-16 符号化方式の方が文章全体として効率的にエンコーディングできます。

    UTF-16 は 2 バイト単位であることからも想像のつくように バイトオーダ を判別する必要があり、文章の最初にはBOM (Byte Order Mark) の付与が推奨されます。このBOMによって UTF-8 と UTF-16 の判別も可能です。このBOMは UTF-8 に対しては必須ではありません。BOMがない UTF-8 を特に UTF-8N ともよびます。

    ファイルのエンコーディング

    ソースファイルに記述された

    str = "日本語"
    

    は、str変数に「日本語」というUnicode文字列を何らかの形式でエンコーディングした結果を代入する式です。
    つまり、ソースファイルのエンコーディング次第で異なる値が代入されます。

    # -*- coding: utf-8 -*-
    

    とファイルの一行目 (または #!/path/to/ruby の次) に記述することで、Rubyはエンコーディング形式を知ることができます。
    Perlでいうところの、"use utf8;" です。

    sample.rb (utf-8で保存)

    #!/usr/bin/ruby
    # -*- coding: utf-8 -*-
    
    utf = "日本語"
    p utf
    p utf.encoding
    p utf.length
    p utf.bytesize
    

    出力例

    $ ruby sample.rb 
    "\u65E5\u672C\u8A9E"
    #<Encoding:UTF-8>
    3
    9
    

    エンコーディング形式を変更

    sample.rb (utf-8で保存)

    #!/usr/bin/ruby
    # -*- coding: utf-8 -*-
    
    utf = "日本語"
    p utf
    p utf.encoding
    p utf.length
    p utf.bytesize
    
    sjis = utf.encode("Shift_JIS")
    p sjis
    p sjis.encoding
    p sjis.length
    p sjis.bytesize
    
    euc = sjis.encode("EUC-JP")
    p euc
    p euc.encoding
    p euc.length
    p euc.bytesize
    
    # 16進数で表現された文字列など、そのエンコーディングが
    # 必ずしも自動判別できない場合は、明示的に指定する必要があります。
    puts "\xE3\x81\x82\xE3\x81\x84\xE3\x81\x86\xE3\x81\x88\xE3\x81\x8A".encode('Shift_JIS', 'UTF-8')
    # (UTF-8 から Shift_JISへ)
    

    出力例

    $ ruby sample.rb 
    "\u65E5\u672C\u8A9E"
    #<Encoding:UTF-8>
    3
    9
    "\x{93FA}\x{967B}\x{8CEA}"
    #<Encoding:Shift_JIS>
    3
    6
    "\x{C6FC}\x{CBDC}\x{B8EC}"
    #<Encoding:EUC-JP>
    3
    6
    あいうえお
    

    putsなどと異なり、pはデバッグ用の出力メソッドでありバイト列を出力します。
    例えばターミナルのエンコーディング形式がEUC-JPの場合、

    p euc
    puts euc
    

    とすると

    "\x{C6FC}\x{CBDC}\x{B8EC}"
    日本語
    

    となります。

    比較

    エンコーディングが異なる場合は比較結果が偽になります。

    sample.rb

    #!/usr/bin/ruby
    # -*- coding: utf-8 -*-
    
    utf = "日本語"
    sjis = utf.encode("Shift_JIS")
    
    p utf == sjis
    p utf == sjis.encode("UTF-8")
    

    出力例

    $ ruby sample.rb 
    false
    true
    
    0
    詳細設定を開く/閉じる
    アカウント プロフィール画像 (本文下)

    Rubyを使った効率的なスクリプトの書き方を紹介

    記事の執筆者にステッカーを贈る

    有益な情報に対するお礼として、またはコメント欄における質問への返答に対するお礼として、 記事の読者は、執筆者に有料のステッカーを贈ることができます。

    さらに詳しく →
    ステッカーを贈る コンセプト画像

    Feedbacks

    Feedbacks コンセプト画像

      ログインするとコメントを投稿できます。

      関連記事

      • レイアウトおよび部分テンプレートに関するまとめ (Rails4)
        レイアウトおよび部分テンプレートはどちらもテンプレート (*.html.erb) に共通の要素をまとめておき、任意のテンプレートから利用できるようにしておくための仕組みです。フッターやヘッダーといった大枠はレイアウト、小さなパーツは部分テンプレートというイメージで使い分けましょう。 レイアウトの使用方法 クラス毎に指定する方法と、アクション毎に指定する方法があります。 app/views/layo...
        taro三世taro三世10/21/2016に更新
        いいねアイコン画像0
      • Ruby コードスニペット (正規表現)
        sample.rb str = "001: This is a string." var1,var2 = 2,3 # 'EOS'とすると#{}による変数展開がなされない (%03dは展開される) doc = (<<"EOS" % var1) # 括弧は省略可。要は<<"EOS"の次の行からEOSまで。(参: <<-"EOS"とすると前に空白...
        だいふくうさぎだいふくうさぎ5/13/2018に更新
        いいねアイコン画像0
      • OAuthを用いずにTwitterに自動投稿する (回数制限あり, Selenium with Ruby)
        Seleniumを用いて、OAuthを用いずにTwitterに自動投稿するRubyスクリプトを記述してみます。連続で複数回実行すると、ボット判定としてキャプチャ認証が発生します。その認証までは通過できませんので悪しからず。また、Twitterの仕様変更次第ではDOMの構造が変化するため、下記サンプルは機能しなくなる恐れが有ります。 twitter_post.rb #!/usr/bin/ruby r...
      • Rails3ビューテンプレートの基本的な使用方法 (Ruby)
        Railsでは、ERB (eRuby (テキストファイルにRubyスクリプトを埋込む書式の仕様) をRubyで実装したもの) を用いてHTML内にRubyスクリプトを埋込むことができます。 <% %> で囲むと出力されません (if-elseなど制御構文を記述します) <%= %> で囲むとエスケープ出力されます <%== %> で囲むとエスケープされずに...
        ほんわかパンダほんわかパンダ10/21/2016に更新
        いいねアイコン画像0
      • ビューヘルパーの作成方法 (Rails4)
        事前準備 $ rails generate scaffold myModel field1:string field2:integer field3:date field4:boolean $ rake db:migrate config/application.rb module MyApp class Application < Rails::Application ... ...
        クロクロ10/21/2016に更新
        いいねアイコン画像0