様々な局面でHTMLの解析が必要になります。例えば、こちらのページでも紹介したSeleniumで複雑なことをしようとすると、driver.page_sourceで取得したHTMLを解析したくなります。このような用途のために、RubyにはNokogoriというツールがあります。
本ページの内容を越えるものは、こちらの公式ドキュメントを参照してください。
XPathまたはjQueryでもお馴染のCSSセレクタを使用できます。本ページではCSSセレクタを用いた例を示します。
Nokogiriの入力はUTF-8である必要があります。ちなみに出力もUTF-8です。
sample.rb
#!/usr/bin/ruby
require "nokogiri"
require "selenium-webdriver"
driver = Selenium::WebDriver.for :firefox
driver.manage.timeouts.implicit_wait = 10 # seconds
driver.get "http://www.example.com/"
doc = Nokogiri::HTML driver.page_source.encode("UTF-8") # Nokogiriの入力はUTF-8
p doc.title # タイトルを解析して出力
driver.quit
出力例
$ ruby sample.rb
"Example Domain"
sample.rb
#!/usr/bin/ruby
require "nokogiri"
f = File.open('/Users/YourName/Desktop/example_domain.html')
doc = Nokogiri::HTML(f)
p doc.title # タイトルを解析して出力
出力例
$ ruby sample.rb
"Example Domain"
2つのCSSセレクタメソッドがあります。
コード例:
doc.css('p.sample-class').each do |sample|
p sample.to_s
end
p doc.at_css('p#sample-id').to_s
p element.text
p element.content # .textメソッドと同じ
p element.parent.to_s
p element.name
p element['href'] # <a href="http://www.iana.org/domains/example">More information...</a>
p doc.at_css('p#sample-id').css('a').to_s