hitode909の日記

以前はプログラミング日記でしたが、今は子育て日記です

青空文庫 ルビ取る

青空文庫のHTML,ルビが入ってて,人間が読むにはいいけど,用途によっては不便なことがある.

require 'open-uri'
require 'nokogiri'

doc = Nokogiri open('http://www.aozora.gr.jp/cards/000156/files/1465_16805.html')
doc.at('.main_text').search('ruby').remove
puts doc.at('.main_text').content