我试图抽取上述表格中所列的所有五行。
Im利用Rubytcot图书馆,用Xpath表达方式抽取表流。
举例来说,Xpath表达方式一的使用是/html/ 本人/center/table/tr。 请注意,我从这一表述中删除了body子,这通常是成功提取的。
令人痛心的是,我已经走了头三头,导致最后两行失踪。 我对那里的情况没有任何想法。
EDIT:对法典没有mag,只是根据要求附上。
require open-uri
require hpricot
faculty = Hpricot(open("http://www.utm.utoronto.ca/7800.0.html"))
(faculty/"/html/body/center/table/tr").each do |text|
puts text.to_s
end