Question

“entergraph

我试图抽取上述表格中所列的所有五行。

Im利用Rubytcot图书馆,用Xpath表达方式抽取表流。

举例来说,Xpath表达方式一的使用是/html/ 本人/center/table/tr。请注意,我从这一表述中删除了body子,这通常是成功提取的。

令人痛心的是,我已经走了头三头,导致最后两行失踪。我对那里的情况没有任何想法。

EDIT:对法典没有mag,只是根据要求附上。

require  open-uri 
require  hpricot 

faculty = Hpricot(open("http://www.utm.utoronto.ca/7800.0.html"))
(faculty/"/html/body/center/table/tr").each do |text|
  puts text.to_s
end

Answer 1

有关超文本文件无效。 (见http://validator.w3.org/check?uri=%3A%2F%2F%2Fwww.utm.utoronto.ca%2F7800.0.html>http://validator.w3.org/check?uri=http://%3A%2F%2F%2Fwww.utm.utoronto.ca%2F7800.0.html)。草药用的是另一种方式,而不是你的浏览器,因此,结果不同,但确实可能受到指责。在“超文本”之前,没有标准说明如何将无效的超文本文件分类。

我尝试用Nokogiri取代Hpricot,似乎给预期的教区。法典:

require  open-uri 
require  nokogiri 

faculty = Nokogiri.HTML(open("http://www.utm.utoronto.ca/7800.0.html"))

faculty.search("/html/body/center/table/tr").each do |text|
  puts text
end

你们是否应该改变?

Answer 2

不存在以下途径:<条码>。缩略语当你使用<条码>、<<>/>>/代码>时,请重新专门寻找一个<条码><tr>, 它是<条码>的直系后代;table>,但从您的图像来看,该标志是如何构造的。

友情链接