Question

我有一份超文本文件(载于utf-8)。开放式)。档案结构是:

<html>
// header
<body>
  // some text
  <table>
    // some rows with cells here
    // some cells contains tables
  </table>
  // maybe some text here
  <table>
    // a form and other stuff
  </table>
  // probably some more text
</body></html>

我只需要找回头一张表格(用表格打印)。 Omit all submissions before first <table> and subsequently </table>。一些囚室还载有段落、黑体和文字。主要表格的每个行数不超过一个表格。

我怎么能抽取一份行文清单,其中每个元件都持有平原(单编码管)电池数据,并列出每一封顶桌的行号? 宽度不超过1级。

I tried HTMLParse, PyParse and re module, but can t get this working. I m quite new to Python.

Answer 1

Try beautiful soup

原则上,你需要使用真正的教区(波特兰)。因此,由于计算机科学原因,reg无法处理密封元素(有限的国家机器可穿上无背景的克法,国际资源中心)。

Answer 2

页: 1 我不敢肯定,我确实理解你希望与这一结构做些什么,但也许这个例子会有助于......。

import lxml.html

def process_row(row):
    for cell in row.xpath( ./td ):
       inner_tables = cell.xpath( ./table )
       if len(inner_tables) < 1:
           yield cell.text_content()
       else:
           yield [process_table(t) for t in inner_tables]

def process_table(table):
    return [process_row(row) for row in table.xpath( ./tr )]

html = lxml.html.parse( test.html )
first_table = html.xpath( //body/table[1] )[0]

data = process_table(first_table))

Answer 3

如果超文本能很好地掌握,你就可以将其 par成多射树木,并利用XPath提取你想要的桌子。通常使用 http://codespeak.net/lxml/index.html” rel=“nofollow noreferer”>为平价XML,。它可以安装超文本和。

删除第一个表格的XPath将是“//表3.1”。

友情链接