我想将维基百科感兴趣的网页标为 python 库或图书馆。 我对表格和列表最感兴趣。 我希望能够将这些数据导入 Postgres 或 Neo4j 。
例如,这里有三个数据组,我感兴趣的是:
- How many points each country awarded one another in the Eurovision Song contest of 2008: http://en.wikipedia.org/wiki/Eurovision_Song_Contest_2008#Final
- List of currencies and the countries in which they circulate (a many-to-many relationship): http://en.wikipedia.org/wiki/List_of_circulating_currencies
- Lists of solar plants around the world: http://en.wikipedia.org/wiki/List_of_solar_thermal_power_stations
每种图文的来源都是用维基百科的标记标记来写成的, 用来制作这些标记。 许多维基百科特定标签和语法都用于原始数据格式。 HTML 几乎可能是比较容易的解决方案, 因为只要我能够使用“ 美丽汤 ” 。
有谁知道更好的象征性方式吗?我觉得如果我选择了最后的HTML,然后用《美容汤》来解析它,我就能重新发明方向盘。此外,如果我能找到一种方法将这些页面输出到XML,那么表格数据可能不够具有象征意义,需要进一步处理。