Question

我想将维基百科感兴趣的网页标为 python 库或图书馆。我对表格和列表最感兴趣。我希望能够将这些数据导入 Postgres 或 Neo4j 。

例如,这里有三个数据组,我感兴趣的是:

How many points each country awarded one another in the Eurovision Song contest of 2008: http://en.wikipedia.org/wiki/Eurovision_Song_Contest_2008#Final
List of currencies and the countries in which they circulate (a many-to-many relationship): http://en.wikipedia.org/wiki/List_of_circulating_currencies
Lists of solar plants around the world: http://en.wikipedia.org/wiki/List_of_solar_thermal_power_stations

每种图文的来源都是用维基百科的标记标记来写成的, 用来制作这些标记。许多维基百科特定标签和语法都用于原始数据格式。 HTML 几乎可能是比较容易的解决方案, 因为只要我能够使用“ 美丽汤 ” 。

有谁知道更好的象征性方式吗?我觉得如果我选择了最后的HTML,然后用《美容汤》来解析它,我就能重新发明方向盘。此外,如果我能找到一种方法将这些页面输出到XML,那么表格数据可能不够具有象征意义,需要进一步处理。

Answer 1

自维基百科建在MediWiki上以来,有api 你可以开发。还有special:Export ,你可以使用。

Answer 2

这更多地涉及语义网站方向,但>DBPedia 允许使用STARQL查询维基比亚数据的部分(社区转换努力),这样从理论上讲可以直接提取所需的数据,然而处理RDF的三重数据可能很麻烦。

此外,我不知道DBBedia是否还包含任何你感兴趣的数据。