我试图用一个简单的 python 脚本从 < a href=" http://mp3skull.com/mp3/linkin_park_faint.html" 网站 < webpage > < /a > 中提取某些链接。 我能够成功提取链接, 但现在我想从网页上获取一些更多信息, 如 < code> bibitate, size, dunation 。
我使用下面的xpath 提取上述信息
>>> doc = lxml.html.parse( http://mp3skull.com/mp3/linkin_park_faint.html )
>>> info = doc.xpath(".//*[@id= song_html ]/div[1]/text()")
>>> info[0:7]
[
,
3.71 mb ,
,
3.49 mb ,
,
192 kbps , 2:41 ]
现在我需要的是,对于特定链接,我所需要的信息是以 tuple
的形式生成的,如 (dibate, size, dudule)
。
上面提到的 >xpath
产生所需的信息,但 >il-formated
是无法以任何逻辑实现我所要求的格式的,至少我做不到。
那么,有没有办法实现我格式的输出?