我试图解析一个购物网站上的电子游戏标题列表。然而,因为项目列表都存储在标签内。
文档的这一部分应该解释了如何只解析文档的一部分,但我无法解决。我的代码:
from BeautifulSoup import BeautifulSoup
import urllib
import re
url = "Some Shopping Site"
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
for a in soup.findAll( a ,{ title :re.compile( .+ ) }):
print a.string
目前,is打印任何具有非空标题引用的标签内的字符串。但它也在为侧栏中的“特价”商品定价。如果我只能拿产品列表div,我将一举两得。
非常感谢。