Question

我将一些网站用图象进行拖网,我对连接<代码>href有问题。 s 缩略语href=,而不是双重引用href=><>。



当我允许所有链接都与<条码>allow(<>>>>>>/code(>)挂钩时,结果将只包含与双字母链接。 我如何解决这一问题?

Answer 1

您是否使用<条码>scrapy.contrib_exp.crandspider.rules. Rule和SgmlLinkExtractor? 我只想一字或两字。如果你想要获得与这一特定规则有关的所有联系并与之相联系,则使用

Rule(SgmlLinkExtractor(allow=( .* , )), callback= parse_item )

允许=()指空读物,因此不会配对。