Question

我正在使用我的爬虫挖掘网页内容进行一些分析。网页通常包含围绕着文章主体的杂乱内容（如广告、不必要的图片和多余的链接），这会使用户分散注意力，无法专注于实际内容。

据我的理解，提取有意义的内容是一个困难的问题，考虑到没有标准定义新闻故事/博客文章/论坛评论/文章在网页上的实际位置。

我可以找到一些类似于这样的开源解决方案：https://metacpan.org/pod/HTML::ContentExtractor

但我很好奇是否有人处理过这个问题并且得到了合理的成功率。这似乎是一个相当普遍的问题，我想相信有很多专家在那里。我宁愿有一个基于JAVA的解决方案，但这不是一个硬性规定。请提供一些输入。我将非常感激。

Answer 1

最理想的情况是你可以寻找RSS提要以获取原始内容。

HTML没有统一的整体结构和含义标准。作者在其页面中定义不同的元素。搜索引擎在此领域投入了大量资金，他们拥有自己的秘密配方，用于索引内容并从中获取某种含义和结构以进行搜索排名。

直到我们拥有被长期预言的“语义网络”，我们只能对任意的HTML页面的结构和含义做出有根据的猜测。

但是，从理论上讲：

寻找标题标签。这些应该为您提供开始阅读的线索，并希望为内容的重要性顺序提供大纲。

寻找常见的元素id和类。一个结构良好的站点可能会有像<div id="content">和<div class="article">这样的内容，这是现今最语义化的方式。此外，要了解常见CMS平台（如WordPress（“post”）或Drupal（“node”））使用的标准元素名称。通常情况下，它们将用于标记内容。

最后，寻找微格式。

Answer 2

现在有许多项目的主要目标是完成这项任务。

NPM包WCE（Javascript）很有趣，因为它在背后使用了许多其他内容提取模块。

抱歉，我本来打算早点回复这个问题，但我很忙。

友情链接