English 中文(简体)
从网页中提取有意义的内容
原标题:
  • 时间:2009-02-19 01:27:57
  •  标签:

我正在使用我的爬虫挖掘网页内容进行一些分析。网页通常包含围绕着文章主体的杂乱内容(如广告、不必要的图片和多余的链接),这会使用户分散注意力,无法专注于实际内容。

据我的理解,提取有意义的内容是一个困难的问题,考虑到没有标准定义新闻故事/博客文章/论坛评论/文章在网页上的实际位置。

我可以找到一些类似于这样的开源解决方案:https://metacpan.org/pod/HTML::ContentExtractor

但我很好奇是否有人处理过这个问题并且得到了合理的成功率。这似乎是一个相当普遍的问题,我想相信有很多专家在那里。我宁愿有一个基于JAVA的解决方案,但这不是一个硬性规定。请提供一些输入。我将非常感激。

问题回答

最理想的情况是你可以寻找RSS提要以获取原始内容。

HTML没有统一的整体结构和含义标准。作者在其页面中定义不同的元素。搜索引擎在此领域投入了大量资金,他们拥有自己的秘密配方,用于索引内容并从中获取某种含义和结构以进行搜索排名。

直到我们拥有被长期预言的“语义网络”,我们只能对任意的HTML页面的结构和含义做出有根据的猜测。

但是,从理论上讲:

寻找标题标签。这些应该为您提供开始阅读的线索,并希望为内容的重要性顺序提供大纲。

寻找常见的元素id和类。一个结构良好的站点可能会有像<div id="content"><div class="article">这样的内容,这是现今最语义化的方式。此外,要了解常见CMS平台(如WordPress(“post”)或Drupal(“node”))使用的标准元素名称。通常情况下,它们将用于标记内容。

最后,寻找微格式

现在有许多项目的主要目标是完成这项任务。

NPM包WCE(Javascript)很有趣,因为它在背后使用了许多其他内容提取模块。

抱歉,我本来打算早点回复这个问题,但我很忙。





相关问题
热门标签