我正在使用我的爬虫挖掘网页内容进行一些分析。网页通常包含围绕着文章主体的杂乱内容(如广告、不必要的图片和多余的链接),这会使用户分散注意力,无法专注于实际内容。
据我的理解,提取有意义的内容是一个困难的问题,考虑到没有标准定义新闻故事/博客文章/论坛评论/文章在网页上的实际位置。
我可以找到一些类似于这样的开源解决方案:https://metacpan.org/pod/HTML::ContentExtractor
但我很好奇是否有人处理过这个问题并且得到了合理的成功率。这似乎是一个相当普遍的问题,我想相信有很多专家在那里。我宁愿有一个基于JAVA的解决方案,但这不是一个硬性规定。请提供一些输入。我将非常感激。