Question

我的任务是起草一个方案,根据搜索术语和代表一些未知搜索引擎搜索结果的网页的超文本来源(实际上可以是任何东西,也可以是博客,一个商店,谷歌,e Bay,......),需要建立结果数据结构,其中包括“结果中什么”:最后结果的所有权、“细节”链接、结果中的位置等。不知道结果页是否包含任何数据,以及是否有任何查询结果。目标是将数据结构纳入另一个提取含义的方案。

我所期待的不是美化或试卷,而是就如何解释超文本来源的一些想法或算法。我做了些什么来查明哪一部分页构成一个单一的成果项目? 我如何过滤标记噪音以提取重要的轨道? 你会做些什么? 我非常赞赏涉及我所试图研究的领域的研究点。

感谢西蒙

Answer 1

我怀疑存在银bul法,如果没有任何培训,就只能处理任何任意的查询结果。

然而,这项任务可以解决,实际上在许多申请中得到了解决,但采取不同的做法。首先,你必须根据你实际要做的工作(可以是名称、日期、链接、描述刀具等),确定单一搜索结果项目的一般结构,然后写数字,从特定网站的搜索结果中提取必要的领域。

我知道,这不是多余的性解决办法,但可能是唯一行之有效的办法。这不是火箭科学。写作教区实际上很简单,你每天可以做十多次。如果你将研究html的搜索结果来源,你就会注意到,产出结果通常结构很强,其标志是具体的d/strong>节或>>> 栏目: 即便如此,你也使用过任何复杂的超声望图书馆,这种类似情况就足够了。

For example, on this particular page your question starts with <div class="post-text"> and ends with </div>. Everything in between is actually a post text with some HTML formatting that you may want to remove along with extra spaces and " ". And this <div class="post-text"> appears on the page only once.

一旦你与你的检索仪表相距甚远,你就会发现,不同地点没有多种多样的不同搜索引擎,你将能够利用类似的搜索引擎,重新使用已经创建的垫子。

你必须记住的唯一东西是进行自我测试。场地往往不断升级和改变设计。如果你的申请要生活一段时间,你就必须把某种逻辑列入你的教区,以检查其结果的有效性,每当搜索结果发生变化时通知你,并且与你的教官不相符合。然后,你必须修改某些教区或写新的教区。

希望这一帮助。

友情链接