URL规则基于焦爬行.docVIP

下载本文档

0
0
约 23页
2016-10-21 发布于广东
举报

URL规则基于焦爬行.doc

URL规则基于焦爬行

摘要垂直搜索引擎使用集中爬虫作为关键组件，开发一些特定的算法选择相关的一些预先定义的一组专题网页。因此，如何有效地为特定主题建立一个语义模式是这样的搜索引擎非常重要的。在本文中，我们提出了一个UBFC（URL规则根据doublecrawler基于聚焦爬虫）算法框架（实验履带式和集中履带式）。我们UBFC的内核是一个普通的URL表达学习者，其用于自动学习并推广的URL的规则表达式示例网页。将如此生成的URL正则表达式用于指示UBFC工作。运用 UBFC，我们开发了一个基于Nutch的聚焦爬虫的，并得到一个很好的结果。评估UBFC，我们进行了一些实验，通过比较做出的分析有两个提出的方法，在BFSC（广度优先搜索爬虫）和BLFC（基线聚焦爬虫）。介绍通用的搜索引擎，如谷歌（），为我们提供了很多设施，并成为很受欢迎。然而，它们具有一些缺点 [1].因为一个一般用途的搜索引擎的目标是覆盖网络足够越好，因此它通常返回许多网页的用户不感兴趣的内容。此外，它使服务器和无限幅数据的有限资源之间的一些冲突。当用户尝试搜索一些信息，他们通常集中在一些特定的主题。那么垂直搜索引擎，如谷歌产品搜索诞生了。他们搜索特定主题的信息，因此他们只需要抓取网站数据的一小部分，并使用更少的服务器资源来管理所有的互联网话题的具体数据。一般的搜索引擎采用相对简单的爬行策略，以获取尝试所有的网站，同时他们希望设

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

URL规则基于焦爬行.docVIP