- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要
垂直搜索引擎使用集中爬虫作为关键组件,开发一些特定的算法选择相关的一些预先定义的一组专题网页。因此,如何有效地为特定主题建立一个语义模式是这样的搜索引擎非常重要的。在本文中,我们提出了一个UBFC(URL规则根据doublecrawler基于聚焦爬虫)算法
框架(实验履带式和集中履带式)。我们UBFC的内核是一个普通的URL表达学习者,其用于自动学习并推广的URL的规则表达式示例网页。将如此生成的URL正则表达式用于指示UBFC工作。运用
UBFC,我们开发了一个基于Nutch的聚焦爬虫的,并得到一个很好的结果。评估UBFC,我们进行了一些实验,通过比较做出的分析有两个提出的方法,在BFSC(广度优先搜索爬虫)和BLFC(基线聚焦爬虫)。
介绍
通用的搜索引擎,如谷歌(),为我们提供了很多设施,并成为很受欢迎。然而,它们具有一些缺点 [1].因为一个一般用途的搜索引擎的目标是覆盖网络足够越好,因此它通常返回许多网页的用户不感兴趣的内容。此外,它使服务器和无限幅数据的有限资源之间的一些冲突。当用户尝试搜索一些信息,他们通常集中在一些特定的主题。那么垂直搜索引擎,如 谷歌产品搜索诞生了。他们搜索特定主题的信息,因此他们只需要抓取网站数据的一小部分,并使用更少的服务器资源来管理所有的互联网话题的具体数据。一般的搜索引擎采用相对简单的爬行策略,以获取尝试所有的网站,同时他们希望设计出高效聚焦爬虫,检索特定主题的网页。大约有重点爬虫是两个关键问题介绍:1)网页选择策略 - 识别该网页应给予检索什么优先权,并应检索哪或不被检索; 2)在网页重访策略 - 以决定何时重温以前提取的页面,检查的变化。
在本文中,我们针对网页选择策略对于垂直腹板爬行,并提出一种两步选择战略基于URL的规则。首先,将试验履带式移动示例的种子网站及其派生(儿童或链接)的网站,以收集实验的网页,从其中的一组URL正的表达式提取到表示一组预先定义的主题。然后,我们使用制定了切实可行的聚焦爬虫被收购集URL规则表达式的抓取
网上找到与主题相关的网页的最终用户。
本文的其余部分安排如下。我们讨论第2节中集中爬行相关工作
,我们介绍了UBFC的体系结构(网址基于规则的聚焦爬虫)。在第4节我们介绍帧和URL的正则表达式的密钥算法学习者,这是UBFC的内核。在第5节我们在测试网站“”使用UBFC并通过它与BFSC和比较评价它的BLFC。我们的结论本文在第6和介绍我们今后的工作。
相关工作
很多研究工作已经摆在的区域选择战略重点爬虫。在早期,研究人员认为链接分析方法一般搜索引擎将比分网页的重要性因素
(URL)的,并以第一检索页面具有较高重要的分数。例如,Jungoo卓提出了的PageRank方法排名网页[3]。该网页是根据它们的PageRank[4]的值进行检索。该方法认为网页和忽视的重要性的网页和特定的关系主题。其结果,履带旨在通过使用这种方法很容易失去它们的方向为特定主题和检索较少的特定主题的网页。这些爬虫不应该叫聚焦爬虫因为比的特定主题的网页,以总数的数量检索可能降低到零的网页的[3]。因此它是一个为集中爬虫发现并预测关键问题一个检索网页和特定的关系课题。
戴维森[5]使用的TF-IDF[6]向量空间模型计算出了网页间的可比性含100,000页子网上收集该DiscoWeb系统。他提出的概念“专题网页的地方“的意思是两个页面链接通过超链接具有可比性比任何两个较高随机网页。这一发现指出了一个方向为集中爬行。许多研究活动[7-9]是通过这个发现,预测相关性进行网页以及一些特定主题之间。也就是说,如果一个页是相关的一个特定的主题,该超链接的网页通过这将是更容易被与此相关的主题。所以,它更可能找到在其他特定主题的网页从相关的特定主题网链接的帮助。这些爬虫只是利用父亲之间的相关性网页以及一些话题来预测的儿子之间的关系
页面和专题监督他们爬行。 Altingovde[10]和他的合作伙伴调用这些爬虫底线聚焦抓取(BLFC)。
对聚焦两个上述问题爬行可以通过使用概念来解决“主题
本地网页“。然而,McCallum的[11]和其它研究人员发现的现象“主题隔离在互联网岛(TII)“。如果我们只检索的网址
通过直接链接特定主题的网页,我们会想念“主题孤岛”,这都与特定的话题通过主题无关的网页的网页。作为因此,我们将得到一个低召回率。因此,研究人员试图找到方法来建立领先的路径
在“主题孤岛”。例如,使用隧道技术,上下文聚焦爬行[12]
被证明能够检索50%-60%以上的相关网页比基线有重点爬行(BLFC)
定的时间间隔。玉明烨[13]采用加固学习技术开发iSurfer系统,其收获率上的低进行的实验增加了40%规模(仅抓取1000页)。此外,McCallum的[
文档评论(0)