- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主题网络爬虫研究综述
0 主题网络排汗
随着上海网络的大量信息的快速增长,全球搜索面临着一些挑战:高搜索规模、更新速度和定制需求。面对这些挑战, 适应特定主题和个性化搜索的主题网络爬虫 (focused crawler or topical crawler) 应运而生。基于主题网络爬虫的搜索引擎 (即第四代搜索引擎) 已经成为当前搜索引擎和Web 信息挖掘中的一个研究热点和难点。
通用网络爬虫的目标就是尽可能多地采集信息页面, 而在这一过程中它并不太在意页面采集的顺序和被采集页面的相关主题。这需要消耗非常多的系统资源和网络带宽, 并且对这些资源的消耗并没有换来采集页面的较高利用率。主题网络爬虫则是指尽可能快地爬行、采集尽可能多的与预先定义好的主题相关的网页。主题网络爬虫可以通过对整个Web按主题分块采集, 并将不同块的采集结果整合到一起, 以提高整个Web的采集覆盖率和页面利用率。
1 主题网络排虫技术
定义1 网络爬虫是一个自动提取网页的程序, 它为搜索引擎从Web上下载网页, 是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的URL开始, 获得初始网页上的URL列表;在抓取网页的过程中, 不断从当前页面上抽取新的URL放入待爬行队列, 直到满足系统的停止条件。
定义2 主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接, 保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL, 并重复上述过程, 直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储, 进行一定的分析、过滤, 并建立索引, 对于主题网络爬虫来说, 这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。
定义3 如果网页p中包含超链接l, 则p称为链接l的父网页。
定义4 如果超链接l指向网页t, 则网页t称为子网页, 又称为目标网页。
主题网络爬虫的基本思路就是按照事先给出的主题, 分析超链接和已经下载的网页内容, 预测下一个待抓取的URL以及当前网页的主题相关度, 保证尽可能多地爬行、下载与主题相关的网页, 尽可能少地下载无关网页。相对于通用网络爬虫, 主题网络爬虫需要解决以下四个主要问题:
a) 如何描述或定义感兴趣的主题 (即抓取目标)
b) 怎样决定待爬行URL的访问次序?许多主题网络爬虫根据己下载网页的相关度, 按照一定原则将相关度进行衰减, 分配给该网页中的子网页, 而后将其插入到优先级队列中。此时的爬行次序就不是简单地以深度优先或广度优先顺序, 而是按照相关度大小排序, 优先访问相关度大的URL。不同主题网络爬虫之间的区别之一就是如何计算URL的爬行次序。
c) 如何判断一个网页是否与主题相关?对于待爬行或己下载的网页可以获取它的文本内容, 所以可以采用文本挖掘技术来实现。因此不同主题网络爬虫间的区别之二就是如何计算当前爬行网页的主题相关度。
d) 怎样提高主题网络爬虫的覆盖度?如何穿过质量不好 (与主题不相关) 的网页得到与用户感兴趣主题相关的网页, 从而提高主题资源的覆盖度?
对于主题网络爬虫性能的评价, 目前主要是基于harvest rate来评价。Harvest rate就是主题相关网页数目占所有抽取网页总数的比率:
2 定制抽样策略和相关算法
为了高效地抓取与主题相关的网络资源, 研究者提出了许多主题定制爬行策略和相关算法, 使得网络爬虫尽可能多地爬行主题相关的网页, 尽可能少地爬行无关网页, 并且确保网页的质量。通过对这些方法进行比较分析, 本文将它们分为如下四类。
2.1 常用网络挖掘算法
基于文字内容的启发策略主要是利用了Web网页文本内容、URL字符串、锚文字等文字内容信息。不同的分析方法构成了不同的启发式策略和相应的算法。主要包括:
a) Best first search方法。基本思想是给定一个待爬行URL队列, 从中挑选最好的URL优先爬行。爬行主题采用关键词集合来描述, 待爬行URL的优先级是根据主题词和已爬行网页p的文字内容来计算, 用它们的相关度来估计p所指向网页的相关度。相关度大的网页, 它所指向的网页优先级就高, 从而决定了待爬行队列中URL的优先级顺序。如果待爬行队列的缓冲区满了, 则将优先级最低的URL从该队列中移去。它采用式 (2) 来计算网页与主题间的相关度。
sim(q,p)=(∑k∈q∩Pfkqfkp)/(∑k∈P???√fkp2∑k∈q???√fkq2)(q,p)=(∑k∈q∩Ρfkqfkp)/(∑k∈Ρfkp2∑k∈qfkq2)(2)
其中:q表示主题;p表示抓取的网页;fkq表示词k在q中出现的频次;fkp表示词k在p中出现的频次。
该算法有url_queue和crawled_queue两个堆栈,
文档评论(0)