Web 信息采集中哈希函数比较.docVIP

下载本文档

9
0
约6.93千字
约 6页
2017-08-31 发布于安徽
举报
版权申诉

Web 信息采集中哈希函数比较.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web信息采集中的哈希函数比较吴丽辉1,2, 白硕1, 张刚1,2 , 张凯1 中国科学院计算技术研究所软件研究室，北京 100080；2.中国科学院研究生院，北京 100039) Email: wulh@ Phn: 010717 摘要: 在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf.采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷. 关键词: Web信息采集; 哈希函数; URL 中图法分类号: TP314　　　文献标识码: A Hashing Comparison in Web Crawling Wu Lihui1,2, Bai Shuo1, Zhang Gang1,2+ , Zhang Kai (1.Software Division, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080) (2.Graduate School of the Chinese Academy of Sciences, Beijing 100039) Abstract: During the course of Web crawling, it is needed to judge if the coming URLs are in the collection of crawled pages. In order to achieve fast crawling, hashing is adopted. Through a large scale experiment, five hash functions are compared in this paper. The finding is that Strhash and Tianlhash functions are better and thus recommended. And, ELFhash function is better than HfIp and hf. The crawling speed is fast advanced after using second-hash in Tianluo Web crawling system, and the database load is depressed. Key words: Web crawling; hashing; URL 引言 Internet尤其是WWW的飞速发展,给人们带来了前所未有的信息共享与交流.网络已发展成为我们经济、社会、文化、教育以及娱乐等几乎各个方面的重要组成部分.到2004年11月,Google搜索引擎索引的网页数已经超过80亿[1].随着互联网的迅速发展,各项基于Web的服务也日益繁荣起来.作为这些信息服务的基础和重要组成部分,基于Web的信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中. Web信息采集[2],主要是指通过Web页面之间的链接关系,从Web上自动获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程.粗略的说,它主要是指这样一个程序,从一个初始的URL集出发,将这些URL全部放入到一个有序的待采集队列里.而采集器从这个队列里按顺序取出URL,通过Web协议,获取URL所指向的页面,然后从这些已获取的页面中提取出新的URL,并将他们继续放入到待采队列里,然后重复上面的过程,直到采集器根据自己的策略停止采集. 在Web信息采集的过程中,为了实现快速采集,需要记住已经采集过的页面（记做集合visited-urls）.采集中凡遇到一个页面,需要用它和visited-urls对比,判断该页面的URL是否已在visited-urls中.若在其中,则表示该网页已采集；否则将它放入visited-urls,继续沿其含有的URL向下采集.显然,将visited-urls组织成一个哈希表是很自然的,哈希的对象是用于访问网页的URL,即形如“”之类的字符串[3].为了设计高效的URL哈希算法,测试不同的哈希函数对相同的URL列表的冲突率. 实验的设计和执行实验评价标准为了