- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop分布式爬虫设计综述
摘要:由于 Internet 规模不断扩大,包罗万象的信息资源被连接在一起,形成了一
个广阔宏大的信息空间在这个空间中,存在着海量的信息,如何快速高效和安全
地让网络用户在如此浩瀚的信息海洋之中找到并获取自己所需的资源 ,是当前互
联网发展的最大挑战之一。如今,云计算已成为当前的重要趋势之一。本文主要
阐述在Hadoop分布式文件系统HDFS以及分布式计算框架MapReduce的基础上
开发的分布式搜索引擎 的爬虫设计相关技术、原理、流程图。
关键词:云计算 分布式爬虫 Hadoop 搜索引擎
1 引言
随着搜索引擎的发展,搜索引擎所采用的技术也随之变得丰富和多样化,能够
适应不同搜索用户以及不同搜索目的的需要。目前,搜索引擎的性能指标主要有
三个:首先考虑的是规模的大小,只有规模达到一定的数量级,用户搜索结果的符
合度才能够达到满足不同用户的需求程度;其次是性能,搜索引擎的网络蜘蛛必须
在一个较短的时间内完成对目标网络的信息搜索,同时,能够在用户可容忍的时间
段内,完成搜索结果的反馈;最后是搜索的质量,能够去掉信息重复的网页,对一些
无用信息进行过滤,能够准确返回用户想要的结果。
如何从庞大的资料库中找到正确的资料 ,被公认为是下一代搜索技术的竞争
要点要对海量的信息进行检索,单单依靠单台计算机的处理能力远远不够 ,即使
硬件的发展速度很快,但是根本赶不上信息的增长速度。而若采用集群计算机实
现,虽然可以解决处理速度问题,但由于从网络的整体上看,该集群仍是一个结点,
会严重受制于网络带宽,因此,需要采用多台计算机进行分布式协同处理。
分布式搜索引擎是通过网络把大范围的分布、异构数据集联合起来,形成一个
逻辑整体,为用户提供分布式的信息检索服务。同传统搜索引擎相比,分布式搜索
引擎有以下优点:
1)各检索服务器之间协同工作,每个服务器只搜索自身自治区域内的信息资
源,彼此之间只传递搜索结果信息,加快了检索速度,减轻网络及各站点的负担;
2)与网络资源本身的分布式特性相适应,增加搜索服务器方便,有良好的可扩
展性;
3)索引信息化分到各个数据库中,使得各索引数据库规模小,易于管理,缩短查
询响应时间。
当今,大型网站的用户多,参与度广。因此,如何有效地为如此巨大的用户群
体服务,让他们参与时能够享受方便、快捷的服务,成为这些网站不得不解决的一
个问题。而与此同时,凭借Google 文件系统搭建起来Google 服务器群,为Google
提供强大的搜索速度与处理能力。于是,如何有效利用这些这种技术,为更多的企
业或个人提供强大的计算能力与多种多样的服务,就是像Google 这样拥有巨大服
务器资源的企业在考虑的问题。
正是因为一方对计算能力的需求,而另一方能够提供这样的计算能力,云计算
就应运而生。wikipedia 关于云计算的定义为云计算是网格计算下的一种新的标
签,它使用公用计算或其它方法来共享计算资源。云计算是依靠本机服务器或个
人设备来处理用户应用程序之外的另一种选择。目前,包括Google、微软、IBM、
Amazo 、EMC 和惠普在内的许多IT 业巨头都宣布要在云计算上进行重点研究,
也有了一些供企业使用的云计算案例。
目前,最著名的云计算基础设施是由Google 提出来的。Google 使用的云计算
[1]
基础设施模式 包括四个相互独立又紧密结合在一起的系统,其包括Google 建立
在集群之上的文件系统GFs(GooogleFilesystem)[2],针对Google 应用程序的特点提
出的MapReduce[3]编程模式,分布式的锁机制Chubby 以及Google 开发的模型简
化的大规模分布式数据库BigTable[4]。
本文就是在Hadoop 云计算平台的基础上完成的,阐述了在Hadoop 分布式平
台的基础上搭建分布式爬虫的相关研究。
2 分布式爬虫技术背景
2.1 云计算
云计算是一种全新的网络服务方式 ,其将传统的以桌面为核心的任务处理转
变为以网络为核心的任务处理,它利用网络实现自己想要完成的一切处理任务,使
网络成为传递服务、计算力和信息的综合连接,真正实现按需计算、多人协作。
其基本原理为:利用非本地或远程服务器(集群) 的分布式计算机,为互联网用户提
供服务(计算、存储、软硬件等服务),这使得用户可以将资源切换到需要的应用上,
根据需求访问计算机和存储系统,从而降低成本。云计算真正实现了
您可能关注的文档
- 非法吸收公众存款罪辩护意见书.pdf
- 非公开发行股票法律意见书.pdf
- 非航海工科毕业生海员培训管理规定.pdf
- 非机动车通行相关法律规定摘要.pdf
- 非上市公司股权激励个税规定.pdf
- 非事业编制人员薪酬管理办法(试行).pdf
- 废机油管理规定.pdf
- 废旧档案文件销毁程序和规定.pdf
- 废旧物品处理办法.pdf
- 废旧物品存放管理规定.pdf
- 2025四川天府银行社会招聘备考题库(攀枝花)含答案详解(最新).docx
- 2025四川银行首席信息官社会招聘备考题库及完整答案详解1套.docx
- 2025四川天府银行社会招聘备考题库(攀枝花)带答案详解.docx
- 2025四川天府银行社会招聘备考题库(成都)含答案详解(a卷).docx
- 2025四川广元市利州区选聘社区工作者50人备考题库及答案详解(基础+提升).docx
- 2025天津银行资产负债管理部总经理或副总经理招聘1人备考题库含答案详解(典型题).docx
- 2025四川天府银行社会招聘备考题库(西充)附答案详解(考试直接用).docx
- 2025年中国民生银行南宁分行招聘2人备考题库及答案详解(全优).docx
- 2025天津银行高级研究人才招聘备考题库附答案详解(达标题).docx
- 2025大连银行营口分行招聘2人备考题库及参考答案详解一套.docx
最近下载
- 传染病防治护理指南(最新版).docx VIP
- 内部控制与风险管理(中南财经政法大学)中国大学MOOC 慕课 章节测验 期末考试答案.pdf VIP
- 学堂在线 临床中成药应用 章节测试答案.docx VIP
- 丽声北极星分级绘本+四上Unit3The+King's+Yu+Player课件.pptx
- 山东土地发展集团真题.pdf
- 加强意识形态工作坚决维护意识形态安全(1).pptx VIP
- 注塑机设备日常点检表.xls VIP
- 2025四川川投(泸州)燃气发电有限公司第一批员工招聘18人笔试备考试题及答案解析.docx VIP
- 党课ppt+word讲稿:医疗卫健系统二十届四中全会精神宣讲党课(7900字,46张)ppt.pptx VIP
- 《经口鼻吸痰技术操作规范》课件.ppt VIP
原创力文档


文档评论(0)