hadoop網络爬虫部署前期方案.docVIP

下载本文档

5
0
约6.96千字
约 7页
2017-01-19 发布于重庆
举报
版权申诉

hadoop網络爬虫部署前期方案.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

hadoop網络爬虫部署前期方案

Hadoop搭建初始方案陈宁鑫 xiaochen0x@ 一、搭建背景巨量资料(big data)，或称大数据、海量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点：Volume、Velocity、Variety、Veracity。 “大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合，是基于云计算的数据处理与应用模式，通过数据的整合共享，交叉复用,形成的智力资源和知识服务能力。我们的世界是一个数据的世界，目前，全球以电子方式存储的数据总量是人们无法估计的。不过，从2009年开始，“大数据”才成为了当今互联网技术中的关键词。据美国互联网中心预测，互联网上的数据每年将增长50%。此外，以电子方式存储的数据还不单单指人们在互联网上发布的信息，还包括了全世界工业设备等各种仪器通过传感器所获取的各种有关于位置、温度、磁场、气候乃至元素衰变等信息。我们已经进入了数据海洋的时代。二、Hadoop简介要谈到Hadoop，则必须要提到Google公司于2003到2004年之间发表的三大项目论文，也就是GFS，MapReduce和BigTable。然而由于技术保密等问题，Google公司并没有开源其MapReduce的实现细节，这个时候，Hadoop适逢其会，横空出世。 Hadoop这个名字并不是一个缩写而是来源于项目创始人Doug Cutting的孩子给一个棕黄色的填充大象玩具起的名字。Hadoop起源于Apache Nutch，一个开源的网络搜索引擎。它始于2002年，但其后开发者认为该架构的可扩展性在对十亿级网页搜索上出现瓶颈。而恰好google产品架构的GFS文件系统可以解决他们在网页爬取和搜索过程中产生的超大文件的存储需求。所以在2004年，他们开始着手对GFS进行开源的实现，这就是Nutch的分布式文件系统（NDFS）。 2004年，谷歌又发表了他们的MapReduce系统的论文。2005年初，Nutch实现了MapReduce系统。2006年2月，开发人员将NDFS和MapReduce移出Nutch形成Lucene的一个子项目，这就是Hadoop！同年，Doug Cutting加入了雅虎，并组织了一个专门的团队，将Hadoop发展成为一个能够处理Web数据的系统。在2008年2月，雅虎宣布其搜索引擎使用的索引是在一个拥有1万个内核的Hadoop集群上构建的。《纽约时报》是一个云计算的很好的宣传范例，他将扫描往年报纸获得的4TB存档通过亚马逊的EC2平台转换成PDF文件，整个过程使用了100台计算机，历时不到24小时。这个项目的实现就是EC2平台与Hadoop的并发编程模型结合的产物。 2008年4月，Hadoop打破了TB级数据排序系统的最快排序的世界纪录。通过一个910节点的集群，在不到209秒内完成了对1TB数据的排序。 Hadoop搭建前考量若想要搭建好一个Hadoop集群首先要选择合适的硬件，这样就需要考虑的各种因素。虽然Hadoop设计在工业标准硬件上运行，但一个理想的集群配置不只是提供硬件规格列表那么容易。为一个给定的工作负载选择硬件来实现性能和经济的最佳平衡，需要测试和验证。 3.1.Hadoop硬件选择网络架构根据我们目前能够拿到的文档，可以认为云内的节点越在物理上接近，越能获得更好的性能。根据经验，网络延时越小，性能越好。专用TOR（Top of Rack）交换机使用专用核心交换刀片或交换机确保应用服务器“靠近”Hadoop 考虑使用以太网绑定硬件架构几乎所有情况下，MapReduce作业会遇到瓶颈，或者是从磁盘或从网络(作为IO密集工作)读取数据，或者是计算数据(CPU密集任务)。 IO密集型：需要非常小的计算(简单的比较)和大量的读取和写入磁盘。索引搜索分组解码/解压缩数据导入和导出 CPU密集型：输入数据需要非常复杂的方式计算来确定一个实体。机器学习复杂的文本挖掘自然语言处理特征提取为了充分优化Hadoop硬件，我们首先要了解工作的负载特征，根据具体类型的要求进行配置。如果我们是在不知道工作负载特征的情况下建议选择平衡型的Hadoop集群，然后通过全面监控Hadoop集群，直接测量实际工作负载和确定瓶颈所在。我们建议在所有Hadoop机器上安装Ganglia提供实时统计，有关CPU，磁盘和网络负载。安装了Ganglia，Hadoop的管理员可以运行自己的MapReduce作业，并检查Ganglia仪表盘来观察每一台机器执