- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Hadoop海量数据处理平台的性能研究
摘要:面对互联网数据的爆炸性增长,传统的单机处理方式已慢慢落伍,新式的分布并行处理日益成熟,并替代原有的处理方式。时下有关数据的海量处理和存储成为研究的热潮。在这其中,Hadoop平台脱颖而出,成为了分布式处理的宠儿。本文介绍了HDFS以及MapReduce两大核心技术,并搭建了Hadoop海量数据处理原型平台。
关键词:分布式处理 Hadoop HDFS MapReduce
Research on performance of Hadoop platform
Abstract: Faced with the explosive growth of Internet data, the traditional stand---
alone approach has been slowly falling behind ,and the new form distributed parallel processing has become more sophisticated which will replace the original approach. Nowadays, processing and storage of massive data has become a hot research. Hadoop platform stands out and become an most important research direction of distributed processing.The aticle introduce the two core technology of HDFS and MapReduce ,and set up a wide data processing platform.
Key word:distributed processing Hadoop HDFS MapReduce
概述
Apache Nutch是Hadoop的源头,该项目起始于2002年,是Apache Lucene的子项目之一。至2004年,Google的OSDI上公开发表了题为“MapReduce:simplified data processing on large clusters”的论文,受到启发的Doug C等人开始实现MapReduce计算框架并与NDFS结合支持Nutch的主要算法。至2006年逐渐成为一套完整而独立的软件,起名为Hadooop。2008年初,Hadoop成为Apache的顶级项目,应用到除Yahoo!以外的很多互联网公司。
Hadoop技术已经在互联网领域得到广泛的应用,同时也得到研究界的普遍关注。因为互联网公司往往需要对其存储的海量数据进行处理,而Hadoop就是被设计用来处理海量数据的。Hadoop典型的应用包括:在国外Yahoo!使用Hadoop支持广告系统并处理网页搜索,Facebook使用Hadoop实现日志的拷贝以及Web日志的挖掘与统计;在国内阿里巴巴使用Hadoop来实现商业数据的排序和搜索引擎的优化,百度使用Hadoop实现Web日志挖掘和分析。Yahoo!处于Hadoop的应用前沿,它运行着世界上最大的Hadoop集群。Yahoo! Search Webmap就是一个典型的Hadoop应用,Webmap运行在超过10000个Linux系统的集群上。Yahoo!的网页搜索查询使用的数据正是由它生产的。Facebook运行着世界上第二大的Hadoop集群。在Facebook,随着网站使用使用率的快速增加需要处理和存储的日志和维度数据呈爆炸式递增。因此迫切需要一种能够具有快速的支持系统扩展的应变能力并且可信的、易于使用和维护的一套系统。Hadoop正好可以担此重任。在Facebook,对Hadoop至少有四种相互关联但又不同的用法:在大规模数据上产生以天和小时为单位的概要信息;提供在Facebook上进行广告营销活动的相关的效果数据;对网站属性的后台处理;在历史数据上运行即时作业。Hadoop虽然作为产品使用已经足够成熟,但它仍然被人们以及开发,并且每周都由Hadoop社区增加新的功能和改进。
Hadoop架构及核心技术介绍
Hadoop系统平台是一个搭建在廉价PC上的分布式集群系统架构,它具有高可用性、高容错性和高可扩展性等优点。Hadoop由Apache基金会开发,由于它提供了一个开放式的平台,用户可以在完全不了解底层实现细节的情形下,开发适合自身应用的分布式程序。
Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper[1]等成员组成,其中最基础最重要的两种组成元素为底
您可能关注的文档
- 中美汇率之争的三个核心问题.pdf
- 2012届高考化学要点探究复习课件14.ppt
- 毕业答辩模板东北师范大学人文学院.ppt
- 毕业答辩模板江南大学太湖学院45.ppt
- EMC理论与实践第七部分.ppt
- 毕业论文基于Linux电影播放器的设计与实现.ppt
- 毕业论文皮、格式.doc
- 2、介绍发展心理学研究设计、资料搜集和结果分析方法。.ppt
- 采用单片机设计频率计毕业论文.doc
- ERP第一章绪论100902.ppt
- 2024年学校党总支巡察整改专题民主生活会个人对照检查材料3.docx
- 2025年民主生活会个人对照检查发言材料(四个带头).docx
- 县委常委班子2025年专题生活会带头严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”对照检查材料四个带头:.docx
- 巡察整改专题民主生活会个人对照检查材料5.docx
- 2024年度围绕带头增强党性、严守纪律、砥砺作风方面等“四个方面”自我对照(问题、措施)7.docx
- 2025年度民主生活会领导班子对照检查材料(“四个带头”).docx
- 国企党委书记2025年度民主生活会个人对照检查材料(五个带头).docx
- 带头严守政治纪律和政治规矩,维护党的团结统一等(四个方面)存在的问题整改发言提纲.docx
- 党委书记党组书记2025年带头增强党性、严守纪律、砥砺作风方面等“四个带头”个人对照检查发言材料.docx
- 2025年巡视巡察专题民主生活会对照检查材料.docx
文档评论(0)