- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop apReduce模型的数据分析平台研究设计
HYPERLINK /archives/28713 基于Hadoop MapReduce模型的数据分析平台研究设计
?大数据
?2015-04-28 1:03:01
? HYPERLINK /archives/category/large-data-tools/hadoop Hadoop
?评论(0)
前言
拖了5天终于看完了两篇论文,对相关数据分析平台搭建技术也有了进一步的了解。对自己这几天的笔记做了一个整理,既是为了方便自己以后查看,也是为以后的实际平台搭建建立依据。其实感觉还是挺苦逼的,这大过年的亲戚都坐在旁边包饺子,而我……还在为自己的拖延症买单。
本笔记主要记录以下两个方面:
Hadoop MapReduce与Hive技术研究
数据分析平台框架设计与环境配置
Google三大核心技术:GFS[1]、Mapreduce、Bigtable[2]
[1]. Google文件系统(Google File System,缩写为GFS或GoogleFS)是Google公司为了满足其需求而开发的基于Linux的专有分布式文件系统。
[2]. BigTable是一种压缩的、高性能的、高可扩展性的,基于Google文件系统(Google File System,GFS)的数据存储系统,不是传统的关系型数据库,用于存储大规模结构化数据,适用于云计算。
?Hadoop MapReduce与Hive技术研究
一、Hadoop框架工作机制
Hadoop框架定义:Hadoop分布式文件系统(HDFS)和Mapreduce实现。并行程序设计方法中最重要的一种结构就是主从结构,而Hadoop则属于该架构。
HDFS架构:HDFS采用Master/Slave架构,也是主从模式的结构。一个HDFS集群由一个NameNode节点和一组DataNode节点(通常也作为计算节点,若干个)组成。
NameNode定义:NameNode是一个中心服务器,负责管理文件系统的名字空间(NameSpace)、数据节点和数据块之间的映射关系以及客户端对文件的访问。它会将包含文件信息、文件相对应的文件块信息以及文件块在DataNode的信息等文件系统的缘数据存储在内存中,是整个集群的主节点。
DataNode定义:集群系统中,一个节点上通常只运行一个DataNode,负责管理他所在节点上的数据存储,并负责处理文件系统客户端的读写请求,在NameNode的统一调度下进行数据块的创建、删除和复制。集群中的数掘节点管理存储的数据,会将块的元数据存储在本地,并且会将全部存在的块信息周期性的发给NameNode。
在节点中操纵数据:
当要向集群中的某一节点写入数据:NameNode负责分配数据块,客户端把数据写入到对应节点中;
当要从集群中的某一节点读取数据:客户端在找到这一节点之前需要先获取到数据块的映射关系(关系由Namenode提供),之后从节点上读取数据。
为了应对HDFS大量节点构成的特殊分布式数据结构的特征,所以HDFS架构最重要的就是要有错误故障检测以及故陣的快速恢复机制,这是通过数据节点和名字节点之间的一种称为心跳的机制来实现的,他能够使HDFS系统任意增删节点。
同时,分布式系统的采用和MapReduce模型的实现使得Hadoop框架具有高容错性以及对数据读写的高吞吐率,能自动处理失败节点。
HDFS两大特性:
高容错系统:HDFS增加了数据的冗余性。即每一个文件的所有数掘块都将会有副本。HDFS釆用一种机架感知的策略,这种策略需在经验积累的基础上调优。经过机架感知,NameNode可以知道DataNode所在位置的机架。这样的策略可使副本均匀分布在集群中的节点上,对于节点故障时的负载均衡有利。
高存取数据性能:通过客户端临时缓存在本地的数据减少对于网络带宽的依赖程度;读取副本时遵循就近原则;采用流水线复制技术提高性能(第一个接收数据的数据节点在把数据写到本地后会依次接着把数据传到存有数据副本的节点,直到所有的存对副本的节点,在这个过程中每个节点都是一边接受一边传送,减少了备份的时间);
Hadoop集群系统架构示意图
Client:获取分布式文件系统文件的应用程序。
Master:负责NameNode和JobTracker的工作,其中JobTracker负责应用程序的启动、跟踪和调度各个Slave任务的执行,各个Tracker中TaskTracker管理本地数据处理与结果,并与JobTracker通信。
二、MapReduce(映射-归并算法)分布式并行计算编程模型
该主从框架结构可以把一个作业任务分解成若干个细粒度的子任务,根据节点空闲状况来调度和快速的处理子任务,最后通过一定的规则合并生成最终的结果。有一个主节点和若干个从节点,其中主节点的作用
您可能关注的文档
- 圆锥曲线的谢国芳定——继帕斯卡定理之后又一朵射影几何的奇葩_baidu.doc
- 土地利用和气候变化西班牙半干旱地区土壤有机碳储量的影响.docx
- 圆盘脱水机与真空皮脱水机应用技术与经济性对比分析报告(终).doc
- 圆球导热系数、中温向实验指导书、气体定压比热、空气绝热指数.doc
- 土力学(河海大学第版)所有章节完整答案.doc
- 土地增值税清算“扣项目金额”确定应注意的八大问题.doc
- 土地增值税问题解答编(20142月).doc
- 土地开发整理项目规设计规范TD-T1012-2000.doc
- 土地收购储备制度的干问题(市土地学会征文).docx
- 土地整治规划数据库设有关问题解答(2014-10-16)_部信息中心.doc
- 2012-2021北京重点校高一(下)期中语文汇编:词类活用.pdf
- 电力市场与经济运行优化:电力市场优化算法_(28).电力市场中的市场力分析.docx
- 医院培训课件:《俯卧位通气的护理》.pptx
- 电力市场与经济运行优化:电力系统能效优化方法_(1).电力市场基础理论.docx
- 电力市场与经济运行优化:电力系统能效优化方法_(9).电力系统运行与能效优化.docx
- 电力市场与经济运行优化:电力系统能效优化方法_(15).电力市场与环境影响分析.docx
- 电力市场与经济运行优化:电力系统优化调度_(1).电力市场基础与原理.docx
- 电力市场与经济运行优化:电力系统优化调度_(14).电力市场改革政策与影响.docx
- 电力市场与经济运行优化:电力系统运行优化_(4).电力系统运行基础.docx
- 2025年航运行业分析.docx
最近下载
- GB 7258-1997机动车运行安全技术条件 .pdf VIP
- 高联难度几何100题答案.docx VIP
- 2018年新版药品经营质量管理体系文件(批发).docx VIP
- 模版环境影响评价全本《宿迁科思化学有限公司精细化学品生产(三期)技改项目环境影响修编报告书》受理公示3634.pdf.pdf VIP
- 多媒体智能化工程施工方案.docx VIP
- 平衡记分卡培训.ppt VIP
- 血液净化治疗及护理.pptx VIP
- 2025年6G核心网网络架构与关键技术白皮书.pdf VIP
- 详解DeepSeek学习科普全文.docx VIP
- 腹腔引流管脱管不良事件RCA分析及改进PDCA成果汇报.pptx
文档评论(0)