- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术原理及应用
大数据处理架构—Hadoop简介
Hadoop项目包括了很多子项目,结构如下图
Common
原名:Core,包含HDFS, MapReduce和其他公共项目,从Hadoop 0.21版本后,HDFS和MapReduce分离出去,其余部分内容构成Hadoop Common。Common为其他子项目提供支持的常用工具,主要包括文件系统、RPC(Remote procedure call) 和串行化库。
Avro
Avro是用于数据序列化的系统。它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能。其中,代码生成器既不需要读写文件数据,也不需要使用或实现RPC协议,它只是一个可选的对静态类型语言的实现。Avro系统依赖于模式(Schema),Avro数据的读和写是在模式之下完成的。这样就可以减少写入数据的开销,提高序列化的速度并缩减其大小。
Avro 可以将数据结构或对象转化成便于存储和传输的格式,节约数据存储空间和网络传输带宽,Hadoop 的其他子项目(如HBase和Hive)的客户端和服务端之间的数据传输。
HDFS
HDFS:是一个分布式文件系统,为Hadoop项目两大核心之一,是Google file system(GFS)的开源实现。由于HDFS具有高容错性(fault-tolerant)的特点,所以可以设计部署在低廉(low-cost)的硬件上。它可以通过提供高吞吐率(high throughput)来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了可移植操作系统接口(POSIX,Portable Operating System Interface)的要求,这样就可以实现以流的形式访问文件系统中的数据。
MapReduce
Hadoop MapReduce是针对谷歌MapReduce的开源实现,它是一种编程模型,用于大规模数据集(大于1TB)的并行运算。“映射”(map)、“化简”(reduce)等概念和它们的主要思想都是从函数式编程语言中借来的。它使得编程人员在不了解分布式并行编程的情况下也能方便地将自己的程序运行在分布式系统上。MapReduce在执行时先指定一个map(映射)函数,把输入键值对映射成一组新的键值对,经过一定的处理后交给reduce,reduce对相同key下的所有value进行处理后再输出键值对作为最终的结果。核心思想就是“分而治之”。
HBase
HBase是一个分布式的、面向列的开源数据库,该技术来源于Google的论文“Bigtable:一个结构化数据的分布式存储系统”。如同Bigtable利用了Google文件系统(Google File System)提供的分布式数据存储方式一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase不同于一般的关系数据库,其一,HBase是一个适合于存储非结构化数据的数据库;其二,HBase是基于列而不是基于行的模式。HBase和Bigtable使用相同的数据模型。用户将数据存储在一个表里,一个数据行拥有一个可选择的键和任意数量的列。由于HBase表示疏松的,用户可以给行定义各种不同的列。HBase主要用于需要随机访问、实时读写的大数据。
Hive
Hive最早是由Facebook设计的,是一个建立在Hadoop基础之上的数据仓库,它提供了一些用于数据整理、特殊查询和分析存储在Hadoop文件中的数据集的工具。Hive提供的是一种结构化数据的机制,它支持类似于传统RDBMS中的SQL语言来帮助那些熟悉SQL的用户查询Hadoop中的数据,该查询语言称为Hive QL。与此同时,那些传统的MapReduce编程人员也可以在Mapper或Reducer中通过Hive QL查询数据。Hive编译器会把Hive QL编译成一组MapReduce任务,从而方便MapReduce编程人员进行Hadoop应用的开发。
Pig
Pig是一个对大型数据集进行分析和评估的平台。Pig最突出的优势是它的结构能够经受住高度并行化的检验,这个特性让它能够处理大型的数据集。目前,Pig的底层由一个编译器组成,它在运行的时候会产生一些MapReduce程序序列,Pig的语言层由一种叫做Pig Latin的正文型语言组成。
Chukwa
Chukwa是开源的数据收集系统,用于监控和分析大型分布式系统的数据。Chukwa是在Hadoop的HDFS和MapReduce框架之上搭建的,它同时继承了Hadoop的可扩展性和健壮性。Chukwa通过HDFS来存储数据,并依赖于MapReduce任务处理数据。Chukwa中也附带了
您可能关注的文档
- 执行、执行文化和战略实施.doc
- 直线和圆的方程单元测试题(卷)含答案解析.doc
- 职称申报系统个人申报资料填写指南.doc
- 职业技术学校服装设计和工艺设计专业教学标准.doc
- 职业技术学校机电技术应用专业2016年级教学标准.doc
- 质量标准化实施方案实施计划书.doc
- 质量月知识竞赛试题(卷)(土建卷160分).doc
- 致远A8数据字典~协同.doc
- 重力坝稳定与应力计算书.doc
- 重力式挡土墙施工技术交底记录大全书.doc
- 2025AACR十大热门靶点推荐和解读报告52页.docx
- 财务部管理报表.xlsx
- 高中物理新人教版选修3-1课件第二章恒定电流第7节闭合电路欧姆定律.ppt
- 第三单元知识梳理(课件)-三年级语文下册单元复习(部编版).pptx
- 俄罗斯知识点训练课件-七年级地理下学期人教版(2024).pptx
- 课外古诗词诵读龟虽寿-八年级语文上学期课内课件(统编版).pptx
- 高三语文二轮复习课件第七部分实用类文本阅读7.2.1.ppt
- 高考物理人教版一轮复习课件第4章第3讲圆周运动.ppt
- 高考英语一轮复习课件53Lifeinthefuture.ppt
- 2025-2030衣柜行业风险投资发展分析及投资融资策略研究报告.docx
最近下载
- 票据管理系统单位端操作手册.pdf VIP
- 2022年湖北医药学院药护学院教师招聘笔试试题及答案解析.docx VIP
- 无人机公司培训宣讲.pptx VIP
- 宝鸡市检察机关招聘聘用制书记员笔试真题2024.docx VIP
- 2024年湖北医药学院药护学院教师招聘考试笔试题库及答案解析.docx VIP
- 2024年社区工作者考试必背1000题题库及参考答案(考试直接用).docx VIP
- 矿山矿产资源储量年度报告编制要求.pdf VIP
- 急性心肌梗死医学检查.ppt VIP
- 2022年湖北医药学院药护学院辅导员招聘考试笔试试题及答案解析.docx VIP
- 2025年湖北医药学院药护学院辅导员招聘考试笔试备考题库及答案解析.docx VIP
文档评论(0)