- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据应用技术介绍2021年2月
Hadoop生态系统
Hadoop生态系统Sub Project描述common分布式文件系统和通用I/O的组件与接口(序列化,Java RPC和持久化数据结构)Avro支持高效的跨语言RPC和持久数据存储的序列化系统MapReduce分布式数据处理模型和执行环境,运行在大型商用机集群HDFS分布式文件系统,用于大型商用机集群PIGPig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Hive分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)Hbase分布式、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)ZooKeeper分布式、可用性高的协调服务。提供类似分布式锁的基础服务。Sqoop在数据库和HDFS之间高效传输数据的工具Flume分布式、可靠、和高可用的海量日志聚合的系统。ChukwaChukwa是基于Hadoop的大集群监控系统,由yahoo贡献。
Hadoop介绍HDFSMapReduce
HDFS 特点存储大文件百兆以上级别文件百万级文件由于亿级别文件流式处理数据一次写多次多模式支持追加操作廉价的硬件环境普通pc server组成集群环境
HDFS缺点低延时读操作高吞吐量而非低延时Hbase 解决了这个问题大量小数据文件最好每个文件大于100M多次写只支持一次写只支持在文件尾部添加,不支持随机写
HDFS 部署结构
HDFS 读写过程
MapReduce 部署结构JobTracker管理集群资源和Job调度TaskTracker管理Task运行
MapReduce 计算模型Inputk1, v1Mapk2, v2Reducek3, v3Output
MapReduce 扩展接口InputFormatMapperPartitionerReducerOutputFormat
Map
Reduce
MapReduce实例
MapReduce内部结构
Hadoop 2.0引入一个新的资源管理系统YARNHDFS单点故障得以解决HDFS FederationHDFS 快照通过NFS访问HDFS支持Window系统
Hadoop1 VS Hadoop2
集群资源管理Hadoop介绍
Yarn 运行原理图
Hbase介绍1 高可靠性2 高效性3 面向列4 可伸缩5 可在廉价PC Server搭建大规模结构化存储集群
Hbase体系结构
HBase 系统架构图
HBase部件说明Client:使用HBase RPC机制与HMaster和HRegionServer进行通信Client与HMaster进行通信进行管理类操作Client与HRegionServer进行数据读写类操作Zookeeper:Zookeeper Quorum存储-ROOT-表地址、HMaster地址HRegionServer把自己以Ephedral方式注册到Zookeeper中,HMaster随时感知各个HRegionServer的健康状况Zookeeper防止HMaster单点问题HMaster:HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master在运行主要负责Table和Region的管理工作:1 管理用户对表的增删改查操作2 管理HRegionServer的负载均衡,调整Region分布3 Region Split后,负责新Region的分布4 在HRegionServer停机后,负责失效HRegionServer上Region迁移
TableRegionTable随着记录增多不断变大,会自动分裂成多份Splits,成为Regions一个region由[startkey,endkey)表示不同region会被Master分配给相应的RegionServer进行管理
HregionServer
-ROOT- .META..META. 记录用户表的Region信息,同时,.META.也可以有多region-ROOT- 记录.META.表的Region信息,但是,-ROOT-只有一个regionZookeeper中记录了-ROOT-表的location客户端访问数据的流程:Client - Zookeeper - -ROOT- - .META. - 用户数据表屡次网络操作,不过client端有cache缓存
HBase 数据模型Row
您可能关注的文档
最近下载
- (2024秋新版)人教PEP版三年级英语上册全册教案.doc
- ISO15189质量手册--输血科通用模版(文档-100页).docx VIP
- RBA6.0版标准资料学习课件.ppt VIP
- 2025年北森领导力测试题及答案.doc VIP
- AI政务大厅业务平台架构方案.pptx VIP
- 医疗器械临床应用管理办法.pptx VIP
- 征信简版电子版PDF个人信用报告最新版2024年可编辑带水印模板.pdf VIP
- 人工智能对人类发展利大于弊VS弊大于利辩论赛正方辩词一辩、二辩、三辩、四辩发言稿.pptx VIP
- 人工智能对人类发展利大于弊VS弊大于利辩论赛 反方辩词一辩、二辩、三辩、四辩发言稿.docx VIP
- 北森在线测评题库及答案.doc VIP
文档评论(0)