- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术原理与应用
Hadoop YARN 运行流程 HBASE 需求 Google的结构化数据存储需求 ? –? 低成本可扩展地处理以亿为单位的数据表(海量) ? –? 众多的列,但并非每列都有数据,且经常只访问很少的列(稀疏) ? –? 高吞吐量和高并发(快速) ? HBase的原型 ?-Google ?Bigtable ? 传统RDBMS 并行 Cache 高访问量 复杂,难以解决 MapReduce? Map/Reduce MapReduce程序能满足高并发要求吗? 全文件扫描效率行吗? 答案 因为RDBMS和MapReduce不能满足要求海量结构化数据存储需求 众多的列,但并非每列都有数据,且经常只访问很少的列(稀疏) ? 低成本可扩展地处理以十亿为单位的数据表(海量) ? 高吞吐量和高并发(快速) ? 方案: ? Bigtable ? HBase ? HBase是什么 Hbase是一种面向列的(稀疏),基于HDFS的(海量),高性能(快速)分布式数据库系统 利用Hadoop HDFS作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。 利用Hadoop MapReduce来处理HBase中的海量数据 利用Zookeeper作为协同服务。 Hbase特点 水平扩展 面向列 范围查询 可 靠 性 高性能随机读/写 和Hadoop无缝集成 Hbase vs RDBMS HBase RDBMS 数据类型 只有字符串 丰富的数据类型 数据操作 简单的增删改查 各种各样的函数,表连接 存储模式 基于列存储 基于表格结构和行存储 数据保护 更新后旧版本仍然会保留 替换 可伸缩性 轻易的进行增加节点,兼容性高 需要中间层,牺牲功能 水平扩展 数据量太大了,读写性能下降? 传统方案:分库分表(迁移数据,中间层) HBase:啥都不用做,加机器即可,且性能平稳。 HDFS Hbase存储结构 水平扩展 如何做到的? 当storeFile多了后,HBase会自动compact; 当rows多了后,HBase会自动将region split; HBase会定时对Region Server的Region数进行balance; Region Server下线,Master会重新分配其负责的Region到其他的Region Server; Region Server上线后,当Master进行balance时会迁移一些Region到新的Region Server。 面向列 动态增删schema? 传统方案:停机维护; HBase: No,Column Qualifier可动态增删。 面向列 如何做到的? 以Column Family为存储单元; K/V方式存储。 高性能随机读/写 如何做到的? 随机读 K/V存储; Cache; Split; Balance。 随机写(相对而言) Cache + WAL; Compact; Split; Balance; 数据可靠性 借助HDFS保证数据的可靠; HLog File; 恢复机制。 Hadoop其他组件 Zookeeper ZooKeeper是Apache软件基金会下的一个为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册的项目。 曾是Hadoop项目的一部分,后来独立。 项目地址:/ Pig Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 Pig极大的简化了Hadoop的使用 项目地址:/ Pig Pig可以加载数据、表达转换数据以及存储最终结果 Pig语句通常按照如下的格式来编写: 通过LOAD语句从文件系统读取数据 通过一系列“转换”语句对数据进行处理 通过一条STORE语句把处理结果输出到文件系统中,或者使用DUMP语句把处理结果输出到屏幕上 Pig在企业数据分析系统中的作用 Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Hive项目地址: Sqoop Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中
文档评论(0)