大数据技术原理与应用.pptVIP

下载本文档

48
0
约 52页
2017-02-16 发布于天津
举报
版权申诉

大数据技术原理与应用.ppt

1、本文档共52页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据技术原理与应用

Hadoop YARN 运行流程 HBASE 需求 Google的结构化数据存储需求 ? –? 低成本可扩展地处理以亿为单位的数据表（海量） ? –? 众多的列，但并非每列都有数据，且经常只访问很少的列（稀疏） ? –? 高吞吐量和高并发（快速） ? HBase的原型 ?－Google ?Bigtable ? 传统RDBMS 并行 Cache 高访问量复杂，难以解决 MapReduce？ Map/Reduce MapReduce程序能满足高并发要求吗？全文件扫描效率行吗？答案因为RDBMS和MapReduce不能满足要求海量结构化数据存储需求众多的列，但并非每列都有数据，且经常只访问很少的列（稀疏） ? 低成本可扩展地处理以十亿为单位的数据表（海量） ? 高吞吐量和高并发（快速） ? 方案： ? Bigtable ? HBase ? HBase是什么 Hbase是一种面向列的（稀疏），基于HDFS的（海量），高性能（快速）分布式数据库系统利用Hadoop HDFS作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。利用Hadoop MapReduce来处理HBase中的海量数据利用Zookeeper作为协同服务。 Hbase特点水平扩展面向列范围查询可靠性高性能随机读/写和Hadoop无缝集成 Hbase vs RDBMS HBase RDBMS 数据类型只有字符串丰富的数据类型数据操作简单的增删改查各种各样的函数，表连接存储模式基于列存储基于表格结构和行存储数据保护更新后旧版本仍然会保留替换可伸缩性轻易的进行增加节点，兼容性高需要中间层，牺牲功能水平扩展数据量太大了，读写性能下降？传统方案：分库分表（迁移数据，中间层） HBase：啥都不用做，加机器即可，且性能平稳。 HDFS Hbase存储结构水平扩展如何做到的？当storeFile多了后，HBase会自动compact；当rows多了后，HBase会自动将region split； HBase会定时对Region Server的Region数进行balance； Region Server下线，Master会重新分配其负责的Region到其他的Region Server； Region Server上线后，当Master进行balance时会迁移一些Region到新的Region Server。面向列动态增删schema？传统方案：停机维护； HBase: No，Column Qualifier可动态增删。面向列如何做到的？以Column Family为存储单元； K/V方式存储。高性能随机读/写如何做到的？随机读 K/V存储； Cache； Split； Balance。随机写（相对而言） Cache + WAL； Compact； Split； Balance；数据可靠性借助HDFS保证数据的可靠； HLog File；恢复机制。 Hadoop其他组件 Zookeeper ZooKeeper是Apache软件基金会下的一个为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册的项目。曾是Hadoop项目的一部分，后来独立。项目地址：/ Pig Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 Pig极大的简化了Hadoop的使用项目地址：/ Pig Pig可以加载数据、表达转换数据以及存储最终结果 Pig语句通常按照如下的格式来编写: 通过LOAD语句从文件系统读取数据通过一系列“转换”语句对数据进行处理通过一条STORE语句把处理结果输出到文件系统中，或者使用DUMP语句把处理结果输出到屏幕上 Pig在企业数据分析系统中的作用 Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。 Hive项目地址: Sqoop Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中