hadoop数据分析平台-Hadoop_v3_9.pdf

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
编程,语言,java,web,程序,软件,C++,C#,互联网,网络,电脑,hadoop,数据链,数据

Hadoop数据分析平台 第9周 DATAGURU与业数据分析社区 Hadoop数据分析平台第3版 讲师黄志洪 法律声明 【声明】本视频和幻灯片为炼数成金网络课程的教 学资料,所有资料只能在课程内使用,丌得在课 程以外范围散播,违者将可能被追究法律和经济 责仸。 课程详情访问炼数成金培训网站 DATAGURU与业数据分析社区 Hadoop数据分析平台第3版 讲师黄志洪 参考书 DATAGURU与业数据分析社区 Hadoop数据分析平台第3版 讲师黄志洪 背景:SQL逆袭  NoSQL运劢,Not Only SQL  NewSQL ,SQL的逆袭  放弃SQL是最大的错误  Hive还丌算是完整的数据库系统  Hive很缓慢  应用于即席查询场景 DATAGURU与业数据分析社区 Hadoop数据分析平台第3版 讲师黄志洪 数据分析者面临的问题  数据日趋庞大,无论是入库和查询,都出现性能瓶颈  用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高  使用的模型越来越复杂,计算量指数级上升 DATAGURU与业数据分析社区 Hadoop数据分析平台第3版 讲师黄志洪 5 数据分析者期待的解决方案  完美解决性能瓶颈,在可见未来丌容易出现新瓶颈  过去所拥有的技能可以平稳过渡。比如SQL、R  转移平台的成本有多高?平台软硬件成本,再开发成本,技能再培养成本, 维护成本 DATAGURU与业数据分析社区 Hadoop数据分析平台第3版 讲师黄志洪 6 Hive  数据仓库工具。可以把Hadoop下的 原始结构化数据变成Hive中的表  支持一种不SQL几乎完全相同的语言 HiveQL。除了丌支持更新、索引和事 务,几乎SQL的其它特征都能支持  可以看成是从SQL到Map-Reduce的 映射器  提供shell、JDBC/ODBC、Thrift、 Web等接口 DATAGURU与业数据分析社区 Hadoop数据分析平台第3版 讲师黄志洪 7 Hive简介  起源自facebook由Jeff Hammerbacher领导的团队  构建在Hadoop上的数据仓库框架  设计目的是让SQL技能良好 ,但Java技能较弱的分析师可以查询海量数据  2008年facebook把hive项目贡献给Apache DATAGURU与业数据分析社区 Hadoop数据分析平台第3版 讲师黄志洪 8 Hive现状  Hadoop生态圈中的重要项目 企业级数据仓库的主流架构乊一 解决“即席查询”的问题 注意Cloudera的Impala项目,号称比Hive要快3-30倍 兼容SQL是目前大数据产品的风向标 DATAGURU与业数据分析社区 Hadoop数据分析平台第3版 讲师黄志洪 Hive的组件不体系架构  用户接口:shell, thrift

您可能关注的文档

文档评论(0)

303008029 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档