网站大量收购闲置独家精品文档,联系QQ:2885784924

《大数据分析与应用》课件——单元2 大数据分析平台.pptxVIP

《大数据分析与应用》课件——单元2 大数据分析平台.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共99页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

单元2大数据分析平台;主要内容;主要内容;大数据分析平台;什么是大数据分析平台;大数据分析平台;

基于Hadoop的大数据分析平台

大数据平台是对海量结构化、非结构化、半结构化数据进行采集、存储、计算、统计、分析处理的一系列技术平台。大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,其涉及的技术主要有分布式计算、高并发处理、高可用处理、集群、实时性计算等。

Hadoop作为一个开发和运行处理大规模数据的软件平台,实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算;

Hadoop框架中最核心的设计是HDFS和MapReduce;

HDFS是一个高度容错性的系统,MapReduce是一套可以从海量的数据中提取数据最后返回结果集的编程模型;

Hadoop家族还包含各种开源组件,比如Yarn,Zookeeper,Hbase,Hive,Sqoop,Impala,Spark等;;Hadoop大数据分析平台系统架构;主要内容;阿里云大数据平台;

阿里云大数据平台产品架构;

典型阿里云大数据平台架构;;主要内容;阿里云大数据计算服务MaxCompute;

大数据计算服务MaxCompute,由阿里云自主研发,提供针对

TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智能等领域。阿里巴巴的数据业务都运行在MaxCompute。

MaxCompute是一种快速、完全托管的EB级数据仓库解决方案。;;阿里云大数据计算服务MaxCompute;

MaxCompute的使用流程;

MaxCompute常见使用方式;

MaxCompute客户端是一个java程序,需要JRE环境才能运行,请下

载并安装JRE1.6+版本(JRE1.7或以上版本,建议优先使用JRE1.7/1.8,其中JRE1.9已经支持,JRE1.10暂时还不支持)。

1.官网下载客户端压缩文件

2.解压文件,可以看到如下4个文件夹:

bin/conf/lib/plugins/

修改ODPS_CLIENT/conf/odps_conf.ini

project_name=[project_name]

access_id=****************

access_key=******************************

end_point=/api

tunnel_endpoint=

log_view_host=

https_check=true|false;

运行bin目录下的MaxCompute:

?Linux系统下运行./bin/odpscmd

?Windows下运行./bin/odpscmd.bat

;

Java+eclipse的应用;

MaxComputeStudio,是面向MaxCompute计算引擎开发的数据处

理开发工具,是一套基于流行的集成开发平台IntelliJIDEA的开发插件。安装步骤:

1.安装JDK1.8

2.安装IntelliJIDEA,需要IntelliJIDEA14.1.4以上

3.在IntelliJIDEA中打开File|Settings|Plugins,点击Browserepositories...按钮

4.搜索“MaxComputeStudio,安装MaxComputeStudio插件

5.完成安装,重新启动IntelliJIDEA

6.创建MaxCompute项目链接;;

Tunnel上传/下载数据

MaxCompute客户端提供Tunnel命令实现数据的上传/下载。基本语法:

tunnelsubcommand[options]args

示例:

下载数据:tunneldownload-cGBKtmp_tabled:\tmp_table.csv

上传数据:tunnelupload-cGBKd:\dim_map.csvdim_map;

MaxComputeSQL是个数据仓库工具,Query解析后,计算和存储交由底层的飞天实现。

MaxComputeSQL支持常用的SQL语法,包括窗口函数

MaxComputeSQL可以看做对标准SQL的支持,但是不能简单等同于数据库MaxComputeSQL不支持事务、主外键约束、索引等

MaxComputeSQL适用于海量数据(TB

您可能关注的文档

文档评论(0)

青柠职教 + 关注
实名认证
服务提供商

从业10年,专注职业教育专业建设,实训室建设等。

1亿VIP精品文档

相关文档