- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十二课 云中的大数据
第十二课 : 云中的大数据
第十二课 : 云中的大数据1
Azure 中的 HDInsight 是什么?2
了解大数据2
大数据工具——Apache Hadoop 2
Azure HDInsight 概述 3
Azure HDInsight 入门指南 7
设置 HDInsight 群集 7
从门户运行示例8
将数据导入 Excel 表格 18
实现可视化数据21
本阶段常见问题25
自我小测试25
参考资源:高级应用指南26
Azure 中的 HDInsight 是什么?
了解大数据
这是一个大数据的时代 ,我们不仅每天从媒体上听到这个 “大数据”这个词汇,也正在感受
着大数据对我们生活的影响。今天,企业正想方设法从他们捕获的空前数量的数据中获取业
务洞察力。这其中包括大量的非结构化数据,如文件、图像、视频、博客、点击流和地理空
间数据。对于组织来说,主要的挑战是如何降低构建分布式存储和计算的复杂性 ,以及如何
有效地同时处理结构化和非结构化数据。企业正在寻找一种有效的方式将内部和外部的数据
及服务结合起来。他们也想从诸如微博这样的社交媒体网站中挖掘数据。他们还想基于他们
所捕获的数据更及时地作出决策。为了实现这个目标,企业需要实时地分析他们的数据,而
不是简单地依靠批处理。
从技术角度 ,大数据是一个用于描述关系型和非关系型数据库中存储的业务数据的术语。大
数据的问题在于,当数据以多种不同方式存储时难以对其进行分析。数据是分散的,它们保
存在关系数据库管理系统 (RDBMS)、XML 普通文件数据库、基于文本的日志文件、二进
制文件及 NOSQL Key/Value 系统中 ,那么问题来了,该如何分析这些数据呢?
大数据工具——Apache Hadoop
Apache Hadoop 是一个辅助大数据管理和分析的软件框架 ,由Apache 基金会开发。
Hadoop 的主要目标是对分布式环境下的“大数据”提供一种可靠、高效、可伸缩的存储及
处理方式。Apache Hadoop 内核提供了带 Hadoop 分布式文件系统 (HDFS) 的可靠数
据存储和一个简单的 MapReduce 编程模型,该模型用于并行处理和分析存储在此分布式
系统中的数据。 HDFS 使用数据复制来处理在部署此高度分布式系统时出现的硬件故障问
题。
图 :Hadoop 分布式架构
为了降低分析来自各种源的非结构化数据的复杂性,MapReduce 编程模型支持用于闭包
映射和精简操作的核心抽象。MapReduce 编程模型会将其所有作业视为对包含密钥值对
的数据集进行的计算。因此,输入和输出文件都必须包含仅包括键值对的数据集。这种约束
的主要收获是导致 MapReduce 作业可以组合。
其他与 Hadoop 相关的项目(如 Pig 和 Hive )建立在 HDFS 和 MapReduce 框架基
础之上。与直接使用 MapReduce 程序相比,此类项目管理群集会轻松得多。例如,Pig 使
您 能够使用称为 Pig Latin 的过程语言来编写程序,这些程序将在群集上编译为
MapReduce 程序。它还使您能够流畅地控制对数据流的管理。Hive 是一个数据仓库基础
结构,它为存储在群集中的文件数据提供表抽象,然后可以使用以声明语言(称为 HiveQL )
编写的类似于 SQL 的语句对数据进行查询。
对于希望搭乘大数据这趟高速列车的企业来讲 ,Hadoop 的确是一个很好的解决方案,但您
的 IT 工程师和数据库管理员却需要花费大量的时间构建和配置群集 ,才能建立起一个
Hadoop 集群 。有没有快速且便利的大数据解决方案可以用呢?答案就在 Azure 的
HDInsight 服务中。
Azure HDInsight 概述
Hadoop 在 Azure 上的实现即为 HDInsight ,这是一种 100% 基于 Apache Hadoop 的
云端服务。 Azure HDInsight 使 Apache Hadoop 可在云中作为服务使用,它使
HDFS/MapReduce 软件框架和相关项目(如 Pig、Hive 和 Oozie 等 )可用于更简单、
缩放性更高且经济实用的环境。
Hadoop 的标准群集通常具有单个头节点,HDInsight 通过双
您可能关注的文档
最近下载
- (完整)高考英语词汇3500词-乱序版 .pdf VIP
- 新能源汽车维护与保养:动力电池热管理系统检查保养教学课件.pptx VIP
- 人权法-朱力宇-全套课件.pptx
- 2025-2026学年苏科版(2024)初中生物七年级上册教学计划及进度表.docx
- 中国近代史课件.ppt VIP
- 北师大版八年级生物上册全册课件.pptx VIP
- 《开学心理调适指南》开学第一课主题班会课件.pptx VIP
- 2024年9月第41届全国中学生物理竞赛复赛试题(含答案解析).pdf
- 部编版语文六年级上册第1课《草原》学习任务群教学课件.pptx VIP
- 2020年11月28日中央国家机关遴选公务员笔试真题及解析(B卷).pdf VIP
文档评论(0)