《商业智能:方法与应用》课件第10章 大数据技术与应用.pptx

《商业智能:方法与应用》课件第10章 大数据技术与应用.pptx

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

8.1大数据概述目录ONTENTSC8.2.2数据存储与检索技术——Hive8.2.1分布式文件系统——HDFS8.2大数据关键技术8.3大数据应用8.2.3大数据分析技术——MapReduce

8.1大数据概述大数据的产生与发展大数据的概念与数据结构大数据的特征

8.1大数据概述-大数据的产生和发展数据体量膨胀存储成本降低数据整合简单数据复杂性提高数据成本降低数据类型总类增加数据空间维度增加大数据的产生和发展

8.1大数据概述-大数据的产生和发展数据量的增长与数据复杂度的提高

概念数据量大:通常定义10TB的数据量为是大型数据集,但是在现实企业中,多个数据集集合在一起,就已经达到了远远超于10TB的数量数据种类多,数据来源多:这些数据生产于不同的系统,不同的应用,不同的行业背景,并且数据的种类和格式也各种各样,呈现出多元化的特点。面临挑战大量的数据可以为统计分析提供依据,但数据复杂性的提高也导致数据处理和分析过程中的低准确性和低效率。大数据所面临的挑战包括数据捕获、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源等方面。8.1大数据概述-大数据的概念及数据结构

8.1大数据概述-大数据的概念及数据结构结构化数据数据是第一次数据大潮,一直扮演不可缺少的角色,并在信息化和互联网发展中得到广泛应用。半结构化数据是第二次数据大潮,它仍是以内容为基础的,可以用来被查找,比如邮件数据,HTML页面信息。非结构化数据是第三次数据大潮,并且有愈演愈烈的势头,必须要有对应的软件来支撑,比如音频、视频数据。

体量大速度快多样性通过各种设备产生的海量数据,其数据规模极为庞大,远大于传统组织产生的信息流量,PB级别将是常态。大数据的种类繁多,包含结构化和非结构化的数据,并在编码方式、数据格式、应用特征等多个方面存在差异,多信息源并发形成了大量的异构数据。指处理数据的速度必须很快,设计到感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。8.1大数据概述-大数据的特征价值密度低价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。

8.2大数据关键技术分布式文件系统——HDFS数据存储与检索技术——Hive大数据分析技术——MapReduce

8.2大数据关键技术大数据产业链全景图

8.2大数据关键技术Hadoop生态图

8.2.1分布式文件系统——HDFS分布式文件系统——HDFSHDFS是一个服务于需要海量分布式数据的框架文件系统。HDFS遵循了传统的Master/Slave的主从架构。NameNode作为Master指导SlaveDataNode后台线程去执行底层的IO任务。NameNodeNameNode的功能相当于HDFS的一个记事本,它追踪用户文件如何被切分为多个块状文件,哪些节点存储了这些块状文件,以及整个文件系统的健康状况。NameNode起到了集群存储和IO集中管理的作用。DataNode作为Slave节点,DataNode承担了集群具体沟通文件系统读写任务——读写HDFS文件块到本地文件系统上的文件。客户端程序直接和DataNode交互进行具体的读写任务。

8.2.1分布式文件系统——HDFSHadoop中NameNode和DataNode的分布情况

ApacheHive能够分析存储在Hadoop的HDFS和兼容的文件系统(如AmazonS3文件系统)中的大型数据集。它提供了一种类似SQL的查询语言,称为HiveQL,并将查询转换为MapReduce、ApacheTez和Spark作业。这三个执行引擎都可以在HadoopYARN中运行。为了加速查询,它提供了索引功能。Hive提供必要的SQL抽象,将类似SQL的查询(HiveQL)集成到底层Java中,而无需在低级JavaAPI中实现查询。由于大多数数据仓库应用程序使用基于SQL的查询语言,Hive可以帮助基于SQL的应用程序移植到Hadoop。ApacheHiveApacheHive是一个基于ApacheHadoop构建的数据仓库软件项目,用于数据查询和分析,Hive提供了一个类似SQL的接口,用于查询存储在与Hadoop集成的各种数据库和文件系统中的数据。8.2.2数据存储与检索技术——Hive

8.2.2数据存储与检索技术——Hive存储每个表的元数据,它还包括分区元数据,以帮助驱动程序跟踪在群集中分布的各种数据集的进度,数据以传统的RDBMS格式存储。通过创建会话、监视生命周期和执行进度来开始执行语句。它存储HiveQL语句执行期间生

文档评论(0)

酱酱 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档