第二讲大数据应用分析.ppt

下载文档 降价啦

79
0
约 67页
2017-01-16 发布于湖北
举报
版权申诉
保障服务

第二讲大数据应用分析.ppt

1、本文档共67页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第二讲大数据应用分析

能源行业大数据需求分析能源行业数据特征能源勘探开发数据的类型众多，不同类型数据包含的信息各具特点，综合各种数据所包含的信息才能得出地下真实的地质状况。能源行业面临的大数据问题能源行业企业对大数据产品和解决方案的需求集中体现在：可扩展存储、高带宽、可处理不同格式数据的分析方案。能源行业基于Hadoop的大数据应用 Opower使用Hadoop来提升电力服务，尽量为用户节省在资源方面的投入。Opower现在管理着30TB的信息，其中包括来自5000万用户（横跨60个公共事业部）能源数据，气象与人口方面的公共及私人数据，历史信息，地理数据及其他。这些都是通过超过20个MySQL数据库和一个Hadoop集群来存储和处理的。采用Hadoop来对来自从海洋深处地震时产生的数据进行排序和整理，其背后有可能意味着石油储量。应用实例1：互联网行为分析平台应用实例2：海量小图片管理需求上亿个影像图文件每个影像图文件大小约10~20K 须集中管理需满足图档的实时调阅与查询现状以SAN Storage来储存与管理所有的影像图文件每个影像文件以档案目录方式来管理以数据库来存放每个图像图文件之特征值 (meta-data)与文件路径, 供使用者查询与搜索 SAN Storage DB 应用程序应用程序应用程序应用程序快速迭代的开发模式分布式系统测试人有了知识，就会具备各种分析能力，明辨是非的能力。所以我们要勤恳读书，广泛阅读，古人说“书中自有黄金屋。 ”通过阅读科技书籍，我们能丰富知识，培养逻辑思维能力；通过阅读文学作品，我们能提高文学鉴赏水平，培养文学情趣；通过阅读报刊，我们能增长见识，扩大自己的知识面。有许多书籍还能培养我们的道德情操，给我们巨大的精神力量，鼓舞我们前进。 * * * * 认为: 本页要讲清楚网络大数据为什么重要！！ * 大数据的研究是产业升级的关键问题 * * * * * * * * * * * * HDFS具体操作文件写入： 1. Client向NameNode发起文件写入的请求 2. NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。 3. Client将文件划分为多个文件块，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。 ? 文件读取： 1.?Client向NameNode发起文件读取的请求 2.?NameNode返回文件存储的DataNode的信息。 3. Client读取文件信息。 MapReduce——映射、化简编程模型 1. 根据输入数据的大小和参数的设置把数据分成splits, 每个split对于一个map线程。 2. Split中的数据作为Map的输入， Map的输出一定在Map端。 3. Map的输出到Reduce的输入的过程(shuffle过程)：第一阶段：在map端完成内存-排序-写入磁盘-复制第二阶段：在reduce端完成映射到reduce端分区-合并-排序 4. Reduce的输入到Reduce的输出最后排好序的key/value作为Reduce的输入，输出不一定是在reduce端。 MapReduce是一种编程模型，用于大规模数据集的并行运算。Map（映射）和Reduce（化简），采用分而治之思想，先把任务分发到集群多个节点上，并行计算，然后再把计算结果合并，从而得到最终计算结果。多节点计算，所涉及的任务调度、负载均衡、容错处理等，都由MapReduce框架完成，不需要编程人员关心这些内容。 HBASE——分布式数据存储 HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统； HBase位于结构化存储层，HDFS为HBase提供了高可靠性的底层存储支持,MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和failover机制； Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的简单。内容提要 1.大数据背景介绍 2. HADOOP体系架构 3. 基于HADOOP的大数据产品分析 4. 基于HADOOP的大数据行业应用分析 Hadoop主要开发厂商　大型企业和机构在寻求解决棘手的大数据问题时，往往会使用开源软件基础架构Hadoop的服务。由于Hadoop深受欢迎，许多公司都推出了各自版本的Hadoop，也有一些公司则围绕Hadoop提供解决方案。 Hadoop的发行版除了社区的Apache hadoop外，cloudera，IBM，OR