第二讲大数据应用分析.ppt

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二讲大数据应用分析

能源行业大数据需求分析 能源行业数据特征 能源勘探开发数据的类型众多,不同类型数据包含的信息各具特点,综合各种数据所包含的信息才能得出地下真实的地质状况。 能源行业面临的大数据问题 能源行业企业对大数据产品和解决方案的需求集中体现在:可扩展存储、高带宽、可处理不同格式数据的分析方案。 能源行业基于Hadoop的大数据应用 Opower使用Hadoop来提升电力服务,尽量为用户节省在资源方面的投入。Opower现在管理着30TB的信息,其中包括来自5000万用户(横跨60个公共事业部)能源数据,气象与人口方面的公共及私人数据,历史信息,地理数据及其他。这些都是通过超过20个MySQL数据库和一个Hadoop集群来存储和处理的。 采用Hadoop来对来自从海洋深处地震时产生的数据进行排序和整理,其背后有可能意味着石油储量。 应用实例1:互联网行为分析平台 应用实例2:海量小图片管理 需求 上亿个影像图文件 每个影像图文件大小约10~20K 须集中管理 需满足图档的实时调阅与查询 现状 以SAN Storage来储存与管理所有的影像图文件 每个影像文件以档案目录方式来管理 以数据库来存放每个图像图文件之特征值 (meta-data)与文件路径, 供使用者查询与搜索 SAN Storage DB 应用程序 应用程序 应用程序 应用程序 快速迭代的开发模式 分布式系统测试 人有了知识,就会具备各种分析能力, 明辨是非的能力。 所以我们要勤恳读书,广泛阅读, 古人说“书中自有黄金屋。 ”通过阅读科技书籍,我们能丰富知识, 培养逻辑思维能力; 通过阅读文学作品,我们能提高文学鉴赏水平, 培养文学情趣; 通过阅读报刊,我们能增长见识,扩大自己的知识面。 有许多书籍还能培养我们的道德情操, 给我们巨大的精神力量, 鼓舞我们前进。 * * * * 认为: 本页要讲清楚网络大数据为什么重要!! * 大数据的研究是产业升级的关键问题 * * * * * * * * * * * * HDFS具体操作 文件写入: 1. Client向NameNode发起文件写入的请求 2. NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。 3. Client将文件划分为多个文件块,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。 ? 文件读取: 1.?Client向NameNode发起文件读取的请求 2.?NameNode返回文件存储的DataNode的信息。 3. Client读取文件信息。 MapReduce——映射、化简编程模型 1. 根据输入数据的大小和参数的设置把数据分成splits, 每个split对于一个map线程。 2. Split中的数据作为Map的输入, Map的输出一定在Map端。 3. Map的输出到Reduce的输入的过程(shuffle过程): 第一阶段:在map端完成内存-排序-写入磁盘-复制 第二阶段:在reduce端完成映射到reduce端分区-合并-排序 4. Reduce的输入到Reduce的输出 最后排好序的key/value作为Reduce的输入,输出不一定是在reduce端。 MapReduce是一种编程模型,用于大规模数据集的并行运算。Map(映射)和Reduce(化简),采用分而治之思想,先把任务分发到集群多个节点上,并行计算,然后再把计算结果合并,从而得到最终计算结果。多节点计算,所涉及的任务调度、负载均衡、容错处理等,都由MapReduce框架完成,不需要编程人员关心这些内容。 HBASE——分布式数据存储 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统; HBase位于结构化存储层,HDFS为HBase提供了高可靠性的底层存储支持,MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制; Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的简单。 内容提要 1.大数据背景介绍 2. HADOOP体系架构 3. 基于HADOOP的大数据产品分析 4. 基于HADOOP的大数据行业应用分析 Hadoop主要开发厂商  大型企业和机构在寻求解决棘手的大数据问题时,往往会使用开源软件基础架构Hadoop的服务。由于Hadoop深受欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop提供解决方案。 Hadoop的发行版除了社区的Apache hadoop外,cloudera,IBM,OR

文档评论(0)

4477704 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档