2019年大数据基础技术概述.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2019年大数据基础技术概述

大数据基础技术概述 日期:2019年2月 杭州华三通信技术有限公司 夏飞 03621 大数据基础技术概述 大数据处理的基本流程 大数据关键技术 Hadoop介绍 流计算介绍 图计算介绍 NoSQL介绍 大数据面临的其他问题 大数据处理的基本流程 整个大数据的处理流程可以定义为:在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准进行统一存储,并利用合适的数据分析技术对存储的数据进行分析, 从中提取有益的知识并利用恰当的方式将结果展现给终端用户。具体来说,可以分为数据抽取与集成、数据分析以及数据解释。 数据抽取与集成 大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。 要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。 在数据集成和提取时需要对数据进行清洗,保证数据质量及可信性。 现有的数据抽取与集成方式可以大致分为以下四种类型:数据整合、数据联邦、数据传播和混合方法等。 (1) 数据整合(Data Consolidation):不同数据源的数据被物理地集成到数据目标。利用ETL工具把数据源中的数据批量地加载到数据仓库,就属于数据整合的方式。 (2)数据联邦(Data Federation):在多个数据源的基础上建立一个统一的逻辑视图,对外界应用屏蔽数据在各个数据源的分布细节。对于这些应用而言,只有一个统一的数据访问入口,但是实际上,被请求的数据只是逻辑意义上的集中,在物理上仍然分布在各个数据源中,只有被请求时,才临时从不同数据源获取相关数据,进行集成后提交给数据请求者。当数据整合方式代价太大或者为了满足一些突发的实时数据需求时,可以考虑采用数据联邦的方式建立企业范围内的全局统一数据视图。 (3)数据传播(Data Propagation):数据在多个应用之间的传播。比如,在企业应用集成(EAI)解决方案中,不同应用之间可以通过传播消息进行交互。 (4)混合方式(A Hybrid Approach):在这种方式中,对于那些不同应用都使用的数据采用数据整合的方式进行集成,而对那些只有特定应用才使用的数据则采用数据联邦的方式进行集成。 数据分析 传统的分析技术如数据挖掘、机器学习、统计分析等在大数据时代需要做出调整,因为这些技术在大数据时代面临着一些新的挑战,主要有: 数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多 大数据时代的算法需要进行调整(邦弗朗尼原理) 数据结果好坏的衡量 数据解释 数据分析是大数据处理的核心,但是用户往往更关心结果的展示。如果分析的结果正确但是没有采用适当的解释方法,则所得到的结果很可能让用户难以理解,极端情况下甚至会误导用户。 大数据时代的数据分析结果往往也是海量的,同时结果之间的关联关系极其复杂,采用传统的解释方法基本不可行 可以考虑从下面两个方面提升数据解释能力: -- 引入可视化技术 -- 让用户能够在一定程度上了解和参与具体的分析过程 大数据基础技术概述 大数据处理的基本流程 大数据关键技术 Hadoop介绍 流计算介绍 图计算介绍 NoSQL介绍 大数据面临的其他问题 大数据技术分类 分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案,内存数据库等 存储 计算 应用 Map Reduce 流计算 图计算 ……… HIVE,pig,mahout,Sqoop以及ETL工具,统计与报告工具等 Google的技术演进 Google 于2006 年首先提出了云计算的概念,并研发了一系列云计算技术和工具。难能可贵的是Google 并未将这些技术完全封闭,而是以论文的形式逐步公开其实现。正是这些公开的论文,使得以GFS、MapReduce、Bigtable 为代表的一系列大数据处理技术被广泛了解并得到应用,同时还催生出以Hadoop为代表的一系列云计算开源工具。 下图展示了Google的技术演化过程: 大数据处理工具 Hadoop 是目前最为流行的大数据处理平台。除了Hadoop,还有很多针对大数据的处理工具。这些工具有些是完整的处理平台,有些则是专门针对特定的大数据处理应用。下表归纳总结了现今一些主流的处理平台和工具。 大数据基础技术概述 大数据处理的基本流程 大数据关键技术 Hadoop介绍 流计算介绍 图计算介绍 NoSQL介绍 大数据面临的其他问题 Hadoop简介 Hadoop 一个分布

文档评论(0)

tangtianbao1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档