大数据基础技术概述42.pptVIP

  • 5
  • 0
  • 约7.83千字
  • 约 42页
  • 2019-06-07 发布于河南
  • 举报
大数据基础技术概述 日期:2019年6月 杭州华三通信技术有限公司 夏飞 03621 大数据基础技术概述 大数据处理的基本流程 大数据关键技术 Hadoop介绍 流计算介绍 图计算介绍 NoSQL介绍 大数据面临的其他问题 大数据处理的基本流程 整个大数据的处理流程可以定义为:在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准进行统一存储,并利用合适的数据分析技术对存储的数据进行分析, 从中提取有益的知识并利用恰当的方式将结果展现给终端用户。具体来说,可以分为数据抽取与集成、数据分析以及数据解释。 数据抽取与集成 大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。 要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。 在数据集成和提取时需要对数据进行清洗,保证数据质量及可信性。 现有的数据抽取与集成方式可以大致分为以下四种类型:数据整合、数据联邦、数据传播和混合方法等。 (1) 数据整合(Data Consolidation):不同数据源的数据被物理地集成到数据目标。利用ETL工具把数据源中的数据批量地加载到数据仓库,就属于数据整合的方式。 (2)数据联邦(Data Federation):在多个数据源的基础上建立一个统一的逻辑视图,对外界应用屏蔽数据在各个数据源的分布细节。对于这些应用而言,只有一个统一的数据访问入口,但是实际上,被请求的数据只是逻辑意义上的集中,在物理上仍然分布在各个数据源中,只有被请求时,才临时从不同数据源获取相关数据,进行集成后提交给数据请求者。当数据整合方式代价太大或者为了满足一些突发的实时数据需求时,可以考虑采用数据联邦的方式建立企业范围内的全局统一数据视图。 (3)数据传播(Data Propagation):数据在多个应用之间的传播。比如,在企业应用集成(EAI)解决方案中,不同应用之间可以通过传播消息进行交互。 (4)混合方式(A Hybrid Approach):在这种方式中,对于那些不同应用都使用的数据采用数据整合的方式进行集成,而对那些只有特定应用才使用的数据则采用数据联邦的方式进行集成。 数据分析 传统的分析技术如数据挖掘、机器学习、统计分析等在大数据时代需要做出调整,因为这些技术在大数据时代面临着一些新的挑战,主要有: 数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多 大数据时代的算法需要进行调整(邦弗朗尼原理) 数据结果好坏的衡量 数据解释 数据分析是大数据处理的核心,但是用户往往更关心结果的展示。如果分析的结果正确但是没有采用适当的解释方法,则所得到的结果很可能让用户难以理解,极端情况下甚至会误导用户。 大数据时代的数据分析结果往往也是海量的,同时结果之间的关联关系极其复杂,采用传统的解释方法基本不可行 可以考虑从下面两个方面提升数据解释能力: -- 引入可视化技术 -- 让用户能够在一定程度上了解和参与具体的分析过程 大数据基础技术概述 大数据处理的基本流程 大数据关键技术 Hadoop介绍 流计算介绍 图计算介绍 NoSQL介绍 大数据面临的其他问题 大数据技术分类 分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案,内存数据库等 存储 计算 应用 Map Reduce 流计算 图计算 ……… HIVE,pig,mahout,Sqoop以及ETL工具,统计与报告工具等 Google的技术演进 Google 于2006 年首先提出了云计算的概念,并研发了一系列云计算技术和工具。难能可贵的是Google 并未将这些技术完全封闭,而是以论文的形式逐步公开其实现。正是这些公开的论文,使得以GFS、MapReduce、Bigtable 为代表的一系列大数据处理技术被广泛了解并得到应用,同时还催生出以Hadoop为代表的一系列云计算开源工具。 下图展示了Google的技术演化过程: 大数据处理工具 Hadoop 是目前最为流行的大数据处理平台。除了Hadoop,还有很多针对大数据的处理工具。这些工具有些是完整的处理平台,有些则是专门针对特定的大数据处理应用。下表归纳总结了现今一些主流的处理平台和工具。 大数据基础技术概述 大数据处理的基本流程 大数据关键技术 Hadoop介绍 流计算介绍 图计算介绍 NoSQL介绍 大数据面临的其他问题 Hadoop简介 Hadoop 一个分布

文档评论(0)

1亿VIP精品文档

相关文档