大数据特征、采集与技术分析.pptVIP

下载本文档

33
0
约1.17万字
约 76页
2020-12-19 发布于广东
举报
版权申诉

大数据特征、采集与技术分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据特征、采集和技术分析; 大数据综述大数据的特征大数据采集、存储技术大数据分析系统架构大数据建模分析方法分析结果的可视化展示技术; ●随着现代信息采集技术、物联网、云计算、互联网络等信息技术以及新兴服务产业的快速发展，使得人类社会的数据种类和规模（社会管理、生产生活、行业产业、文化教育、资源环境等）正以前所未有的速度增长，数据从简单的处理对象开始转变为一种基础性资源（原始数据和应用数据）。 ● “如何更好地管理和利用大数据”已经成为普遍关注的话题。大数据的规模效应给数据存储、管理以及数据分析带来了极大的技术挑战和利用价值。 ●自2008年《Nature》杂志发表大数据专辑以来，大数据的概念和价值得到越来越多的关注。2012年，美国和中国分别将大数据提升到国家战略高度。;卫星监测数据;视频监测;数据无处不在数据无时不有数据无物不生数据无人不感; 自古以来，在科学研究上，先后历经了实验、理论和计算3种范式。当数据量不断增长和累积到今天，传统的3种范式在科学研究，特别是一些新的研究领域已经无法很好地发挥作用，需要有一种全新的第4种范式来指导新形势下的科学研究。基于这种考虑，图灵奖获得者、著名数据库专家Jim Gray 博士提出了一种新的数据探索型研究方式，被他自己称之为科学研究的“第4种范式”。;; 大数据技术是一个典型的跨领域研究方向，在数据的采集、存储、传输、管理、安全和分析等诸多方面均面临着技术变革和创新。数据复杂性计算复杂性系统复杂性数据处理技术与系统批量数据处理技术与系统流量数据处理技术与系统交互式数据处理技术与系统多媒体数据处理技术与系统;大数据处理系统的三大发展趋势数据处理引擎专用化数据处理平台多样化数据计算实时化大数据分析支撑技术和应用深度学习知识计算社会计算可视化典型应用场景等;大数据分析关键技术框架; 图1 MapReduce执行流程图; MapReduc模型首先将用户的原始数据源进行分块，然后分别交给不同的Map任务区处理。Map任务从输入中解析出链/值(Key/Value)对??合，然后对这些集合执行用户自行定义的Map函数得到中间结果，并将该结果写入本地硬盘。 MapReduc任务从硬盘上读取数据之后会根据Key值进行排序，将具有相同Key值的组织在一起，由用户自定义的MapReduc函数作用于这些排好序的结果并输出最终结果。从MapReduc的处理过程可以看出，MapReduc的核心设计思想在于： 1）将问题分而治之； 2）把计算推到数据而不是把数据推到计算，有效地避免数据传输过程中产生的大量通信开销。 MapReduc模型简单，且现实中很多问题都可用MapReduc模型来表示。;2、典型的大数据处理平台—Hadoop 由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的优势进行高速运算和存储。 Hadoop实现了一个分布式文件系统（Hadoop Distributed ，HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上，提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS可以流的形式访问文件系统中的数据。 Hadoop框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算模式。 Hadoop已经发展成为包括文件系统、数据库、数据处理等功能模块在内的完整系统，某种程度上可以说已经成为大数据处理工具事实上的标准。;图3 HadoopDB体系架构（Google）;3、大数据处理基本框架;大数据的处理流程可以定义为在合适工具的辅助下，对广泛异构的数据源进行抽取和集成，结果按照一定的标准统一存储。利用合适的数据分析技术对存储的数据进行分析，从中提取有益的知识并利用恰当的方式将结果展现给终端用户。可分为三个主要环节：数据抽取与集成、数据分析以及数据解释。 1）数据抽取与集成：在大数据集合中提取出关系和实体，经过关联和聚合之后采用统一定义的结构来存储这些数据，同时对数据进行清洗，保证数据质量及可信性。现有的数据抽取与集成方式可以大致分为以下4种类型：基于物化或ETL方法的引擎，基于联邦数据库或中间件方法的引擎，基于数据流方法的引擎，基于搜索引擎的方法。;2）数据分析：整个大数据处理流程的核心。从异构数据源抽取和集成的数据构成了数据分析的原始数据，根据不同应用的需求可以从这些数据中选择全部或部分进行分析。面向典型的大数据分析领