- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大 数 据特征、采集和技术
分 析; 大数据综述
大数据的特征
大数据采集、存储技术
大数据分析系统架构
大数据建模分析方法
分析结果的可视化展示技术; ●随着现代信息采集技术、物联网、云计算、互联网络等信息技术以及新兴服务产业的快速发展,使得人类社会的数据种类和规模(社会管理、生产生活、行业产业、文化教育、资源环境等)正以前所未有的速度增长,数据从简单的处理对象开始转变为一种基础性资源(原始数据和应用数据)。
● “如何更好地管理和利用大数据”已经成为普遍关注的话题。大数据的规模效应给数据存储、管理以及数据分析带来了极大的技术挑战和利用价值。
●自2008年《Nature》杂志发表大数据专辑以来,大数据的概念和价值得到越来越多的关注。2012年,美国和中国分别将大数据提升到国家战略高度。;卫星监测数据;视频监测;数据无处不在
数据无时不有
数据无物不生
数据无人不感; 自古以来,在科学研究上,先后历经了实验、理论和计算3种范式。当数据量不断增长和累积到今天,传统的3种范式在科学研究,特别是一些新的研究领域已经无法很好地发挥作用,需要有一种全新的第4种范式来指导新形势下的科学研究。基于这种考虑,图灵奖获得者、著名数据库专家Jim Gray 博士提出了一种新的数据探索型研究方式,被他自己称之为科学研究的“第4种范式”。;; 大数据技术是一个典型的跨领域研究方向,在数据的采集、存储、传输、管理、安全和分析等诸多方面均面临着技术变革和创新。
数据复杂性
计算复杂性
系统复杂性
数据处理技术与系统
批量数据处理技术与系统
流量数据处理技术与系统
交互式数据处理技术与系统
多媒体数据处理技术与系统;大数据处理系统的三大发展趋势
数据处理引擎专用化
数据处理平台多样化
数据计算实时化
大数据分析支撑技术和应用
深度学习
知识计算
社会计算
可视化
典型应用场景等;大数据分析关键技术框架; 图1 MapReduce执行流程图; MapReduc模型首先将用户的原始数据源进行分块,然后分别交给不同的Map任务区处理。Map任务从输入中解析出链/值(Key/Value)对??合,然后对这些集合执行用户自行定义的Map函数得到中间结果,并将该结果写入本地硬盘。
MapReduc任务从硬盘上读取数据之后会根据Key值进行排序,将具有相同Key值的组织在一起,由用户自定义的MapReduc函数作用于这些排好序的结果并输出最终结果。
从MapReduc的处理过程可以看出,MapReduc的核心设计思想在于:
1)将问题分而治之;
2)把计算推到数据而不是把数据推到计算,有效地避免数据传输过程中产生的大量通信开销。
MapReduc模型简单,且现实中很多问题都可用MapReduc模型来表示。;2、典型的大数据处理平台—Hadoop
由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的优势进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed ,HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上,提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS可以流的形式访问文件系统中的数据。
Hadoop框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算模式。
Hadoop已经发展成为包括文件系统、数据库、数据处理等功能模块在内的完整系统,某种程度上可以说已经成为大数据处理工具事实上的标准。;图3 HadoopDB体系架构(Google);3、大数据处理基本框架;大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储。利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。
可分为三个主要环节:数据抽取与集成、数据分析以及数据解释。
1)数据抽取与集成:在大数据集合中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据,同时对数据进行清洗,保证数据质量及可信性。
现有的数据抽取与集成方式可以大致分为以下4种类型:基于物化或ETL方法的引擎,基于联邦数据库或中间件方法的引擎,基于数据流方法的引擎,基于搜索引擎的方法。;2)数据分析:整个大数据处理流程的核心。从异构数据源抽取和集成的数据构成了数据分析的原始数据,根据不同应用的需求可以从这些数据中选择全部或部分进行分析。
面向典型的大数据分析领
文档评论(0)