大数据热点研究问题和典型研究介绍-黄宜华-2013-4-20课件.pptx

大数据热点研究问题和典型研究介绍-黄宜华-2013-4-20课件.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据热点研究问题和典型研究介绍-黄宜华-2013-4-20课件

大数据热点研究问题 和典型研究介绍;多核、并行计算与大数据;Wiki百科:big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools 大数据意指一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集 IDC报告:Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis. 大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值;大数据处理技术的重要性;未来10多年数据将急剧增长 IDC研究报告《Data Universe Study》 提出“数据宇宙”的说法描述海量数据;大数据处理技术的重要性;美国联邦政府发布大数据研发专项研究计划;;;大数据将带来巨大的技术和商业机遇 ;应用数据规模急剧增加,传统计算面临严重挑战 中国移动一个省电话通联记录(CDR)数据每月可达0.5-1PB,而整个中国移动每月则高达7-15PB数据;如此巨大的数据量使得Oracle等数据库系统已经难以支撑和应对 南京市公安局320道路监控云计算系统,数据量为三年200亿条、总量120TB的车辆监控数据 百度存储数百PB数据, 每天处理数据10PB 淘宝存储14PB交易数据, 每天新增数据40-50TB ;大数据处理技术发展的驱动力;大数据处理技术发展的驱动力;大数据的基本特点; 结构特征 结构化数据 非结构化/半结构化数据 获取和处理方式 静态(线下数据)/非实时数据 动态(流式/增量式/线上)/实时数据 关联特征 无关联/简单关联数据(键值记录型数据) 复杂关联数据(图数据) ;数据尺度和关联度空间; 大数据问题的基本特点 极强的行业应用需求特性 规模极大,超过任何传统数据库系统的处理能力 技术综合性、交叉性很强 大多数传统算法面临失效,需要重写 大数据研究的基本原则 应用需求为导向: 以行业应用问题和需求为导向 领域交叉为桥梁:行业、IT产业、学术界协同 计算技术为支撑:研究解决涉及的计算技术问题 ;以有效的信息技术手段和计算方法,获取、处理和分析各种应用行业的大数据,发现和提取数据的内在价值,为行业提供高附加值的应用和服务 技术手段:信息技术和计算方法 核心目标:价值发现 效益目标:形成高附加值智能化行业应用; 大数据研究的挑战 数据规模导致难以应对的存储量 数据规模导致传统算法失效 大数据复杂的数据关联性导致高复杂度的计算 大数据研究的基本途径 三个基本途径: 寻找新算法降低计算复杂度 降低大数据尺度,寻找数据尺度无关算法 大数据并行化处理 ; 大数据研究的基本途径 ;大数据研究层面;集群, 众核, GPU, 混合式构架 (如集群+众核, 集群+GPU) 云计算资源与支撑平台;集群, 多核, GPU, 混合式构架 (如集群+多核, 集群+GPU) 云计算资源和服务支撑平台;大数据十个典型和热点研究问题;一、大数据存储管理与索引查询;一、大数据存储管理与索引查询;一、大数据存储管理与索引查询;一、大数据存储管理与索引查询;一、大数据存储管理与索引查询;二、Hadoop性能优化与功能增强;1.Hadoop系统性能优化 问题:Hadoop最初是为批量数据线下处理设计,当使用Hadoop进行大数据存储和实时查询分析处理时,其响应性能不够,因此Hadoop性能优化一直是大家关注的热点研究问题。 本课题组进行了Hadoop MapReduce框架的性能优化研究: 1).研究设计了新的作业和任务处理机制及任务调度通信机制,实验结果显示,Benchmark程序执行性能提升达到约30%。 该项成果经过集成和测试目前已经集成到 Intel Distributed Hadoop(IDH)产品中 2).研究了基于资源环境和作业开销感知的Hadoop作业调度优化技术,可实现动态的Slot调度和均衡的作业调度优化 ;三、并行编程模型与计算框架;三、并行编程模型与计算框架;三、并行编程模型与计算框架;三、并行编程模型与计算框架;三、并行编程模型与计算框架;三、并行编程模型与

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档