- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据热点研究问题和典型研究介绍-黄宜华-2013-4-20课件
大数据热点研究问题和典型研究介绍;多核、并行计算与大数据;Wiki百科:big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools
大数据意指一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集
IDC报告:Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis.
大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值;大数据处理技术的重要性;未来10多年数据将急剧增长
IDC研究报告《Data Universe Study》
提出“数据宇宙”的说法描述海量数据;大数据处理技术的重要性;美国联邦政府发布大数据研发专项研究计划;;;大数据将带来巨大的技术和商业机遇
;应用数据规模急剧增加,传统计算面临严重挑战
中国移动一个省电话通联记录(CDR)数据每月可达0.5-1PB,而整个中国移动每月则高达7-15PB数据;如此巨大的数据量使得Oracle等数据库系统已经难以支撑和应对
南京市公安局320道路监控云计算系统,数据量为三年200亿条、总量120TB的车辆监控数据
百度存储数百PB数据,
每天处理数据10PB
淘宝存储14PB交易数据,
每天新增数据40-50TB
;大数据处理技术发展的驱动力;大数据处理技术发展的驱动力;大数据的基本特点; 结构特征
结构化数据
非结构化/半结构化数据
获取和处理方式
静态(线下数据)/非实时数据
动态(流式/增量式/线上)/实时数据
关联特征
无关联/简单关联数据(键值记录型数据)
复杂关联数据(图数据)
;数据尺度和关联度空间; 大数据问题的基本特点
极强的行业应用需求特性
规模极大,超过任何传统数据库系统的处理能力
技术综合性、交叉性很强
大多数传统算法面临失效,需要重写
大数据研究的基本原则
应用需求为导向: 以行业应用问题和需求为导向
领域交叉为桥梁:行业、IT产业、学术界协同
计算技术为支撑:研究解决涉及的计算技术问题
;以有效的信息技术手段和计算方法,获取、处理和分析各种应用行业的大数据,发现和提取数据的内在价值,为行业提供高附加值的应用和服务
技术手段:信息技术和计算方法
核心目标:价值发现
效益目标:形成高附加值智能化行业应用; 大数据研究的挑战
数据规模导致难以应对的存储量
数据规模导致传统算法失效
大数据复杂的数据关联性导致高复杂度的计算
大数据研究的基本途径
三个基本途径:
寻找新算法降低计算复杂度
降低大数据尺度,寻找数据尺度无关算法
大数据并行化处理
; 大数据研究的基本途径
;大数据研究层面;集群, 众核, GPU, 混合式构架 (如集群+众核, 集群+GPU)
云计算资源与支撑平台;集群, 多核, GPU, 混合式构架 (如集群+多核, 集群+GPU)
云计算资源和服务支撑平台;大数据十个典型和热点研究问题;一、大数据存储管理与索引查询;一、大数据存储管理与索引查询;一、大数据存储管理与索引查询;一、大数据存储管理与索引查询;一、大数据存储管理与索引查询;二、Hadoop性能优化与功能增强;1.Hadoop系统性能优化
问题:Hadoop最初是为批量数据线下处理设计,当使用Hadoop进行大数据存储和实时查询分析处理时,其响应性能不够,因此Hadoop性能优化一直是大家关注的热点研究问题。
本课题组进行了Hadoop MapReduce框架的性能优化研究:
1).研究设计了新的作业和任务处理机制及任务调度通信机制,实验结果显示,Benchmark程序执行性能提升达到约30%。
该项成果经过集成和测试目前已经集成到 Intel Distributed Hadoop(IDH)产品中
2).研究了基于资源环境和作业开销感知的Hadoop作业调度优化技术,可实现动态的Slot调度和均衡的作业调度优化
;三、并行编程模型与计算框架;三、并行编程模型与计算框架;三、并行编程模型与计算框架;三、并行编程模型与计算框架;三、并行编程模型与计算框架;三、并行编程模型与
原创力文档


文档评论(0)