- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;课程要求;课程特色;大数据技术趋势分析;内容提要;章节安排;;
互联网应用数据急剧增长
互联网用户数量巨大,日益活跃
? 互联网用户在微博、论坛、电子商务
等网站上日复一日地生成数据
淘宝网每天新增数据40TB以上
百度每天处理10PB量级的数据,
总数据量达1000PB;应用背景;;
? 科学实验数据规模巨大,增长迅猛
生物工程
气候监测
高能物理
天文观测
生态环境
….
;;
? 维基(Wiki)百科的定义
Big data is a collection of data sets so large and complex that it
becomes difficult to process using on-hand database management tools
? IDC的定义
Big data technologies describe a new generation of technologies and
architectures, designed to economically extract value from very large
volumes of a wide variety of data, by enabling high-velocity capture,
discovery, and/or analysis.
;典型的大数据应用实例;典型的大数据应用实例;? Volume:规模大
从PB级到ZB级
? Variety:多样化
结构化、非结构化
例如:文本、图像、视频等
? Velocity:变化快
实时流数据等
? Value/ Veracity:价值稀疏 /数据质量
噪音和无用信息很多;? 大数据技术对经济社会和科研都在产生重
要影响
– 经济社会;;? 2012年3月29日,美国政府宣布投资2亿
美元启动“大数据研发计划”
( Big Data RD Initiative )
美国NSF、国防部、能源部、卫生总署等七部委
? 我国科技部和基金委等部门高度重视
新立973/863/重点研发计划项目n项
? 国内外学术界的热点课题
SIGMOD、 VLDB、OSDI、NSDI等著名会议
Nature、Science杂志;;
? 如何设计高可扩展、低成本、快速响应的大数据存储和处理系统?;;;;;;
? 典型的数据并行处理平台:MapReduce;;;;You can have at most two of these
properties for any distributed system
;分布式系统CAP定理; 为什么牺牲数据一致性?
牺牲P、A对互联网上的大数据
应用来说难以容忍;;大数据处理平台关键技术;第二章:大数据处理平台MapReduce及编程
;;简单的问题,计算并不简单!;MapReduce:大规模数据处理;“实践是检验真理的唯一标准”;MapReduce编程模型;map;reduce;MapReduce示例:单词计数;MapReduce示例:单词计数;MapReduce示例:单词计数;MapReduce示例:单词计数;MapReduce示例:单词计数;MapReduce示例:单词计数;其他示例;MapReduce的体系结构;MapReduce的体系结构;MapReduce的体系结构;MapReduce逻辑工作流程概述;MapReduce系统工作流程概述;MapReduce的Split(分片);MapReduce的Shuffle过程简介;Map端的Shuffle过程;Reduce端的Shuffle过程;应用程序在MapReduce上的执行过程;MapReduce课外实践
文档评论(0)