- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据系统基础与核心技术
河海大学计算机与信息学院
毛莺池
YINGCHIMAO@HHU.EDU.CN
大数据系统基础与核心技术
第三部分大数据处理框架
提纲
并行计算技术简介
MapReduce介绍
MapReduce基础构架
MapReduce实例
MapReduce调优
并行计算技术简介
为什么需要并行技术?
贯穿整个计算机技术发展的核心目标:提高计算性能!
Intel
微处理器
每秒
1千8百亿次
浮点运算!
近20 年性能
提高3千多倍
提高计算机性能的方案
提高处理器字长:
Intel:71年的4bits到05年的64bits
提高集成度:
摩尔定律:芯片集成度每18个月翻一倍,计算
性能提高一倍
流水线等微体系结构技术
指令级并行(instruction-Level
Parallelism)
RISK结构
五级流水线
……
提高计算机性能的方案
提升处理器频率:(1990s-2004)
所有这些技术
极大地提高了
微处理器的计
算性能
但2004后处理
器的性能不再
像人们预期的
那样提高
单核处理
器性能提
升接近极
限!
计算规模和复杂度大幅提高
爆炸性增长的Web规模数据量
Google从2004年每天处理100TB数据到2008年每天处理
20PB
2009年eBays数据仓库,一个有2PB用户数据,另一个
6.5PB用户数据包含170TB记录且每天增长150GB个记录
;Facebook:2.5PB用户数据,每天增加15TB
世界最大电子对撞机每年产生15PB(1千5百万GB)数据
2015年落成的世界最大观天望远镜主镜头像素为3.2G
,每年将产生6PB天文图像数据;
欧洲生物信息研究中心(EBI)基因序列数据库容量已达
5PB;中国深圳华大基因研究所成为全世界最大测序中
心,每天产生300GB基因序列数据(每年100TB)
计算规模和复杂度大幅提高
超大的计算量/计算复杂度
用SGI工作站进行电影渲染时,每帧一般需要1~2小时
一部2小时的电影渲染需要:
2小时x3600秒x24帧x(1~2小时)/24小时=20~40年!
特殊场景每帧可能需要60个小时(影片 “星舰骑兵”中数
千只蜘蛛爬行的场面),用横向4096象素分辨率进行渲染
时,如果以每帧60个小时的速度,则1秒的放映量 (24帧
)
原创力文档


文档评论(0)