大数据系统基础与核心技术-河海大学.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据系统基础与核心技术 河海大学计算机与信息学院 毛莺池 YINGCHIMAO@HHU.EDU.CN 大数据系统基础与核心技术 第三部分大数据处理框架 提纲 并行计算技术简介 MapReduce介绍 MapReduce基础构架 MapReduce实例 MapReduce调优 并行计算技术简介 为什么需要并行技术? 贯穿整个计算机技术发展的核心目标:提高计算性能! Intel 微处理器 每秒 1千8百亿次 浮点运算! 近20 年性能 提高3千多倍 提高计算机性能的方案 提高处理器字长: Intel:71年的4bits到05年的64bits 提高集成度: 摩尔定律:芯片集成度每18个月翻一倍,计算 性能提高一倍 流水线等微体系结构技术 指令级并行(instruction-Level Parallelism) RISK结构 五级流水线 …… 提高计算机性能的方案 提升处理器频率:(1990s-2004) 所有这些技术 极大地提高了 微处理器的计 算性能 但2004后处理 器的性能不再 像人们预期的 那样提高 单核处理 器性能提 升接近极 限! 计算规模和复杂度大幅提高 爆炸性增长的Web规模数据量 Google从2004年每天处理100TB数据到2008年每天处理 20PB 2009年eBays数据仓库,一个有2PB用户数据,另一个 6.5PB用户数据包含170TB记录且每天增长150GB个记录 ;Facebook:2.5PB用户数据,每天增加15TB 世界最大电子对撞机每年产生15PB(1千5百万GB)数据 2015年落成的世界最大观天望远镜主镜头像素为3.2G ,每年将产生6PB天文图像数据;  欧洲生物信息研究中心(EBI)基因序列数据库容量已达 5PB;中国深圳华大基因研究所成为全世界最大测序中 心,每天产生300GB基因序列数据(每年100TB) 计算规模和复杂度大幅提高 超大的计算量/计算复杂度 用SGI工作站进行电影渲染时,每帧一般需要1~2小时 一部2小时的电影渲染需要: 2小时x3600秒x24帧x(1~2小时)/24小时=20~40年! 特殊场景每帧可能需要60个小时(影片 “星舰骑兵”中数 千只蜘蛛爬行的场面),用横向4096象素分辨率进行渲染 时,如果以每帧60个小时的速度,则1秒的放映量 (24帧 )

文档评论(0)

zhuwo + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档