- 1、本文档共109页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[互联网]Ch1-并行计算技术概述
为什么需要海量数据并行处理技术? 海量数据处理对未来技术和人才的需求 IDC研究报告《Data Universe Study》 “Over the next decade, the number of servers worldwide will grow by a factor of 10 the amount of information managed by enterprise datacenters will grow by a factor of 50 and the number of files the datacenter will have to deal with will grow by a factor of 75, at least. Meanwhile, the number of IT professionals in the world will grow by less than a factor of 1.5.” “As a result, the skills, experience, and resources to manage all these bits of data will become scarcer and more specialized, requiring a new, flexible, and scalable IT infrastructure, extending beyond the enterprise. Today we call it cloud computing.” IDC Report“Extracting Value from Chaos”, June 2011 海量数据并行处理技术简介 为什么需要海量数据并行处理技术? 海量数据隐含着更准确的事实 信息检索、自然语言理解和机器学习的三个要素: 数据,特征,与算法 2001, Banko and Brill 发表了一篇自然语言领域的经典研究论文,探讨训练数据集大小对分类精度的影响,发现数据越大,精度越高;更有趣的发现是,他们发现当数据不断增长时,不同算法的分类精度趋向于相同,使得小数据集时不同算法在精度上的差别基本消失! 结论引起争论:算法不再要紧,数据更重要!不再需要研究复杂算法,找更多数据就行了! 海量数据并行处理技术简介 为什么需要海量数据并行处理技术? 海量数据隐含着更准确的事实 2001年,一个基于事实的简短问答研究, 如提问:Who shot Abraham Lincoln?在很大的数据集时,只要使用简单的模式匹配方法,找到在“shot Abraham Lincoln”前面的部分即可快速得到准确答案:John Wilkes Booth 2007, Brants et al. 描述了一个基于2万亿个单词训练数据集的语言模型,比较了当时最先进的Kneser-Ney smoothing 算法与他们称之为“stupid backoff “ (愚蠢退避)的简单算法,最后发现,后者在小数据集时效果不佳,但在大数据集时,该算法最终居然产生了更好的语言模型! 结论:大数据集上的简单算法能比小数据集上的复杂算法产生更好的结果! 海量数据并行处理技术简介 为什么需要海量数据并行处理技术? 海量数据隐含着更准确的事实 IBM 智力竞赛机器人Watson收集了2亿页 知识文本数据,并基于HadoopMapReduce 并行处理集群进行数据分析,可在1秒内 完成对大量非结构化信息的检索 海量数据并行处理技术简介 为什么需要MapReduce? 并行计算技术和并行程序设计的复杂性 依赖于不同类型的计算问题、数据特征、计算要求、和系统构架,并行计算技术较为复杂,程序设计需要考虑数据划分,计算任务和算法划分,数据访问和通信同步控制,软件开发难度大,难以找到统一和易于使用的计算框架和编程模型与工具 海量数据处理需要有效的并行处理技术 海量数据处理时,依靠MPI等并行处理技术难以凑效 MapReduce是目前面向海量数据处理最为成功的技术 MapReduce是目前业界和学界公认的最为有效和最易于使用的海量数据并行处理技术,目前尚无其它更有效的技术 Google,Yahoo,IBM,Amazon,百度等国内外公司普遍使用 Google:超过7千个程序基于MapReduce开发! 海量数据并行处理技术简介 MapReduce简介 问题与需求:如何对巨量的Web文档建立索引、根据网页链接计算网页排名,从上百万文档中训练垃圾邮件过滤器,运行气象模拟,数十亿字符串的排序? 解决方案:如果你想学习如果编写程序完成这些巨量数据的处理问题,MapReduce将为你提供一
您可能关注的文档
- [临床医学]卡美书城分析报告.ppt
- [临床医学]免疫:第十六章 免疫调节.ppt
- [临床医学]医院感染暴发及其处置.ppt
- [临床医学]口服抗菌药物合理用药顺序.ppt
- [临床医学]危重病人的安全转运.ppt
- [临床医学]呼吸支持.ppt
- [临床医学]台北某医院处方集.pdf
- [临床医学]固定剂量复合制剂与结核病治疗 岳冀201010.ppt
- [临床医学]呼吸系统疾病病人护理2.ppt
- [临床医学]外科休克病人的护理.ppt
- 在2025年全市“十五五”市级重点专项规划编制工作座谈会上的讲话提纲.docx
- 在2025年市委“十五五”规划编制工作专题会议上的讲话.docx
- 2025年乡纪委书记巡察整改专题民主生活会个人发言提纲.docx
- 在2025年下半年党建、党风廉政建设意识形态工作会上的讲话.docx
- 市委副书记在党外人士座谈会上的讲话.docx
- 副市长在全市军转干部代表座谈会上的讲话.docx
- 交流发言:以学铸魂、以做践行、以改提质,全力打造模范机关.docx
- 国有企业关于2025年上半年工作总结及下半年工作计划.docx
- 小学一年级秋季新学期开学家长会小学新生入学须知PPT.pptx
- 暑假教师培训教育政策宣讲会汇报教育政策解读培训PPT.pptx
文档评论(0)