[互联网]Ch1-并行计算技术概述.ppt

下载文档 降价啦

5
0
约3万字
约 109页
2018-02-17 发布于浙江
举报
版权申诉
保障服务

[互联网]Ch1-并行计算技术概述.ppt

1、本文档共109页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[互联网]Ch1-并行计算技术概述

为什么需要海量数据并行处理技术？海量数据处理对未来技术和人才的需求 IDC研究报告《Data Universe Study》 “Over the next decade, the number of servers worldwide will grow by a factor of 10 the amount of information managed by enterprise datacenters will grow by a factor of 50 and the number of files the datacenter will have to deal with will grow by a factor of 75, at least. Meanwhile, the number of IT professionals in the world will grow by less than a factor of 1.5.” “As a result, the skills, experience, and resources to manage all these bits of data will become scarcer and more specialized, requiring a new, flexible, and scalable IT infrastructure, extending beyond the enterprise. Today we call it cloud computing.” IDC Report“Extracting Value from Chaos”, June 2011 海量数据并行处理技术简介为什么需要海量数据并行处理技术？海量数据隐含着更准确的事实信息检索、自然语言理解和机器学习的三个要素：数据，特征，与算法 2001, Banko and Brill 发表了一篇自然语言领域的经典研究论文，探讨训练数据集大小对分类精度的影响，发现数据越大，精度越高；更有趣的发现是，他们发现当数据不断增长时，不同算法的分类精度趋向于相同，使得小数据集时不同算法在精度上的差别基本消失！结论引起争论：算法不再要紧，数据更重要！不再需要研究复杂算法，找更多数据就行了！海量数据并行处理技术简介为什么需要海量数据并行处理技术？海量数据隐含着更准确的事实 2001年,一个基于事实的简短问答研究, 如提问:Who shot Abraham Lincoln？在很大的数据集时,只要使用简单的模式匹配方法,找到在“shot Abraham Lincoln”前面的部分即可快速得到准确答案：John Wilkes Booth 2007, Brants et al. 描述了一个基于2万亿个单词训练数据集的语言模型，比较了当时最先进的Kneser-Ney smoothing 算法与他们称之为“stupid backoff “ (愚蠢退避)的简单算法,最后发现,后者在小数据集时效果不佳，但在大数据集时，该算法最终居然产生了更好的语言模型！结论：大数据集上的简单算法能比小数据集上的复杂算法产生更好的结果！海量数据并行处理技术简介为什么需要海量数据并行处理技术？海量数据隐含着更准确的事实 IBM 智力竞赛机器人Watson收集了2亿页知识文本数据,并基于HadoopMapReduce 并行处理集群进行数据分析,可在1秒内完成对大量非结构化信息的检索海量数据并行处理技术简介为什么需要MapReduce？并行计算技术和并行程序设计的复杂性依赖于不同类型的计算问题、数据特征、计算要求、和系统构架，并行计算技术较为复杂,程序设计需要考虑数据划分，计算任务和算法划分，数据访问和通信同步控制,软件开发难度大,难以找到统一和易于使用的计算框架和编程模型与工具海量数据处理需要有效的并行处理技术海量数据处理时，依靠MPI等并行处理技术难以凑效 MapReduce是目前面向海量数据处理最为成功的技术 MapReduce是目前业界和学界公认的最为有效和最易于使用的海量数据并行处理技术,目前尚无其它更有效的技术 Google,Yahoo,IBM,Amazon,百度等国内外公司普遍使用 Google:超过7千个程序基于MapReduce开发！海量数据并行处理技术简介 MapReduce简介问题与需求：如何对巨量的Web文档建立索引、根据网页链接计算网页排名，从上百万文档中训练垃圾邮件过滤器，运行气象模拟，数十亿字符串的排序？解决方案：如果你想学习如果编写程序完成这些巨量数据的处理问题，MapReduce将为你提供一