004mapreduce相关总结报告.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
004mapreduce相关总结报告整理ppt

Cs.bit.edu.cn cs.bit.edu.cn 2013年5月11日 阅读的几篇文章题目 MapReduce for Data Intensive Scientific Analyses Matchmaking: A New MapReduce Scheduling Supporting HPC Analytics Applications with Access Patterns Using Data Restructuring and Data-Centric Scheduling Techniques in MapReduce 论文主要内容回顾 ---MapReduce for Data Intensive Scientific Analyses 科学分析的大部分科学数据由从各种仪器收集的大量数据组成。高效的并行算法和框架是进行这些科学数据分析的可扩展性和性能要求的关键。最近推出的MapReduce的技术,已经获得科学界对其在大型并行数据分析的适用性方面的很多关注。虽然已经有很多MapReduce技术用作大型文本数据收集的评价,但是只有少数对其用作科学数据分析的评价。本文的两个目标是:第一,介绍我们使用MapReduce技术进行两个科学数据分析(高能物理数据分析; Kmeans clustering )的经验。第二,我们提出一种基于流的CGL-MapReduce,并比较其与Hadoop MapReduce的性能。 Authers: Jaliya Ekanayake, Shrideep Pallickara, and Geoffrey Fox Department of Computer Science Indiana University Bloomington, USA {jekanaya, spallick, gcf}@indiana.edu CGL-MapReduce 是一个新颖的使用数据流的MapReduce环境,它可以消除通过文件系统通信的开销。 CGL-MapReduce通过使用数据流可以直接将结果从生产者发送到消费者。 文中的CGL-MapReduce没有HDFS,用NFS做文件系统。支持单级和MapReduce迭代。 论文主要内容回顾 ---MapReduce for Data Intensive Scientific Analyses 论文主要内容回顾 ---MapReduce for Data Intensive Scientific Analyses Stages of CGL-MapReduce 结论: 对于大部分基于SMPD算法的科学数据分析可以获得加速和可扩展性 当数据量和计算量加大时运行时间相对减少了 对于紧耦合的应用如果设置合适的数据大小和有效的运行时间,则可收益。 论文主要内容回顾 ---MapReduce for Data Intensive Scientific Analyses 论文主要内容回顾 ---Matchmaking: A New MapReduce Scheduling Technique MapReduce是一个强大的的用于大规模数据处理的平台。为了实现良好的性能,MapReduce的调度可通过提高数据局部性(即放置任务于有任务相关数据的节点上)避免不必要的数据传输。 本文开发了一种新的MapReduce调度技术来提高map任务的数据局部性。通过把这个技术引入Hadoop默认的FIFO调度和Hadoop公平调度并与没有使用作者提出的技术的MapReduce调度算法进行了比较,并与现有的数据局部性增强技术(即由Facebook开发的延迟算法)进行了比较。 实验结果表明,作者提出的技术往往会取得最高的数据局部性比率和最低的响应时间。此外,新的调度算法不需要延迟算法那样复杂的参数调整。 MATCHMAKING 调度算法:主要思想是在没有任何任务分配给从结点之前给每个从结点公平的机会获得本地任务,通过算法找到有数据输入的从结点。 第一:matchmaking 算法在task分配时不严格遵守job 顺序。如果一个本地task(即操作数据由本结点输入)不在第一个job里,那么调度算法会在第二个job里寻找. 第二,为了使每一个从结点有公平的获取本地task的机会,当一个从结点在第一次在job队列里找不到到本地task时,这点结点将在heartbeat interval里没有task可做. 当这个结点第二次还获取不到本地任务时,为了避免浪费计算资源, matchmaking 算法将分配一个non-local task给这个结点。 这样,算法不仅获得高的数据局部性比率还可以获得高的集群利用率。

文档评论(0)

zyzsaa + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档