MapReduce简介IntroductiontoMapReduce-国立联合大学.PDF

MapReduce简介IntroductiontoMapReduce-国立联合大学.PDF

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MapReduce简介IntroductiontoMapReduce-国立联合大学.PDF

MapReduce簡介 Introduction to MapReduce 巨量資料技術與應用 Big Data Technologies and Applications 國立聯合大學 資訊管理學系 陳士杰老師 國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰) 國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰) 大綱 概述 MapReduce體系結構 MapReduce工作流程 實例分析:WordCount MapReduce的具體應用 MapReduce程式設計實踐 2 國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰) 國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰) 概述 分散式並行程式設計 MapReduce模型簡介 Map和Reduce函數 3 國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰) 國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰) 分散式並行程式設計 • “摩爾定律”, CPU性能大約每隔18個月翻一番 • 從2005年開始摩爾定律逐漸失效(硬體設計上的瓶頸) ,然 而需要處理的資料量快速增加,所以人們開始借助於分散 式並行程式設計來提高程式性能 • 分散式程式執行在大規模電腦集群上,可以並存執行大規 模資料處理任務,從而獲得海量的計算能力 • Google公司最先提出了分散式並行程式設計模型 MapReduce,Hadoop MapReduce是它的開源實作,後 者比前者使用門檻低很多 4 國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰) 國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰) 問題 :在MapReduce出現之前,已經有像MPI這樣非常成 熟的平行計算框架了,那麼為什麼Google還需要 MapReduce?MapReduce相較於傳統的平行計算框架有 什麼優勢? 傳統平行計算框架 MapReduce 集群架構/容錯性 共用式(共用記憶體/共用儲存),擴 非共用式,易擴展/容錯性好 展不易/容錯性差 硬體/價格/擴展性 刀鋒伺服器、高速網、SAN/價格 普通PC機/便宜/擴展性好(橫向 貴/擴展性差(縱向擴展) 擴展) 程式設計/學習難度 what-how/難 What/簡單 適用場景 即時、細節性計算、計算密集型 批次處理、非即時、資料密集型 5 國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰) 國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰) MapReduce模型簡介 • MapReduce將複雜的、執行於大規模集群上的平行計算過程設計成 兩個函數:Map和Reduce • 程式設計容易,不需要掌握分散式並行程式設計細節,也可以很容易 把自己的程式執行在分散式系統上,完成海量資料的計算 • MapReduce採用“切割征服”策略,一個儲存在分散式檔案系統中 的大規模資料集,會被切割成許多獨立的片段(split),這些片段可以

文档评论(0)

shiyouguizi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档