- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MapReduce简介IntroductiontoMapReduce-国立联合大学.PDF
MapReduce簡介
Introduction to MapReduce
巨量資料技術與應用
Big Data Technologies and Applications
國立聯合大學 資訊管理學系 陳士杰老師
國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰)
國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰)
大綱
概述
MapReduce體系結構
MapReduce工作流程
實例分析:WordCount
MapReduce的具體應用
MapReduce程式設計實踐
2
國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰)
國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰)
概述
分散式並行程式設計
MapReduce模型簡介
Map和Reduce函數
3
國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰)
國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰)
分散式並行程式設計
• “摩爾定律”, CPU性能大約每隔18個月翻一番
• 從2005年開始摩爾定律逐漸失效(硬體設計上的瓶頸) ,然
而需要處理的資料量快速增加,所以人們開始借助於分散
式並行程式設計來提高程式性能
• 分散式程式執行在大規模電腦集群上,可以並存執行大規
模資料處理任務,從而獲得海量的計算能力
• Google公司最先提出了分散式並行程式設計模型
MapReduce,Hadoop MapReduce是它的開源實作,後
者比前者使用門檻低很多
4
國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰)
國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰)
問題 :在MapReduce出現之前,已經有像MPI這樣非常成
熟的平行計算框架了,那麼為什麼Google還需要
MapReduce?MapReduce相較於傳統的平行計算框架有
什麼優勢?
傳統平行計算框架 MapReduce
集群架構/容錯性 共用式(共用記憶體/共用儲存),擴 非共用式,易擴展/容錯性好
展不易/容錯性差
硬體/價格/擴展性 刀鋒伺服器、高速網、SAN/價格 普通PC機/便宜/擴展性好(橫向
貴/擴展性差(縱向擴展) 擴展)
程式設計/學習難度 what-how/難 What/簡單
適用場景 即時、細節性計算、計算密集型 批次處理、非即時、資料密集型
5
國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰)
國立聯合大學 資訊管理學系 巨量資料課程 (陳士杰)
MapReduce模型簡介
• MapReduce將複雜的、執行於大規模集群上的平行計算過程設計成
兩個函數:Map和Reduce
• 程式設計容易,不需要掌握分散式並行程式設計細節,也可以很容易
把自己的程式執行在分散式系統上,完成海量資料的計算
• MapReduce採用“切割征服”策略,一個儲存在分散式檔案系統中
的大規模資料集,會被切割成許多獨立的片段(split),這些片段可以
您可能关注的文档
最近下载
- 小学科学人教鄂教版六年级下册第一单元《生物与环境》教案(2023春.pdf VIP
- 人教鄂教版科学六年级下册第一单元生物与环境单元教案.pdf VIP
- 一例高血压患者的护理个案.docx VIP
- 青岛版六年级下册科学《生物与环境》大单元教学方案与反思.docx VIP
- 甘肃《建筑抗震加固工程消耗量定额》.pdf
- 高中英语1.5万考点.pptx VIP
- 新人教鄂教版六年级下册科学第一单元《生物与环境》全单元课件.pptx VIP
- CFMOTO春风动力450SR S CF400-9(6AQV-380101-3000-11 CN233)摩托车使用手册.pdf
- 水电站砂石系统施工组织设计(221页).docx VIP
- 2024新人教版初中英语七年级下册重点知识点归纳(复习必背).pdf VIP
文档评论(0)