1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop 簡介 Hadoop 簡介 王耀聰 陳威宇 Jazz@.tw waue@.tw 2008. 04 . 27-28 國家高速網路與計算中心(NCHC) Outline 什麼是 Hadoop ? 有什麼特色? 怎麼來的呢? 有誰在用? 有實用案例嗎? Hadoop ? Hadoop 以Java開發 自由軟體 上千個節點 Petabyte等級的資料量 創始者 Doug Cutting 為Apache 軟體基金會的 top level project 特色 巨量 擁有儲存與處理大量資料的能力 經濟 可以用在由一般PC所架設的叢集環境內 效率 籍由平行分散檔案的處理以致得到快速的回應 可靠 當某節點發生錯誤,系統能即時自動的取得備份資料以及佈署運算資源 起源:2002-2004 Lucene 用Java設計的高效能文件索引引擎API 索引文件中的每一字,讓搜尋的效率比傳統逐字比較還要高的多 Nutch nutch是基於開放原始碼所開發的web search 利用Lucene函式庫開發 起源:Google論文 Google File System 可擴充的分散式檔案系統 設計目的在於可以給大量的用戶提供總體性能較高的服務 適用於分散式、對大量資訊進行存取的應用 可運作在一般的普通主機上,且提供錯誤容忍的能力 “The Google File System“ 發表於SOSP 03 October,並將設計的概念公開 起源:Google論文 Google’s GFS MapReduce papers published: SOSP 2003 : “The Google File System” OSDI 2004 : “MapReduce : Simplifed Data Processing on Large Cluster” OSDI 2006 : “Bigtable: A Distributed Storage System for Structured Data” directly address Nutchs scaling issues 起源:2004~ Dong Cutting 開始參考論文來實做 Added DFS MapReduce implement to Nutch Nutch 0.8版之後,Hadoop為獨立項目 Yahoo 於2006年僱用Dong Cutting 組隊專職開發 Team member = 14 (engineers, clusters, users, etc. ) 誰在用Hadoop Yahoo 為最大的贊助商 IBM 與 Google 在大學開授雲端課程的主要內容 Hadoop on Amazon Ec2/S3 More…: Hadoop於yahoo的運作資訊 Hadoop於yahoo的部屬情形 Hadoop於yahoo的部屬情形 Hadoop 與google的對應 開始動手吧 * 自由軟體實驗室 * Hadoop is a software platform that lets one easily write and run applications that process vast amounts of data 什麼是 Hadoop 什麼是 Hadoop 有什麼特色 有什麼特色 怎麼 來的 /pubs/papers.html 怎麼 來的 怎麼 來的 有誰 在用 Sort benchmark, every nodes with terabytes data. 實用案例 資料標題:Yahoo! Launches Worlds Largest Hadoop Production Application 資料日期:February 19, 2008 實用案例 4000 Total Nodes 30000 Total cores 16PB Data 資料標題:Scaling Hadoop to 4000 nodes at Yahoo! 資料日期:September 30, 2008 66 40 18 5.8 avg. throughput (MB/s) 4 4 2 2 tasks per node 5,040,000 5,040,000 316,800 316,800 total MB processes 360 360 320 320 file size (MB) 14,000 14,000 990 990 number of files read write read write ? 4000-node cluster 500-node cluster ? 實用案例 Linux / GPL Linux OS nu

文档评论(0)

yyh892289 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档