Hadoop丛集布建初探-以hiCloud为例.DOCVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop丛集布建初探-以hiCloud为例

Hadoop 叢集佈建初探 - 以 hiCloud 為例 國家高速網路與計算中心 王耀聰 副研究員 用Hadoop打造您專屬的SMAQ資訊架構   隨著資訊科技的快速演進,我們每天產生數量眾多的數位文件、圖片、音樂跟影片等。根據EMC委託IDC對數位宇宙(Digital Universe)的研究報告指出,2007年全球人類所產生的資料量已經遠超過全球所有儲存設施的總容量,意味著我們已經進入資料大爆炸(Data Explosion)的時代。2011年數位宇宙的總容量更高達1.8 ZB(Zetabyte, 109 TB),因此2012年可以稱為「巨量資料(Big Data)」的元年。   根據Gartner CIO Agenda 2012的調查,2012年最重要的三大資訊科技分別為「商業智慧(Bussiness Intelligence,BI)」、「行動科技(Mobile Technology)」與「雲端運算(Cloud Computing)」。事實上商業智慧早在Gartner CIO Agenda 2009就名列第一名,為何四年後捲土重來?那是因為要達成商業智慧之前,企業必須先具備處理巨量資料的資訊架構,也就是2010年6月Edd Dumbill 於「The SMAQ stack for big data」一文中提出的SMAQ架構。   SMAQ架構說明了處理巨量資料須具備儲存(Storage)、平行運算(MApReduce)與查詢(Query)三層資訊架構。其中,儲存層用來儲存分散而沒有關聯(Non-relational) 的非結構化資料 (unstructured data),平行運算層採用谷歌提出的MapReduce演算法,將龐大的非結構化資料轉化成結構化資料(資訊,Information),並且將結構化資料儲存到查詢層的資訊系統,如資料庫、資料倉儲等。   透過SMAQ資訊架構,企業還再次將資料倉儲的龐大資料經過MapReduce運算,運用統計的方法,找出重複出現的經驗法則(知識,Knowledge)。企業有了這些經驗法則,才能夠進一步對充滿變數的未來進行預測,最後形成某種智慧(Wisdom)。十年前知識管理專家所提出的DIKW模型(Data、Information、Knowledge、Wisdom),如今終於在資訊系統中獲得了具體的實現。   Hadoop這套自由軟體實現了類似Google File System的儲存層,提供給企業一個具備彈性擴充的儲存設施;其次它也實作了MapReduce演算法,並且將谷歌的在地運算(Data Locality)精神融入Hadoop的核心設計中,大幅降低了資料搬運的時間與頻寬成本。此外,建構於Hadoop之上,存在著HBase分散式資料庫與Hive資料倉儲等查詢層軟體。   因此,透過導入Hadoop生態系相關軟體元件,能提供貴單位符合SMAQ的資訊架構。像Yahoo、Facebook、Tweeter、LinkedIn、Joost等均已採用Hadoop當背後的支援火力。連Oracle、Microsoft SQL Server都提供Hadoop的資料庫連結元件,足見業界對於Hadoop的重視。   Hadoop經過七年的開發,阿帕契軟體基金會(Apache Software Foundation)終於在2012年3月釋出1.0.1版本,其重點在於安全性的改良以及對HBase有更好的支援。此外1.0版也算是Hadoop成熟到能支持企業營運任務的重大里程碑。即便如此,目前Hadoop最令人望之怯步的關鍵點在於「不夠友善」。筆者自2009年起便在台灣推動Hadoop使用者社群(http://www.hadoop.tw),經營Hadoop論壇(http://forum.hadoop.tw),但初學者往往第一個要面對的問題是缺乏佈建Hadoop叢集所需的背景知識,如Linux、Java語言等。因此,撰寫本文讓更多資訊從業人員得以從實例操作中,學習如何使用Hadoop生態系。 Hadoop單機版初探 – Windows 版   根據hadoop官方文件的建議,Hadoop最佳營運案例主要是在Linux作業系統底下運行。但在台灣,多數資訊從業人員仍以Windows為主要的作業系統。筆者為了降低各位學習Hadoop的門檻,撰寫了一套名為Hadoop4Win的懶人包安裝程式。目前在Windows XP與Windows 2000環境下測試正常,至於Windows 7環境下目前因為安全性權限較嚴格,不易安裝成功,因此這次我們以Windows XP環境來做示範。   首先,請到 HYPERLINK .tw/.tw或 HYPERLINK /下載0.1.5版本的hadoop4win完整安裝檔。Hadoop4win

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档