- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop丛集布建初探-以hiCloud为例
Hadoop 叢集佈建初探 - 以 hiCloud 為例
國家高速網路與計算中心 王耀聰 副研究員
用Hadoop打造您專屬的SMAQ資訊架構
隨著資訊科技的快速演進,我們每天產生數量眾多的數位文件、圖片、音樂跟影片等。根據EMC委託IDC對數位宇宙(Digital Universe)的研究報告指出,2007年全球人類所產生的資料量已經遠超過全球所有儲存設施的總容量,意味著我們已經進入資料大爆炸(Data Explosion)的時代。2011年數位宇宙的總容量更高達1.8 ZB(Zetabyte, 109 TB),因此2012年可以稱為「巨量資料(Big Data)」的元年。
根據Gartner CIO Agenda 2012的調查,2012年最重要的三大資訊科技分別為「商業智慧(Bussiness Intelligence,BI)」、「行動科技(Mobile Technology)」與「雲端運算(Cloud Computing)」。事實上商業智慧早在Gartner CIO Agenda 2009就名列第一名,為何四年後捲土重來?那是因為要達成商業智慧之前,企業必須先具備處理巨量資料的資訊架構,也就是2010年6月Edd Dumbill 於「The SMAQ stack for big data」一文中提出的SMAQ架構。
SMAQ架構說明了處理巨量資料須具備儲存(Storage)、平行運算(MApReduce)與查詢(Query)三層資訊架構。其中,儲存層用來儲存分散而沒有關聯(Non-relational) 的非結構化資料 (unstructured data),平行運算層採用谷歌提出的MapReduce演算法,將龐大的非結構化資料轉化成結構化資料(資訊,Information),並且將結構化資料儲存到查詢層的資訊系統,如資料庫、資料倉儲等。
透過SMAQ資訊架構,企業還再次將資料倉儲的龐大資料經過MapReduce運算,運用統計的方法,找出重複出現的經驗法則(知識,Knowledge)。企業有了這些經驗法則,才能夠進一步對充滿變數的未來進行預測,最後形成某種智慧(Wisdom)。十年前知識管理專家所提出的DIKW模型(Data、Information、Knowledge、Wisdom),如今終於在資訊系統中獲得了具體的實現。
Hadoop這套自由軟體實現了類似Google File System的儲存層,提供給企業一個具備彈性擴充的儲存設施;其次它也實作了MapReduce演算法,並且將谷歌的在地運算(Data Locality)精神融入Hadoop的核心設計中,大幅降低了資料搬運的時間與頻寬成本。此外,建構於Hadoop之上,存在著HBase分散式資料庫與Hive資料倉儲等查詢層軟體。
因此,透過導入Hadoop生態系相關軟體元件,能提供貴單位符合SMAQ的資訊架構。像Yahoo、Facebook、Tweeter、LinkedIn、Joost等均已採用Hadoop當背後的支援火力。連Oracle、Microsoft SQL Server都提供Hadoop的資料庫連結元件,足見業界對於Hadoop的重視。
Hadoop經過七年的開發,阿帕契軟體基金會(Apache Software Foundation)終於在2012年3月釋出1.0.1版本,其重點在於安全性的改良以及對HBase有更好的支援。此外1.0版也算是Hadoop成熟到能支持企業營運任務的重大里程碑。即便如此,目前Hadoop最令人望之怯步的關鍵點在於「不夠友善」。筆者自2009年起便在台灣推動Hadoop使用者社群(http://www.hadoop.tw),經營Hadoop論壇(http://forum.hadoop.tw),但初學者往往第一個要面對的問題是缺乏佈建Hadoop叢集所需的背景知識,如Linux、Java語言等。因此,撰寫本文讓更多資訊從業人員得以從實例操作中,學習如何使用Hadoop生態系。
Hadoop單機版初探 – Windows 版
根據hadoop官方文件的建議,Hadoop最佳營運案例主要是在Linux作業系統底下運行。但在台灣,多數資訊從業人員仍以Windows為主要的作業系統。筆者為了降低各位學習Hadoop的門檻,撰寫了一套名為Hadoop4Win的懶人包安裝程式。目前在Windows XP與Windows 2000環境下測試正常,至於Windows 7環境下目前因為安全性權限較嚴格,不易安裝成功,因此這次我們以Windows XP環境來做示範。
首先,請到 HYPERLINK .tw/.tw或 HYPERLINK /下載0.1.5版本的hadoop4win完整安裝檔。Hadoop4win
您可能关注的文档
- -国立云林科技大学智慧商务中心.DOC
- 2006中国通信标准化协会科学技术奖-中国通信标准化协会邮件.DOC
- 2008年全国中学生英语能力竞赛决赛-泉州五中.DOC
- 2009一月读书会为什么小女孩的火柴卖不掉写-静宜大学资讯学院.PPT
- 2012015学年江西抚州金溪二中八年级下期中生物试卷B卷.DOC
- 2013上海徐汇区斜土街道信息公开报告.DOC
- 2013—2015年南宁电子信息产业重点项目计划表.DOC
- 2013年乌鲁木齐初中毕业生学业水平测试化学物理试卷问卷.DOC
- 2013年中考必背化学方程式归类总结六大类.DOC
- 2013年莲都区农业生产相关.DOC
- HC-11434MHz无线串口模块-蓝牙模块蓝牙串口模块无线模块HC.PDF
- HBase在贝壳找房的实践经验-HBase技术社区.PDF
- II型SMA-橡胶隔震支座及其理论模型-世界地震工程-地震工程与工程.PDF
- HCUGuitarInFutureTogether玄奘大学民歌吉他社.PDF
- KWGGROUPHOLDINGSLIMITED合景泰富集团-合景泰富地产.PDF
- LivingSuranceClaimForm生活万全保赔偿申请书-Hsbc.PDF
- LucySandersNCWIT创始人兼首席执行官.PPT
- MATLAB已经成为线性代数自动控制理论-Read.PPT
- NetForum-中国高等教育两枝独秀外名牌大学的矮化秋风.DOC
- i多萤功能-数位天空有线电视.PDF
最近下载
- 四川盆地课件.ppt VIP
- 初中信息技术教材解读 九年级下第二章 物联网.pptx VIP
- 【人教新版】七上第三章 第二节 《世界的地形》教学课件.pptx VIP
- 第7课 三国两晋南北朝时期的科技与文化(课件)-【中职专用】《中国历史》(高教版2023基础模块).pptx VIP
- DB50∕T 1786-2025 门诊安宁疗护服务规范.pdf
- 《蒙牛企业介绍》课件.ppt VIP
- 学生的学习风格.ppt VIP
- 9706.1有源医疗器械检测用-GB_T 42062-2022风险管理报告.docx VIP
- 苯甲苯冷凝器工艺设计(课程设计).doc VIP
- 8、第八单元习作:我的心儿怦怦跳(教学课件)四年级语文上册单元作文(统编版).pptx VIP
原创力文档


文档评论(0)