1-大数据技术架构探索.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一課:大數據技術架構解析 陳海燕 2016.10.24 整理 目錄 一、大數據建設思路 一、大數據建設思路 大數據數量龐大,格式多樣化。大量數據由家庭、製造工廠和辦公場所的各種設備、互聯網事務交易、社交網路的活動、自動化感測器、移動設備以及科研儀器等生成。它的爆炸式增長已超出了傳統IT基礎架構的處理能力,給企業和社會帶來嚴峻的資料管理問題。因此必須開發新的資料架構,圍繞“數據收集、數據管理、數據分析、知識形成、智慧行動”的全過程,開發使用這些資料,釋放出更多數據的隱藏價值。 1.數據的獲得 1.數據的獲得 大數據產生的根本原因在於感知式系統的廣泛使用。隨著技術的發展,人們已經有能力製造極其微小的帶有處理功能的感測器,並開始將這些設備廣泛的佈置於社會的各個角落,通過這些設備來對整個社會的運轉進行監控。這些設備會源源不斷的產生新資料,這種數據的產生方式是自動的。因此在數據收集方面,要對來自網路包括物聯網、社交網路和機構資訊系統的資料附上時空標誌,去偽存真,盡可能收集異源甚至是異構的數據,必要時還可與歷史數據對照,多角度驗證數據的全面性和可信性。 2.數據的匯集和存儲 數據只有不斷流動和充分共用,才有生命力。應在各專用數據庫建設的基礎上,通過數據集成,實現各級各類資訊系統的數據交換和數據共用。數據存儲要達到低成本、低能耗、高可靠性目標,通常要用到冗餘配置、分佈化和雲計算技術,在存儲時要按照一定規則對數據進行分類,通過過濾和去重,減少存儲量,同時加入便於日後檢索的標籤。 3.數據的管理 大數據管理的技術也層出不窮。在眾多技術中,有6種數據管理技術普遍被關注,即分散式存儲與計算、記憶體數據庫技術、列式數據庫技術、雲數據庫、非關聯式的數據庫、移動數據庫技術。其中分散式存儲與計算受關注度最高。左圖是一個圖書數據管理系統。 4.數據的分析 數據分析處理:有些行業的數據涉及上百個參數,其複雜性不僅體現在數據樣本本身,更體現在多源異構、多實體和多空間之間的交互動態性,難以用傳統的方法描述與度量,處理的複雜度很大,需要將高維圖像等多媒體資料降維後度量與處理,利用上下文關聯進行語義分析,從大量動態而且可能是模棱兩可的數據中綜合資訊,並匯出可理解的內容。 大數據的處理類型: 批次處理--先存儲後處理 流處理--直接處理數據 數據挖掘的任務: 關聯分析 聚類分析 分類 預測 時序模式 偏差分析 5.大數據的價值:決策支持系統DDS 大數據的神奇之處就是通過對過去和現在的數據進行分析,它能夠精確預測未來;通過對組織內部的和外部的數據整合,它能夠洞察事物之間的相關關係;通過對海量數據的挖掘,它能夠代替人腦,承擔起企業和社會管理的職責。 6.數據的使用 大數據有三層內涵: 數據量巨大、來源多樣和類型 多樣的數據集; 新型的數據處理和分析技術; 運用數據分析形成價值。 大數據對科學研究、經濟建設、社會發展和文化生活等各個領域正在產生革命性的影響。大數據應用的關鍵,也是其必要條件,就在於IT與經營的融合,當然,這裡的經營的內涵可以非常廣泛,小至一個零售門店的經營,大至一個城市的經營。 二.大數據基本架構 基於上述大數據的特徵,通過傳統IT技術存儲和處理大數據成本高昂。 一個企業要大力發展大數據應用首先需要解決兩個問題:一是低成本、快速地對海量、多類別的數據進行抽取和存儲;二是使用新的技術對數據進行分析和挖掘,為企業創造價值。因此,大數據的存儲和處理與雲計算技術密不可分,在當前的技術條件下,基於廉價硬體的分散式系統(如Hadoop等)被認為是最適合處理大數據的技術平臺。 Hadoop是一個分散式的基礎架構,能夠讓用戶方便高效地利用運算資源和處理海量數據,目前已在很多大型互聯網企業得到了廣泛應用,如亞馬遜、Facebook和Yahoo等。其是一個開放式的架構,架構成員也在不斷擴充完善中。 1. Hadoop體系架構 Thrift是一個軟體框架,用來進行可擴展且跨語言的服務的開發,最初由Facebook開發,是構建在各種程式設計語言間無縫結合的、高效的服務。 Zookeeper在Hadoop架構中負責應用程式的協調工作,以保持Hadoop集群內的同步工作。 Sqoop是為資料的互通性而設計,可以從關聯式資料庫導入資料到Hadoop,並能直接導入到HDFS或Hive。 Hive是Hadoop架構中的數據倉庫,主要用於靜態的結構以及需要經常分析的工作。Hbase主要作為面向列的數據庫運行在HDFS上,可存儲PB級的數據。Hbase利用MapReduce來處理內部的海量數據,並能在海量數據中定位所需的數據且訪問它。 Hadoop的核心是MapReduce(映射和化簡編程模型)引擎,Ma

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档