1-大数据技术架构探索.pptx

下载文档 降价啦

3
0
约3.82千字
约 23页
2017-04-02 发布于湖北
举报
版权申诉
保障服务

1-大数据技术架构探索.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第一課：大數據技術架構解析陳海燕 2016.10.24 整理目錄一、大數據建設思路一、大數據建設思路大數據數量龐大，格式多樣化。大量數據由家庭、製造工廠和辦公場所的各種設備、互聯網事務交易、社交網路的活動、自動化感測器、移動設備以及科研儀器等生成。它的爆炸式增長已超出了傳統IT基礎架構的處理能力，給企業和社會帶來嚴峻的資料管理問題。因此必須開發新的資料架構，圍繞“數據收集、數據管理、數據分析、知識形成、智慧行動”的全過程，開發使用這些資料，釋放出更多數據的隱藏價值。 1.數據的獲得 1.數據的獲得大數據產生的根本原因在於感知式系統的廣泛使用。隨著技術的發展，人們已經有能力製造極其微小的帶有處理功能的感測器，並開始將這些設備廣泛的佈置於社會的各個角落，通過這些設備來對整個社會的運轉進行監控。這些設備會源源不斷的產生新資料，這種數據的產生方式是自動的。因此在數據收集方面，要對來自網路包括物聯網、社交網路和機構資訊系統的資料附上時空標誌，去偽存真，盡可能收集異源甚至是異構的數據，必要時還可與歷史數據對照，多角度驗證數據的全面性和可信性。 2.數據的匯集和存儲數據只有不斷流動和充分共用，才有生命力。應在各專用數據庫建設的基礎上，通過數據集成，實現各級各類資訊系統的數據交換和數據共用。數據存儲要達到低成本、低能耗、高可靠性目標，通常要用到冗餘配置、分佈化和雲計算技術，在存儲時要按照一定規則對數據進行分類，通過過濾和去重，減少存儲量，同時加入便於日後檢索的標籤。 3.數據的管理大數據管理的技術也層出不窮。在眾多技術中，有6種數據管理技術普遍被關注，即分散式存儲與計算、記憶體數據庫技術、列式數據庫技術、雲數據庫、非關聯式的數據庫、移動數據庫技術。其中分散式存儲與計算受關注度最高。左圖是一個圖書數據管理系統。 4.數據的分析數據分析處理：有些行業的數據涉及上百個參數，其複雜性不僅體現在數據樣本本身，更體現在多源異構、多實體和多空間之間的交互動態性，難以用傳統的方法描述與度量，處理的複雜度很大，需要將高維圖像等多媒體資料降維後度量與處理，利用上下文關聯進行語義分析，從大量動態而且可能是模棱兩可的數據中綜合資訊，並匯出可理解的內容。大數據的處理類型：批次處理--先存儲後處理流處理--直接處理數據數據挖掘的任務：關聯分析聚類分析分類預測時序模式偏差分析 5.大數據的價值：決策支持系統DDS 大數據的神奇之處就是通過對過去和現在的數據進行分析，它能夠精確預測未來;通過對組織內部的和外部的數據整合，它能夠洞察事物之間的相關關係;通過對海量數據的挖掘，它能夠代替人腦，承擔起企業和社會管理的職責。 6.數據的使用大數據有三層內涵：數據量巨大、來源多樣和類型多樣的數據集; 新型的數據處理和分析技術; 運用數據分析形成價值。大數據對科學研究、經濟建設、社會發展和文化生活等各個領域正在產生革命性的影響。大數據應用的關鍵，也是其必要條件，就在於IT與經營的融合，當然，這裡的經營的內涵可以非常廣泛，小至一個零售門店的經營，大至一個城市的經營。二.大數據基本架構基於上述大數據的特徵，通過傳統IT技術存儲和處理大數據成本高昂。一個企業要大力發展大數據應用首先需要解決兩個問題：一是低成本、快速地對海量、多類別的數據進行抽取和存儲;二是使用新的技術對數據進行分析和挖掘，為企業創造價值。因此，大數據的存儲和處理與雲計算技術密不可分，在當前的技術條件下，基於廉價硬體的分散式系統(如Hadoop等)被認為是最適合處理大數據的技術平臺。 Hadoop是一個分散式的基礎架構，能夠讓用戶方便高效地利用運算資源和處理海量數據，目前已在很多大型互聯網企業得到了廣泛應用，如亞馬遜、Facebook和Yahoo等。其是一個開放式的架構，架構成員也在不斷擴充完善中。 1. Hadoop體系架構 Thrift是一個軟體框架，用來進行可擴展且跨語言的服務的開發，最初由Facebook開發，是構建在各種程式設計語言間無縫結合的、高效的服務。 Zookeeper在Hadoop架構中負責應用程式的協調工作，以保持Hadoop集群內的同步工作。 Sqoop是為資料的互通性而設計，可以從關聯式資料庫導入資料到Hadoop，並能直接導入到HDFS或Hive。 Hive是Hadoop架構中的數據倉庫，主要用於靜態的結構以及需要經常分析的工作。Hbase主要作為面向列的數據庫運行在HDFS上，可存儲PB級的數據。Hbase利用MapReduce來處理內部的海量數據，並能在海量數據中定位所需的數據且訪問它。 Hadoop的核心是MapReduce(映射和化簡編程模型)引擎，Ma