非结构化大数据智慧分析技术及应用.PDFVIP

  • 11
  • 0
  • 约1.22万字
  • 约 46页
  • 2017-06-17 发布于江苏
  • 举报

非结构化大数据智慧分析技术及应用.PDF

非结构化大数据智慧分析技术及应用

2015第四屆海峽兩岸高校高端IT人才論壇 非結構化大數據智慧分析技術及應用 北京大學 信息工程學院 朱躍生 教授 2015年7月27日 台中 內容提要  大數據基本概念  大數據理論基礎  非結構化數據智慧分析技術  大數據的安全問題 內容提要  大數據基本概念  大數據理論基礎  非結構化數據智慧分析技術  大數據的安全問題 大數據形成(big data)  每天產生巨大數據  互聯網(社交、搜索、電商、微博)、物聯網(感測器,智慧地球)、車聯網、GPS、醫學 影像、安全監控、金融(銀行、股市、保險)、電信(通話、短信)正在瘋狂產生著數據 Email:全球發送約 3 百萬封/秒 Youtube:約3萬個小時視頻/天 推特:發佈 5千萬條消息/每天 亞馬遜:產生 6.3 百萬筆訂單/每天 Facebook: 7千億分鐘/月, 移動互聯網使用者發送和接收的數據高達1.3EB Google :處理24PB 數據/每天 IDC 預測,產生的數據量呈指數級增長,約翻一番/兩年,近兩年產生的數據量相當於之前產生的數據總量。 到2015年,全球數據量約達到7.9 ZB (Zetta-Bytes,1 ZB =270 byte,10 21byte )  已經遠遠超越了目前所能處理的能力!!! 大數據(big data)  定義 度 數據量大到超出目前傳統數據庫軟體工具, 維 在合理時間內達到獲取、管理、處理、並分析 間 空 時空大數據 整理成可決策數據的能力 “Big data refers to data sets whose size is beyond the ability of typical database software tools to capture, store, manage and analyze.” - The McKinsey Global Institute, 2011 時間維度 大數據類型  結構化數據 存在數據庫,可用二維表結構來邏輯表達實現 先有結構、再有數據  非/半結構化資料 字段長度可變,辦公文檔、文本、圖片、XML 、 HTML、各類報表、圖像和音頻/視頻數據等 先有數據,再有結構 隨著網路技術的發展,非結構化數據的數量日趨增大 主要特點-5V  Volume (量大) ZB級,非結構化數據大規模增長, 占總量80%,比結構化數據增長快10-50倍  Velocity (變化快) VERACITY 即時,監控  Variety (種類多) VALUE 文本、圖像、音視頻、機器數據  Veracity (真實性) 完整性、模糊/隱性 》關聯一致性  Value (價值) 挖掘 預測,諮詢,報告 效益 基本屬性- 3I 價值 Inexact 事物的基本特性

文档评论(0)

1亿VIP精品文档

相关文档