网站大量收购独家精品文档,联系QQ:2885784924

云报专栏巨量资料分析前处理程序之关键议题及挑战国立交通大学.PDF

云报专栏巨量资料分析前处理程序之关键议题及挑战国立交通大学.PDF

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云报专栏巨量资料分析前处理程序之关键议题及挑战国立交通大学

雲報專欄:巨量資料 分析前處理程序之關鍵議題及挑戰 ─國立交通大學資訊工程系曾新穆教授 /技術專家委員會 委員 巨量資料 (Big Data)具有3Vs的特性,亦即在 Volume, Variety, Velocity 等面向上均極為巨大,而更重要的是要能從中產生 4th V ,亦即Value (價值 ) , 而此即有賴於巨量資料分析(Big Data Analytics)技術。巨量資料分析之程序涵 括前處理、特徵篩選、學習及模型化,以至後處理等,近年來雖已有許多巨量資 料分析工具被提出,多數企業或研究者欲導入巨量資料專案時多將注意力集中於 各種分析技術,但對於分析程序中的前處理部分常忽視 了其重要性。本專欄探討 巨量資料分析中前處理程序中的幾項關鍵議題及挑戰,提供作為在現今巨量資料 時代下要由巨量資料中挖掘出金礦並產生高度 產業價值之參考。 巨量資料分析 (Big Data Analytics)為巨量資料應用中 之關鍵環節,打通此 環節方能由巨大之資料中挖掘出有價值之金礦。巨量資料分析之程 序如圖一所 示 ,包含了 對於輸入資料(包 含結構化及非結構化資料 )之前處理 (Pre-processing) 、特徵篩選(Feature Selection) 、學習及模型化(Learning Modeling)以至後處理(Post-processing)等,並加入雲端計算(Cloud Computing) 及串流運算 (Stream Computing)等高效能計算技術,以達成能處理巨量資料之大 量、高變項度 、高流量等複雜特性。 近年來已有許多巨量資料技術工具及平台被發展出,多數企業或研究者欲導 入巨量資料專案時多將注意力集中於各種分析技術之運用,但對於前處理程序常 忽略了其中的許多關鍵要項 ,以致未能達成預期成效。事實上,所謂 Garbage in, garbage out ,巨量資料之前處理至關重要,巨量資料由於其複雜之特性,前處 理程序較一般資料更要困難許多,除了習知之資料遺漏 (Missing Value)等資料 品質問題外,還多出了許多新議題及挑戰。在此探討剖析幾項關鍵性之議題及 挑 戰 : 圖一、巨量資料分析架構 一、資料稀疏性問題 :由於巨量資料之極大量性 (High Volume)及高變項度 (High Variety)等特性,資料中常存有嚴重之稀疏性問題,為資料分析上之一大挑 戰 。舉例而言,美國之串流媒體服務巨擘Netflix 公司在多年前即致力於運 用巨量資料探勘技術發展個人化推薦服務,並舉辦獎金達 100萬美元之 Netflix Prize競賽。基本上, 其欲達成有效之個人化推薦之關鍵在於如何 利用其客戶對影片 之訂閱瀏覽及評等 (rating)等大量記錄 來學習建立出有 效之模型,以精準預測客戶對影片之喜好度。事實上, 此種推薦應用在學界 及業界已研究多時,並已發展出類如協同過濾 (Collaborative Filtering) 等有用之技術。然在類如Netflix所具之巨量資料環境下,其客戶數高達數 千萬人,而影片數亦達上百萬部,以致其有效可運用之客戶-影片相關聯之 訂閱瀏覽及評等資料變得非常稀疏。因此,若套用一般之協同過濾方法將無 法產生有效之模型,而必須針對此種資料稀疏特性先加以處理進而設計合適 之分析方法 。 二、資料真實性問題 :巨量資料中因混雜著各式各樣的結構性與非結構性資料, 常存有資料真實性 (Veracity)之問題。舉例而言,Google 在 2006 於Nature 上發表了利用分析其龐大的User Search Log所發展之 Flu Trend服務, 可準確預測流感之爆發,並且能較美國 之 CDC(疾病管制局)提早一周以前即 預測出。然而,此預測功能後來被學者發現在其發表數年之後已不復準確, 甚至有高度之誤差。分析其原因為原本此流感預測模型之原理乃基於人們於 罹患流感之不同階段會查詢不同之流感相關資訊 (如症狀、治療方式等)之現 象 ;然而在Google 推出此功能後引起許多研究者之好奇,紛而於Google之 搜尋引擎中輸入與流感相關之關鍵字欲查詢了解此 Flu Trend 功能,結果這 些查詢字詞混雜於所有之Search Lo

文档评论(0)

wumanduo11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档