云报专栏巨量资料分析前处理程序之关键议题及挑战国立交通大学.PDF

下载文档

1
0
约 4页
2018-08-17 发布于天津
举报
版权申诉
保障服务

云报专栏巨量资料分析前处理程序之关键议题及挑战国立交通大学.PDF

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

云报专栏巨量资料分析前处理程序之关键议题及挑战国立交通大学

雲報專欄：巨量資料分析前處理程序之關鍵議題及挑戰 ─國立交通大學資訊工程系曾新穆教授 /技術專家委員會委員巨量資料 (Big Data)具有3Vs的特性，亦即在 Volume, Variety, Velocity 等面向上均極為巨大，而更重要的是要能從中產生 4th V ，亦即Value (價值 ) ，而此即有賴於巨量資料分析(Big Data Analytics)技術。巨量資料分析之程序涵括前處理、特徵篩選、學習及模型化，以至後處理等，近年來雖已有許多巨量資料分析工具被提出，多數企業或研究者欲導入巨量資料專案時多將注意力集中於各種分析技術，但對於分析程序中的前處理部分常忽視了其重要性。本專欄探討巨量資料分析中前處理程序中的幾項關鍵議題及挑戰，提供作為在現今巨量資料時代下要由巨量資料中挖掘出金礦並產生高度產業價值之參考。巨量資料分析 (Big Data Analytics)為巨量資料應用中之關鍵環節，打通此環節方能由巨大之資料中挖掘出有價值之金礦。巨量資料分析之程序如圖一所示，包含了對於輸入資料(包含結構化及非結構化資料 )之前處理 (Pre-processing) 、特徵篩選(Feature Selection) 、學習及模型化(Learning Modeling)以至後處理(Post-processing)等，並加入雲端計算(Cloud Computing) 及串流運算 (Stream Computing)等高效能計算技術，以達成能處理巨量資料之大量、高變項度、高流量等複雜特性。近年來已有許多巨量資料技術工具及平台被發展出，多數企業或研究者欲導入巨量資料專案時多將注意力集中於各種分析技術之運用，但對於前處理程序常忽略了其中的許多關鍵要項，以致未能達成預期成效。事實上，所謂 Garbage in, garbage out ，巨量資料之前處理至關重要，巨量資料由於其複雜之特性，前處理程序較一般資料更要困難許多，除了習知之資料遺漏 (Missing Value)等資料品質問題外，還多出了許多新議題及挑戰。在此探討剖析幾項關鍵性之議題及挑戰：圖一、巨量資料分析架構一、資料稀疏性問題：由於巨量資料之極大量性 (High Volume)及高變項度 (High Variety)等特性，資料中常存有嚴重之稀疏性問題，為資料分析上之一大挑戰。舉例而言，美國之串流媒體服務巨擘Netflix 公司在多年前即致力於運用巨量資料探勘技術發展個人化推薦服務，並舉辦獎金達 100萬美元之 Netflix Prize競賽。基本上，其欲達成有效之個人化推薦之關鍵在於如何利用其客戶對影片之訂閱瀏覽及評等 (rating)等大量記錄來學習建立出有效之模型，以精準預測客戶對影片之喜好度。事實上，此種推薦應用在學界及業界已研究多時，並已發展出類如協同過濾 (Collaborative Filtering) 等有用之技術。然在類如Netflix所具之巨量資料環境下，其客戶數高達數千萬人，而影片數亦達上百萬部，以致其有效可運用之客戶-影片相關聯之訂閱瀏覽及評等資料變得非常稀疏。因此，若套用一般之協同過濾方法將無法產生有效之模型，而必須針對此種資料稀疏特性先加以處理進而設計合適之分析方法。二、資料真實性問題：巨量資料中因混雜著各式各樣的結構性與非結構性資料，常存有資料真實性 (Veracity)之問題。舉例而言，Google 在 2006 於Nature 上發表了利用分析其龐大的User Search Log所發展之 Flu Trend服務，可準確預測流感之爆發，並且能較美國之 CDC(疾病管制局)提早一周以前即預測出。然而，此預測功能後來被學者發現在其發表數年之後已不復準確，甚至有高度之誤差。分析其原因為原本此流感預測模型之原理乃基於人們於罹患流感之不同階段會查詢不同之流感相關資訊 (如症狀、治療方式等)之現象；然而在Google 推出此功能後引起許多研究者之好奇，紛而於Google之搜尋引擎中輸入與流感相關之關鍵字欲查詢了解此 Flu Trend 功能，結果這些查詢字詞混雜於所有之Search Lo