- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云报专栏巨量资料分析前处理程序之关键议题及挑战国立交通大学
雲報專欄:巨量資料 分析前處理程序之關鍵議題及挑戰
─國立交通大學資訊工程系曾新穆教授 /技術專家委員會
委員
巨量資料 (Big Data)具有3Vs的特性,亦即在 Volume, Variety, Velocity
等面向上均極為巨大,而更重要的是要能從中產生 4th V ,亦即Value (價值 ) ,
而此即有賴於巨量資料分析(Big Data Analytics)技術。巨量資料分析之程序涵
括前處理、特徵篩選、學習及模型化,以至後處理等,近年來雖已有許多巨量資
料分析工具被提出,多數企業或研究者欲導入巨量資料專案時多將注意力集中於
各種分析技術,但對於分析程序中的前處理部分常忽視 了其重要性。本專欄探討
巨量資料分析中前處理程序中的幾項關鍵議題及挑戰,提供作為在現今巨量資料
時代下要由巨量資料中挖掘出金礦並產生高度 產業價值之參考。
巨量資料分析 (Big Data Analytics)為巨量資料應用中 之關鍵環節,打通此
環節方能由巨大之資料中挖掘出有價值之金礦。巨量資料分析之程 序如圖一所
示 ,包含了 對於輸入資料(包 含結構化及非結構化資料 )之前處理
(Pre-processing) 、特徵篩選(Feature Selection) 、學習及模型化(Learning
Modeling)以至後處理(Post-processing)等,並加入雲端計算(Cloud Computing)
及串流運算 (Stream Computing)等高效能計算技術,以達成能處理巨量資料之大
量、高變項度 、高流量等複雜特性。
近年來已有許多巨量資料技術工具及平台被發展出,多數企業或研究者欲導
入巨量資料專案時多將注意力集中於各種分析技術之運用,但對於前處理程序常
忽略了其中的許多關鍵要項 ,以致未能達成預期成效。事實上,所謂 Garbage in,
garbage out ,巨量資料之前處理至關重要,巨量資料由於其複雜之特性,前處
理程序較一般資料更要困難許多,除了習知之資料遺漏 (Missing Value)等資料
品質問題外,還多出了許多新議題及挑戰。在此探討剖析幾項關鍵性之議題及 挑
戰 :
圖一、巨量資料分析架構
一、資料稀疏性問題 :由於巨量資料之極大量性 (High Volume)及高變項度 (High
Variety)等特性,資料中常存有嚴重之稀疏性問題,為資料分析上之一大挑
戰 。舉例而言,美國之串流媒體服務巨擘Netflix 公司在多年前即致力於運
用巨量資料探勘技術發展個人化推薦服務,並舉辦獎金達 100萬美元之
Netflix Prize競賽。基本上, 其欲達成有效之個人化推薦之關鍵在於如何
利用其客戶對影片 之訂閱瀏覽及評等 (rating)等大量記錄 來學習建立出有
效之模型,以精準預測客戶對影片之喜好度。事實上, 此種推薦應用在學界
及業界已研究多時,並已發展出類如協同過濾 (Collaborative Filtering)
等有用之技術。然在類如Netflix所具之巨量資料環境下,其客戶數高達數
千萬人,而影片數亦達上百萬部,以致其有效可運用之客戶-影片相關聯之
訂閱瀏覽及評等資料變得非常稀疏。因此,若套用一般之協同過濾方法將無
法產生有效之模型,而必須針對此種資料稀疏特性先加以處理進而設計合適
之分析方法 。
二、資料真實性問題 :巨量資料中因混雜著各式各樣的結構性與非結構性資料,
常存有資料真實性 (Veracity)之問題。舉例而言,Google 在 2006 於Nature
上發表了利用分析其龐大的User Search Log所發展之 Flu Trend服務,
可準確預測流感之爆發,並且能較美國 之 CDC(疾病管制局)提早一周以前即
預測出。然而,此預測功能後來被學者發現在其發表數年之後已不復準確,
甚至有高度之誤差。分析其原因為原本此流感預測模型之原理乃基於人們於
罹患流感之不同階段會查詢不同之流感相關資訊 (如症狀、治療方式等)之現
象 ;然而在Google 推出此功能後引起許多研究者之好奇,紛而於Google之
搜尋引擎中輸入與流感相關之關鍵字欲查詢了解此 Flu Trend 功能,結果這
些查詢字詞混雜於所有之Search Lo
您可能关注的文档
- 专注光耦技术方案支持的现货分销商.PDF
- 丙酮分子在355nm激光作用下的异构化过程.PDF
- 东北亚物流信息服务网络集装箱船舶动态信息标准.DOC
- 东亚飞蝗对波谱光及其偏光对比选择性视励效应的测定-农业机械学报.PDF
- 东南亚-全球海运峰会.PPT
- 东准噶尔卡拉麦里断裂以南幔源底侵体钉合花岗岩体的-岩石学报.PDF
- 东昌学院电子科学系计算机试验报告1.DOC
- 东旭光电科技股份有限公司2015年公司债券跟踪评级-联合信用评级.PDF
- 东旭光电科技股份有限公司2015年年报告摘要.PDF
- 两例变频器开关电源电路实例-郑州变频器维修.DOC
- 2024年度党员干部民主生活会班子对照检查材料.docx
- 公司党委领导班子2024年度民主生活会对照检查材料4个带头方面.docx
- 市府办(政府办)领导班子2024年民主生活会会后综合情况报告.docx
- 在2025年市司法局信息宣传工作推进会上的讲话.docx
- 在2025年全省文化旅游高质量发展推进会上的讲话.docx
- 在2025年全区工业、住建大规模设备更新推进会上的讲话.docx
- 党支部2024年组织生活会民主评议党员情况总结报告_1.docx
- 2024年度组织生活会个人对照检查剖析材料.docx
- 镇党委书记2024年度民主生活会对照检查材料1.docx
- 党支部2024年组织生活会民主评议党员情况总结报告.docx
最近下载
- 新能源车与传统燃油车PK.pptx
- 电桩车位出租合同6篇.docx
- 成人肥胖食养指南(2024年版).pdf
- 机械制图习题集第4版张绍群习题答案.pdf
- 2025届广东省深圳高级中学高中园高三下学期第一次模拟考试政治试题(原卷版+解析版).docx VIP
- 新教科版(2024)小学一年级科学下册第一单元第4课《4.认识物体的形状》精品课件.pptx VIP
- 基于EPC模式的项目管理项目协调管理80课件讲解.pptx
- 东菱EPS-BS驱动器技术手册V1.5.pdf
- 老年心房颤动诊治中国专家共识2024版.pptx VIP
- 新时代思想学生读本(高中)5.5《促进人与自然和谐共生》课件.pptx VIP
文档评论(0)