应用探勘技术於实务解析.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用探勘技术於实务解析

應用探勘技術於實務解析 指導教授:柯淑津 老師 學  生:李巧雯、程尚謙、      江韋葶、陳家茵 報告大綱 資料探勘簡介 研究動機 應用實例一:YouBike 應用實例二:機器翻譯 2 資料探勘簡介 何謂資料探勘(Data Mining)? 資料庫中的知識發現 使用許多統計分析與Modeling的方法 從大量的資料中找尋隱藏的特徵(Pattern)、關連性(Relationship)以及趨勢(Trend) 為何需要資料探勘? 資料產生速度快,不斷累積增加 資訊科技發展進步,資料大量被儲存 探討如何有效地把資料轉化成有用的資訊 3 研究動機 資訊爆炸的時代,資料以各種形式存在生活周遭 不同形式的資料,處理方式也不同 兩項應用分別代表結構化與非結構化資料 4 5 應用實例一: Youbike使用情況分析 結構化資料 研究背景與目標 臺北市政府自推出YouBike後,使用人數逐漸增加 衍生出某些站點供不應求或供過於求的問題 藉由分析大量的YouBike即時資料,探討影響使用情形的因素 時段性 地理環境 6 車輛分配的效率不佳、浪費成本 民眾滿意度下降     研究流程        7 資料獲取(Data Acquisition) 資料縮減(Data Reduction) 資料分析(Data Analysis) 結果解釋(Interpretation) 臺北市政府交通局 YouBike微笑單車即時交通資訊 .tw/opendata/gwjs_cityhall.json 各站基本資料(站名、行政區、地點、經緯度座標等)及即時可借車輛數、可停空位數共20個項目 使用Java設計自動抓取資料的程式 每五分鐘自動抓一次 以文字檔(.txt)的形式記錄每個場站的詳細資料 研究方法 資料獲取(Data Acquisition) 8 原始資料量 蒐集三個月(2015/3/23至6/24) 五分鐘蒐集一次 331個場站 每場站包含20個欄位 9 研究方法 資料縮減(Data Reduction) 維度縮減(Dimension reduction) 縮減資料行(column) 切分為兩個資料表 固定資料:基本資料 變動資料:即時資料 數量縮減(Numerosity reduction) 縮減資料列(row) 將一天的時間劃分數個時段 10 維度縮減(Dimension reduction) 固定資料:固定不變的場站基本資料值 變動資料:計算使用率會用到的資料 11 項目 說明 項目 說明 iid 場站編號 mday 資料更新時間 sv 場站狀態 0.暫停營運 1.正式啟用 lat 經度 sd 啟用時間yyyyMMddhhmmss lng 緯度 vtyp 版本別 ar 地址 sno 場站代號 sareaen 場站區域英文名稱 sna 場站名稱 snaen 場站英文名稱 sip 場站IP aren 英文地址 tot 場站的總停車格 nbcnt 檔板數量 sbi 場站的目前車輛數 bemp 空位數量 sarea 場站區域 act 禁用狀態 0.禁用 1.啟用 date 更新日期 hour 小時 minute 分鐘 將時間切分成 三個欄位儲存 研究方法 資料縮減(Data Reduction) 數量縮減(Numerosity reduction) 12 將一天的時間 劃分為7個時段 計算331個場站在 各時段的平均使用率,以及總平均使用率 時段  說明 睡眠時間 0點~6點 通勤時間 6點~9點 上午上班/上課時間 9點~12點 休息時間 12點~14點 下午上班/上課時間 14點~17點 下班/下課時間 17點~21點 夜間活動 21點~24點 使用率計算公式: 空位數量 / ( 空位數量 + 目前車輛數 ) 縮減後的資料 共有331*8筆 研究方法 資料縮減(Data Reduction) 群聚分析(Cluster analysis) 將資料分成若干個群集,特徵相似的資料聚集在一起,而不同的群集間的相異性大 觀察群集的特徵 解釋各群集所代表的意義 K-means分群法(K-means clustering) 須先指定群集的數目K,使每筆資料都分配到離自己最近的群集 距離量度:歐幾里德距離(Euclidean distance) 331個YouBike站點劃分為10個群集 13 研究方法 資料分析(Data Analysis) 由K-means分群法得到分群結果後 繪製折線圖 觀察各個群集中YouBike各站點使用情形之共同特性 針對特色較為顯著之群集加以說明 14 研究方法 結果解釋(Interpretation) 15 新北市 研究方法 結果解釋(Inte

文档评论(0)

liudao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档