- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用探勘技术於实务解析
應用探勘技術於實務解析
指導教授:柯淑津 老師
學 生:李巧雯、程尚謙、
江韋葶、陳家茵
報告大綱
資料探勘簡介
研究動機
應用實例一:YouBike
應用實例二:機器翻譯
2
資料探勘簡介
何謂資料探勘(Data Mining)?
資料庫中的知識發現
使用許多統計分析與Modeling的方法
從大量的資料中找尋隱藏的特徵(Pattern)、關連性(Relationship)以及趨勢(Trend)
為何需要資料探勘?
資料產生速度快,不斷累積增加
資訊科技發展進步,資料大量被儲存
探討如何有效地把資料轉化成有用的資訊
3
研究動機
資訊爆炸的時代,資料以各種形式存在生活周遭
不同形式的資料,處理方式也不同
兩項應用分別代表結構化與非結構化資料
4
5
應用實例一:Youbike使用情況分析
結構化資料
研究背景與目標
臺北市政府自推出YouBike後,使用人數逐漸增加
衍生出某些站點供不應求或供過於求的問題
藉由分析大量的YouBike即時資料,探討影響使用情形的因素
時段性
地理環境
6
車輛分配的效率不佳、浪費成本
民眾滿意度下降
研究流程
7
資料獲取(Data Acquisition)
資料縮減(Data Reduction)
資料分析(Data Analysis)
結果解釋(Interpretation)
臺北市政府交通局
YouBike微笑單車即時交通資訊
.tw/opendata/gwjs_cityhall.json
各站基本資料(站名、行政區、地點、經緯度座標等)及即時可借車輛數、可停空位數共20個項目
使用Java設計自動抓取資料的程式
每五分鐘自動抓一次
以文字檔(.txt)的形式記錄每個場站的詳細資料
研究方法 資料獲取(Data Acquisition)
8
原始資料量
蒐集三個月(2015/3/23至6/24)
五分鐘蒐集一次
331個場站
每場站包含20個欄位
9
研究方法 資料縮減(Data Reduction)
維度縮減(Dimension reduction)
縮減資料行(column)
切分為兩個資料表
固定資料:基本資料
變動資料:即時資料
數量縮減(Numerosity reduction)
縮減資料列(row)
將一天的時間劃分數個時段
10
維度縮減(Dimension reduction)
固定資料:固定不變的場站基本資料值
變動資料:計算使用率會用到的資料
11
項目
說明
項目
說明
iid
場站編號
mday
資料更新時間
sv
場站狀態 0.暫停營運 1.正式啟用
lat
經度
sd
啟用時間yyyyMMddhhmmss
lng
緯度
vtyp
版本別
ar
地址
sno
場站代號
sareaen
場站區域英文名稱
sna
場站名稱
snaen
場站英文名稱
sip
場站IP
aren
英文地址
tot
場站的總停車格
nbcnt
檔板數量
sbi
場站的目前車輛數
bemp
空位數量
sarea
場站區域
act
禁用狀態 0.禁用 1.啟用
date
更新日期
hour
小時
minute
分鐘
將時間切分成
三個欄位儲存
研究方法 資料縮減(Data Reduction)
數量縮減(Numerosity reduction)
12
將一天的時間
劃分為7個時段
計算331個場站在
各時段的平均使用率,以及總平均使用率
時段
說明
睡眠時間
0點~6點
通勤時間
6點~9點
上午上班/上課時間
9點~12點
休息時間
12點~14點
下午上班/上課時間
14點~17點
下班/下課時間
17點~21點
夜間活動
21點~24點
使用率計算公式:
空位數量 / ( 空位數量 + 目前車輛數 )
縮減後的資料
共有331*8筆
研究方法 資料縮減(Data Reduction)
群聚分析(Cluster analysis)
將資料分成若干個群集,特徵相似的資料聚集在一起,而不同的群集間的相異性大
觀察群集的特徵
解釋各群集所代表的意義
K-means分群法(K-means clustering)
須先指定群集的數目K,使每筆資料都分配到離自己最近的群集
距離量度:歐幾里德距離(Euclidean distance)
331個YouBike站點劃分為10個群集
13
研究方法 資料分析(Data Analysis)
由K-means分群法得到分群結果後
繪製折線圖
觀察各個群集中YouBike各站點使用情形之共同特性
針對特色較為顯著之群集加以說明
14
研究方法 結果解釋(Interpretation)
15
新北市
研究方法 結果解釋(Inte
原创力文档


文档评论(0)