- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
资料探勘 -4 资料精简
資料精簡 (Data Reduction) 內容概要 簡介 資料精簡所包含之觀點 資料維度精簡(Dimension Reduction) 資料記錄精簡(Record Reduction) 資料數值精簡(Value Reduction) 簡介(1) 資料精簡在資料探勘過程中所扮演的角色 應用在資料的前置處理階段 (pre-processing phase) 從資料集合中挑選、過濾出具代表性的資料,進而r減少整個資料探勘的時間和成本 整個資料探勘過程都可以應用資料精簡的技術 前置處理階段(pre-processing phase) 探勘階段(mining phase) 後置處理階段(post-processing phase) 簡介(2) 前置處理階段之資料精簡 選取使用者感興趣的資料集合 濾掉一些無關、偏差、重複的資料 探勘階段之資料精簡 去除不具代表性的中介資訊或法則,進而縮小探勘過程中所需花費的時間,減少產生重複、不重要的知識 後置處理階段之資料精簡 由探勘結果中選取其感興趣和相關的知識 資料精簡之優點 提高準確性 降低錯誤資料之影響 挑選少量資料,大幅縮減資料探勘所需的時間 助於高價值知識的取得 提升知識可讀性 降低儲存的成本 資料精簡所包含之觀點 資料精簡:資料維度精簡、資料記錄精簡與資料數值精簡 會員資料集合 資料維度精簡(Dimension Reduction) 資料維度 利用年齡、教育程度、平均月收入和會員等級等資料維度來描述一個會員 資料維度精簡在企業決策上的應用 企業在決策支援與線上分析處理 (OLAP) 上,通常根據決策制定目標與應用目地的不同,會由日常線上交易處理(OLTP)資料集合中,挑選、轉換、乃至新增跟決策相關的資料維度來描述資料集合,並進行分析探勘 資料維度的評估(1) 需要衡量標準來挑選較好的資料維度 以會員資料表為例,“平均月收入” 應該比 “教育程度” 和 “年齡” 這兩個資料維度更適合做為 “會員等級” 評比的依據。(因為大部分收入低的會員,同常會員等級也會低) 資料維度的評估(2) 測量方法 一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement) 資料維度的評估(3) 闡述測量方法的整合範例 一致性測量法(1) 概念 在使用者給定之標的資料維度下,一致性測量法的概念是利用最少的其他的資料維度,來描述資料表中每一筆記錄時,不會造成矛盾與衝突 任兩筆資料記錄可以透過所選擇的資料維度來描述,但不會產生不一致(inconsistency)的情況 範例 以”會員等級”是標的資料維度,則單以 “平均月收入” 此資料維度來描述原來的會員資料表,將使得資料記錄一與資料記錄二會產生不一致 同樣“平均月收入”等級一 但是會員一與會員二之會員等級卻不同 一致性測量法(2) “平均月收入” 對 “會員等級” 所產生的不一致數量 I (平均月收入, 會員等級) = I (平均月收入(1), 會員等級) + I (平均月收入(2), 會員等級) + I (平均月收入(3), 會員等級) = 1 + 0 + 0 = 1 “教育程度” 對 “會員等級” 所產生的不一致數量 I (教育程度, 會員等級) = I (教育程度(大學), 會員等級) + I (教育程度(高中), 會員等級) + I (教育程度(國中), 會員等級) = 0 + 1 + 1 = 2 “年齡” 對 “會員等級” 所產生的不一致數量 I (年齡, 會員等級) = I (年齡(1), 會員等級) + I (年齡(2), 會員等級) = 0 + 2 = 2 ?“平均月收入”比其他資料維度重要 關連性測量法(1) 概念 當兩個資料維度A、B關連度愈高,由A中的資料數值可以判斷B中的資料數值的可能性愈高 範例 以”會員等級”是標的資料維度,則“平均月收入” 與其關連度可以概略計算為2/3 * 1 * 1 = 2/3 平均月收入等級一時,有2/3的機會可以由此判斷為會員等級低 平均月收入等級二時,有百分之百的機會判斷為會員等級高 平均月收入等級三時,有百分之百的機會判斷為會員等級低 關連性測量法(2) “平均月收入” 與 “會員等級” 的關連度 R (平均月收入, 會員等級) = R (平均月收入(1), 會員等級) * R (平均月收入(2), 會員等級) * R (平均月收入(3), 會員等級) = 2/3 * 1 * 1 = 2/3 “教育程度” 與 “會員等級”
文档评论(0)