- 1、本文档共57页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
资料探勘方式
本章學習重點 k-Means 族群推算法 k-近鄰法 決策樹 關聯法 神經網路系統 14-1 k-Means 族群推算法 族群推算法的目的是將資料歸類為不同的族群,而k為族群的數目。 k-Means 族群推算法的步驟如下: 1. 決定要找出多少個族群。換句話說,決定 k 值。 2. 隨意選出 k 個資料來當做這 k 個族群的中心點。 k-Means 族群推算法 k-Means 族群推算法的步驟(續): 3. 由這 k 個資料點為起頭,建立出首輪的 k 族群。在這個時候,每一筆資料都暫時屬於某一個族群。 4. 找出每一個族群新的中心點。 5. 重複步驟3及步驟4,直到終止條件成立。 k-Means 族群推算法 最常被用到的終止條件有兩種: 每個族群的中心點不再改變。 某種收斂標準已經達到。 一種常見的收斂標準是Sum of Squared Errors (SSE): 代表在族群i中的每一個資料點, 是族群 i 的中心點,而 代表每一個資料點和它所屬族群中心點的距離。 k-Means 族群推算法-範例 k-Means 族群推算法-範例-續 k-Means 族群推算法-範例-續 k-Means 族群推算法-範例-續 k-Means 族群推算法-範例-續 k-Means 族群推算法-範例-續 k-Means 族群推算法-範例-續 k-近鄰法 這種方式的目的是要由已知的屬性來找出未知屬性的值。 它的概念是類似的資料會有類似的值。 如果兩筆資料的已知屬性很接近,那它們未知屬性的值也會很接近。 k-近鄰法 k-近鄰法的步驟如下: 決定要以多少個最接近的資料點來決定我們要求的數值。換句話說,決定k值。 加入訓練集的資料。 當有新的資料時,我們就找出訓練資料集中k個與這筆新資料最近的資料值。由於這k個資料的值是已知的,我們就可以由這些已知的值中來推算新資料這個屬性的值。 距離函數 距離函數是被用來找出不同筆資料之間的距離。 在計算距離時,需要能夠將不同維度的距離用同一種標準顯現出來。 最常用的有以下兩種方式: 決定資料值的方式 在找出 k-近鄰之後,有以下兩種方式決定未知資料值: 假設每 k 筆接近的資料都是一樣的重要。 假設與新資料越接近的資料值比重應該越大。 一個資料的重要性是跟它和新資料的距離成反比。 k-近鄰法-範例 k-近鄰法-範例-續 k-近鄰法-範例-續 k-近鄰法-範例-續 k-近鄰法-範例-續 14-3 決策樹 決策樹例子:根據月收入、申請信用卡頻率、繳錢紀錄、有無背負循環利息這四個因素,判斷一個人的信用。 決策樹 決策樹的特性如下: 能夠很清楚地描述一筆資料是如何被歸類。 這個目標屬性需要是類別性的,而不能是連續性的。 有的時候,決策樹已經無法再做任何的分割,可是那一個節點上資料的目標屬性並不是完全一樣的。 這個時候的規則會以下方式敘述:X 規則有 y % 的可能會成立。 決策樹方式 在建立決策樹時,我們的目的是要決定哪一個條件適用於決策樹的哪個節點。 最常見的方式有: CART C4.5 CART CART 的特性是每一個決定點都有兩個結果。 CART的做法是在每一個節點上,都找出所有可能的條件,然後再依照以下的方式來決定哪一個條件是最適當的 CART CART-範例 用來找出信用度的訓練資料集 CART-範例-續 在根節點中可能被用到的規則 CART-範例-續 計算每一個規則的?(s|t) CART-範例-續 經過初步選擇的CART決策樹 CART-範例 月收入=高的訓練資料集 CART-範例-續 在左邊的子節點中可能被用到的規則 CART-範例-續 計算每一個規則的?(s|t) CART-範例-續 經過初步選擇的CART決策樹 C4.5 C4.5 和 CART 有以下的不同: 在 C4.5 中,每一個決定點可以有不只兩個結果。在CART,每一個決定點只能有兩個結果。 在 C4.5 中,類別屬性的每一個可能的值都會有自己的結果。 舉例來說,如果收入族群是分為高、中、低三等,那任何用到這個屬性來做規則的節點就會有三個子節點。 C4.5 的目標是找出哪一個規則最能夠減低資料的亂度 (Entropy)。 C4.5 對一個屬性而言,亂度的定義是: j 代表所有可能的值,而 pj 代表每一個 j 值發生的可能性。 整個資料集的亂度為: T 代表整個資料集,Ti 代表被規則 S 分割過後的子資料集,而 Pi 代表資料在 i 子資料集的比例。 C4.5 要找出哪一個規則最能夠減低資料的亂度,我們
您可能关注的文档
- 花师实小自然领域教学资料.ppt
- 资料表的建立(二).ppt
- 位於记忆体的资料库.ppt
- 宝安区职业介绍机构管理规范.doc
- 国药管械(试)字2000第302086号.doc
- 实验室品质管.pdf
- 西九文化区管.pdf
- 资管科三年1 班调课通知.doc
- 95学年度医管系学生校外实习注意事项.doc
- 填报高淳县县管领导干部信息表说明.doc
- DB44_T 2607.4-2025 滨海蓝碳碳汇能力调查与核算技术指南 第4部分:盐沼.pdf
- DB43_T 3178-2024 烟叶农场建设管理要求.pdf
- DB37_T 4838-2025 含氢分布式综合能源系统运行优化指南.pdf
- DB37_T 4834-2025 高速公路集中养护工作指南.pdf
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
文档评论(0)