资料探勘方式.ppt

下载文档 降价啦

1
0
约9.69千字
约 57页
2018-04-29 发布于河南
举报
版权申诉
保障服务

资料探勘方式.ppt

1、本文档共57页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

资料探勘方式

本章學習重點 k-Means 族群推算法 k-近鄰法決策樹關聯法神經網路系統 14-1 k-Means 族群推算法族群推算法的目的是將資料歸類為不同的族群，而k為族群的數目。 k-Means 族群推算法的步驟如下： 1. 決定要找出多少個族群。換句話說，決定 k 值。 2. 隨意選出 k 個資料來當做這 k 個族群的中心點。 k-Means 族群推算法 k-Means 族群推算法的步驟(續)： 3. 由這 k 個資料點為起頭，建立出首輪的 k 族群。在這個時候，每一筆資料都暫時屬於某一個族群。 4. 找出每一個族群新的中心點。 5. 重複步驟3及步驟4，直到終止條件成立。 k-Means 族群推算法最常被用到的終止條件有兩種：每個族群的中心點不再改變。某種收斂標準已經達到。一種常見的收斂標準是Sum of Squared Errors (SSE)：代表在族群i中的每一個資料點，是族群 i 的中心點，而代表每一個資料點和它所屬族群中心點的距離。 k-Means 族群推算法-範例 k-Means 族群推算法-範例-續 k-Means 族群推算法-範例-續 k-Means 族群推算法-範例-續 k-Means 族群推算法-範例-續 k-Means 族群推算法-範例-續 k-Means 族群推算法-範例-續 k-近鄰法這種方式的目的是要由已知的屬性來找出未知屬性的值。它的概念是類似的資料會有類似的值。如果兩筆資料的已知屬性很接近，那它們未知屬性的值也會很接近。 k-近鄰法 k-近鄰法的步驟如下：決定要以多少個最接近的資料點來決定我們要求的數值。換句話說，決定k值。加入訓練集的資料。當有新的資料時，我們就找出訓練資料集中k個與這筆新資料最近的資料值。由於這k個資料的值是已知的，我們就可以由這些已知的值中來推算新資料這個屬性的值。距離函數距離函數是被用來找出不同筆資料之間的距離。在計算距離時，需要能夠將不同維度的距離用同一種標準顯現出來。最常用的有以下兩種方式：決定資料值的方式在找出 k-近鄰之後，有以下兩種方式決定未知資料值：假設每 k 筆接近的資料都是一樣的重要。假設與新資料越接近的資料值比重應該越大。一個資料的重要性是跟它和新資料的距離成反比。 k-近鄰法-範例 k-近鄰法-範例-續 k-近鄰法-範例-續 k-近鄰法-範例-續 k-近鄰法-範例-續 14-3 決策樹決策樹例子：根據月收入、申請信用卡頻率、繳錢紀錄、有無背負循環利息這四個因素，判斷一個人的信用。決策樹決策樹的特性如下：能夠很清楚地描述一筆資料是如何被歸類。這個目標屬性需要是類別性的，而不能是連續性的。有的時候，決策樹已經無法再做任何的分割，可是那一個節點上資料的目標屬性並不是完全一樣的。這個時候的規則會以下方式敘述：X 規則有 y % 的可能會成立。決策樹方式在建立決策樹時，我們的目的是要決定哪一個條件適用於決策樹的哪個節點。最常見的方式有： CART C4.5 CART CART 的特性是每一個決定點都有兩個結果。 CART的做法是在每一個節點上，都找出所有可能的條件，然後再依照以下的方式來決定哪一個條件是最適當的 CART CART-範例用來找出信用度的訓練資料集 CART-範例-續在根節點中可能被用到的規則 CART-範例-續計算每一個規則的?(s|t) CART-範例-續經過初步選擇的CART決策樹 CART-範例月收入=高的訓練資料集 CART-範例-續在左邊的子節點中可能被用到的規則 CART-範例-續計算每一個規則的?(s|t) CART-範例-續經過初步選擇的CART決策樹 C4.5 C4.5 和 CART 有以下的不同：在 C4.5 中，每一個決定點可以有不只兩個結果。在CART，每一個決定點只能有兩個結果。在 C4.5 中，類別屬性的每一個可能的值都會有自己的結果。舉例來說，如果收入族群是分為高、中、低三等，那任何用到這個屬性來做規則的節點就會有三個子節點。 C4.5 的目標是找出哪一個規則最能夠減低資料的亂度 (Entropy)。 C4.5 對一個屬性而言，亂度的定義是： j 代表所有可能的值，而 pj 代表每一個 j 值發生的可能性。整個資料集的亂度為： T 代表整個資料集，Ti 代表被規則 S 分割過後的子資料集，而 Pi 代表資料在 i 子資料集的比例。 C4.5 要找出哪一個規則最能夠減低資料的亂度，我們