自动群集侦测的优点非监督式的知识发现技术.PPT

自动群集侦测的优点非监督式的知识发现技术.PPT

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自动群集侦测的优点非监督式的知识发现技术

第七章 自動群集偵測 Automatic Cluster Detection 自動群集偵測 K平均法(K - mean) 變數的變化 凝聚(agglomeration)方法 凝聚(agglomeration)方法 凝聚(agglomeration)方法 自動群集偵測的優點 自動群集偵測的缺點 * * 簡介 K平均法 凝聚方法 變數的變化 自動群集偵測的優、缺點 何謂群集( cluster )? 把資料庫中的資料分類成群 群內同質;群間異質 用到幾何學、向量平均 自動群集本身很少單獨使用 一旦群集偵測出來後,必須利用其他方法來了解群集的意義。 在許多案例中,雖然我們可能會懷疑一組非常雜亂的資料中,事實上是由一些更能表現出特性的群集所構成,但我們卻不知如何將其定義,這時候自動群集偵測 (automatic cluster detection) 就派上用場了。 三個例子 三個例子 三個例子 銀行發現14個群集,而且只對其中一個群集找到一個有用的闡釋。然而,這個群集的用途很大,因此沒有人在意其他13個群集找不到適當闡釋。落在這個有用的群集中的人,許多是在該銀行中同時擁有個人和公司戶頭的客戶,以及很可能進行房屋抵押貸款的人。這個組合使得銀行採取一個新的行銷方針 - 鼓勵客戶進行房屋抵貸款以設立小型企業。 選擇K個「種子」作為群集質心 麥昆的演算法只採用前K筆資料 將每一資料點分配到質心最接近的群集中 計算每一個群集的質心 將群集中每一個點的位置加以平均 找出新群集,每一點再次被分配到質心最接近的群集中。 重複進行直到群集邊界不再變動為止。 我們繼續討論這份k平均法,請特別注意被一個方形圍起來的那個點的命運。根據原本的種子,這個點被分配到第二號種子所控制的群集,因為這個點和這種子最接近。 一旦新群集被找出,每一個點再次被分配到質心最接近的群集中,圖10.5顯示新群集的邊界,如同前面,這個界線是由與兩個質心距離相等的點所構成,注意被方塊圖形圍繞的那個點,它原本屬於第二群集,現在被重新分配到第一群集,這種分配資料點到群集中再計算質心的過程一再重複,直到群集邊界不再變動為止。 自動群集偵側其實相當簡單 - 只要一點點幾何學,一些向量平均,一切就搞定了。 當我們談到這類的群集資料時,我們直覺的認為同屬一個集群的成員有某一種「自然關連」,它們之間的相似程度應該超過它們和其他群集的相似度。最常用的方法就是將所有變數換算成數值,這筆資料就可以被視為鑋間中的一個點。接著,如果就幾何學而言兩個點很接近,我們就假設它們代表資料庫中相似的資料。這項方法存在兩個問題:其中就幾何學而言,每一個維度有同樣的重要性,但在我們的資料庫中,某一個變數的小改變也許比另一個變數的大改變還要重要。 類別( Categories ) 顏色 排序( Ranks ) 可知XYZ;但不知道(X-Y) (Y-Z) 區間( Intervals ) 溫度 實際測量( True measures ) 身高、體重、年齡、容量 從有意義的0點做為起點做測量 適合程度增加 解決之道是將相同的資料採用一套不同的幾何學解釋。我們不再將x和y當成空間中的點來測量它們的距離,而是把它們當成向量,測量它們之間角度。在此前題下,向量就是連結我們座標系統原點到由向量值所表示的那一個點的線段。一個向量同時具有大小(原點到該點的距離)與方向,就我們的目的而言,方向比較重要。 關聯性的正式測量 (距離,角度) 兩個向量之間的角度提供我們衡量關連性的指標,因為這個向量的角度不會受到同量本身大小的影響 (見圖10.6) 。事實上,這個角度的正弦值是一個更好的度量指標,因為正弦值是從 0 (兩個向量平行) 到 1 (兩個垂直) 。 在k平均方法群集分析中,我們一開始採用固定數目的群集,將所有資料收入其中。還有另外的方法是採用「凝聚」(agglomeration) 的方式。在這類方法中,我們一開始讓每資料點形成自己的群集,然逐漸合併這些群集,直到所有點聚集成一個大群集為止。這個過程剛開始時,所有群集都很小很單純。每一個群集的成員很少,但密切相關到了過程結束時,群組變得很大而且較沒有明確定義。整個過都被保存下來,因此你可以選擇最適合你工作目標的群集層次。 創造一個「相似矩陣」(similarity matrix) 在相似矩陣中找出最小值 創造層級式群集 群集之間的距離 單一連結(single linkage) 完整連結(complete linkage) 比較質心(comparison of centroids) 在單一連結法中,兩個群集之間以兩者之間「最接近」的成員距離為準。這個方法產生的群集特質在於,一個群集中每一個成員至少會和

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档