网站大量收购独家精品文档,联系QQ:2885784924
  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
K-Medoids

ABSOLUTE-ERROR CRITERION E為所有absolute error的加總 Cj表示cluster P表示在Cj內的點 Mi表示代表Cj內的object * K-MEDOIDS k-物件法的概念 改善k-平均法因質量中心所造成無法處理類別性資料和容易受偏移值影響的問題 k-物件法則使用位於每一群中最中心的資料點當作該群集中心 k-物件法在運作上與k-平均法相似,最大的不同是每回合最多只改變一個群集中心,且此變動必須是能使準則函數值E下降 分割環繞物件法(Partitioning Around Medoids, PAM) * PAM PAM演算法由 Kaufman and Rousseeuw 所提出 K-means是計算叢聚的平均數來決定中心點,而平均值易受離群值的影響而扭曲 可以使用medoid來取代mean 在每一個叢聚中實際最靠近中心的資料 選擇中心時,不再是隨機選取,而是選擇較具代表性的個 點 * PAM PAM演算法將全部物件分群成k個群組 為每個群組決定一個代表物件(representative objects),此代表物件稱之為medoid 依據相似度來決定非medoid物件是屬於那一個群組,其相似度是以物件彼此之間的距離(Euclidean distance)來表示,d(Oa, Ob)表示物件Oa與Ob之間的距離。 例如Oi為medoid,而Oj為非medoid物件,如果d(Oj,Oi)=min{d(Oj, Oe)}, Oe表示所有的medoids,則Oj歸屬於Oi群組。 * PAM 對任一個非medoid物件Oj,當一個medoid Oi被一個非medoid物件Oh取代時,所造成的改變成本Cjih定義如下:Cjih= d(Oj, Om) – d(Oj, On) 以 Oh取代 Oi成為 medoid 之後,所造成的總改變成本為:TCih= Cjih 若TCih0時,表示以Oh取代Oi之後的總距離比取代前大,則Oi將不會被Oh所取代。以TCih為衡量依據 * K-物件法 分割環繞物件法(PAM)的運作過程 輸入:一資料集合以及使用者定義之群集數量k 輸出:k個互不交集的群集 步驟 1:隨機從資料集合選擇任k個資料點當作起始k群的中心點 步驟 2:利用相似度計算公式,將資料點分別歸屬到距其最近之群集中心,形成k個群集 步驟 3:由資料集合中任選一非群集中心之資料點,並取代任一選取之群集中心,並計算距離總偏移值E 步驟 4:假如取代後所求得之距離總偏移值E下降,取代就成立,同時回到步驟2展開下一個群集中心取代的動作 步驟 5:如果所有非群集中心之資料點都無法取代已存在之群集中心,則結束此處理程序並輸出各群結果 * 目錄 Cluster Partitional clustering algorithm Partitioning algorithm K-Means K-Medoids 大型資料庫處理 綜合比較 總結 * 大型資料庫的處理 K-medoids、PAM → 適合小型資料集 →無法處理大型資料庫 解決辦法 → CLARA (Clustering LARge Application) CLARA: 取樣 → 隨機、接近原始資料 applies PAM 複雜度:O(ks^2+k(n-k)) * CLARA -- 效率 由取樣大小決定 PAM → 利用完整資料集 CLARA → 利用取樣資料集 盲點:取樣範圍不包含最佳解 sampled best Trade-off * CLARA 改良 解決:CLARANS (Clustering Large Application based upon RANdomized Search) 運用 graph 考慮鄰近節點 不侷限於區域性 複雜度:O(n^2) → 缺點 * 目錄 Cluster Partitional clustering algorithm Partitioning algorithm K-Means K-Medoids 大型資料庫處理 綜合比較 總結 * 綜合比較 K means K medoids CLARA CLARANS 優點 簡單 不受極值 影響 可處理大型資料庫 找到最佳解 缺點 受極值影響 無法處理大型資料 不一定為最佳解 速度慢 複雜度 O(nkt) O(k(n-k)^2) O(ks^2+k(n-k)) O(n^2) 精確度 速度 * 目錄 Cluster Partitional clustering algorithm Partitioning algorithm K-Means K-Medoids 大型資料庫處理 綜合比較 總結 * 總結 Supervised clusterin

文档评论(0)

daoqqzhuan2 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档