网站大量收购闲置独家精品文档,联系QQ:2885784924

分群法丛聚分析法.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分群法 叢聚分析法 (Clustering) 中原大學 資訊管理系老師 李維平 有一個資料庫的資料如下 把這些資料分成 3 個群組 分群法 (Data Clustering) 定義: 把資料庫中的資料分成群組 好的分群法應滿足下列兩個條件: 讓群組內的資料相似度高 讓群組跟群組間的資料相似度低 應用實例一:恆星賀羅圖 應用實例二:美國女士官兵制服尺寸系統 應用實例二:美國女士官兵制服尺寸系統 傳統衣服尺寸: S M L XL 有哪些方法方法? 分割式 (partitional) K-Means 階層式 (hierachical) 聚合式 分裂式 K Means 法 (分割式) 麥昆 (J. B. Mac Queen) 於1967年提出 如何算 中心點 (Centroid) ? (Step 1)隨意選三個種子點 (Step 2)利用種子點將所有點分群 (Step 3) : 找新中心點 (Step 4)利用新中心點將所有點分群 The K-Means Clustering Method Given k, the k-means algorithm is implemented in 4 steps: Partition objects into k nonempty subsets Compute seed points as the centroids of the clusters of the current partition. The centroid is the center (mean point) of the cluster. Assign each object to the cluster with the nearest seed point. Go back to Step 2, stop when no more new assignment. The K-Means Clustering Method Example Comments on the K-Means Method Strength Relatively efficient: O(tkn), where n is # objects, k is # clusters, and t is # iterations. Normally, k, t n. Often terminates at a local optimum. The global optimum may be found using techniques such as: deterministic annealing and genetic algorithms Weakness Applicable only when mean is defined, then what about categorical data? Need to specify k, the number of clusters, in advance Unable to handle noisy data and outliers Not suitable to discover clusters with non-convex shapes Hierarchical Clustering Use distance matrix as clustering criteria. This method does not require the number of clusters k as an input, but needs a termination condition 凝聚法 一開始讓每個資料點皆成為一群集 然後逐漸合併最相近的群集,直到所有點聚集成一個大群集為止 整個過程都被保存下來,可選擇最適合的群集層次 單一連結法 兩個群集之間的距離以兩者之間「最接近」的成員距離為準。 其特質在於,群集內任意兩點的距離必定小於群集間的距離。 單一連結法 比較中心法 一個群集的中心就是其組成單元的平均 兩個群集之間的距離是以彼此的中心距離為準 比較中心法 完整連結法 兩個群集之間的距離以群集中「距離最遠」的成員距離為準。 其特質在於群集內所有成員都位於一個已知的最大範圍之內,也就是群集內的最小值和最大值之間 完整連結法 AGNES (Agglomerative Nesting) Introduced in Kaufmann and Rousseeuw (1990) Implemented in statistical analysis packages, e.g., Splus Use the Single-Link method and

文档评论(0)

lyxbb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档