- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分群法 叢聚分析法(Clustering) 中原大學 資訊管理系老師 李維平 有一個資料庫的資料如下 把這些資料分成 3 個群組 分群法 (Data Clustering) 定義: 把資料庫中的資料分成群組 好的分群法應滿足下列兩個條件: 讓群組內的資料相似度高 讓群組跟群組間的資料相似度低 應用實例一:恆星賀羅圖 應用實例二:美國女士官兵制服尺寸系統 應用實例二:美國女士官兵制服尺寸系統 傳統衣服尺寸: S M L XL 有哪些方法方法? 分割式 (partitional) K-Means 階層式 (hierachical) 聚合式 分裂式 K Means 法 (分割式) 麥昆 (J. B. Mac Queen) 於1967年提出 如何算 中心點 (Centroid) ? (Step 1)隨意選三個種子點(Step 2)利用種子點將所有點分群 (Step 3) : 找新中心點 (Step 4)利用新中心點將所有點分群 The K-Means Clustering Method Given k, the k-means algorithm is implemented in 4 steps: Partition objects into k nonempty subsets Compute seed points as the centroids of the clusters of the current partition. The centroid is the center (mean point) of the cluster. Assign each object to the cluster with the nearest seed point. Go back to Step 2, stop when no more new assignment. The K-Means Clustering Method Example Comments on the K-Means Method Strength Relatively efficient: O(tkn), where n is # objects, k is # clusters, and t is # iterations. Normally, k, t n. Often terminates at a local optimum. The global optimum may be found using techniques such as: deterministic annealing and genetic algorithms Weakness Applicable only when mean is defined, then what about categorical data? Need to specify k, the number of clusters, in advance Unable to handle noisy data and outliers Not suitable to discover clusters with non-convex shapes Hierarchical Clustering Use distance matrix as clustering criteria. This method does not require the number of clusters k as an input, but needs a termination condition 凝聚法 一開始讓每個資料點皆成為一群集 然後逐漸合併最相近的群集,直到所有點聚集成一個大群集為止 整個過程都被保存下來,可選擇最適合的群集層次 單一連結法 兩個群集之間的距離以兩者之間「最接近」的成員距離為準。 其特質在於,群集內任意兩點的距離必定小於群集間的距離。 單一連結法 比較中心法 一個群集的中心就是其組成單元的平均 兩個群集之間的距離是以彼此的中心距離為準 比較中心法 完整連結法 兩個群集之間的距離以群集中「距離最遠」的成員距離為準。 其特質在於群集內所有成員都位於一個已知的最大範圍之內,也就是群集內的最小值和最大值之間 完整連結法 AGNES (Agglomerative Nesting) Introduced in Kaufmann and Rousseeuw (1990) Implemented in statistical analysis packages, e.g., Splus Use the Single-Link method and
您可能关注的文档
- 【数学运算】2015国考行测每日一练:容斥原理与抽屉原理精讲.doc
- 【政治】2010届北京市海淀区高三上学期期中考试(政治).doc
- 1.2.2_直角三角形.ppt
- 1.3三角函数的图象与性质(8课-时).ppt
- 1.4.全称量词和存在量词-2.ppt
- 2.1-二次函数-课件(九上).ppt
- 2.4中国的的气象灾害-示范课件.ppt
- 2chapter1方阵的行列式.ppt
- 3.3.1,3.3.2课件(人教B版必修三).ppt
- 4《字音档案——汉字的注音方法》课件.ppt
- 2022年北京市燕山初三(上)期末物理试卷及答案.docx
- 专题49 一次函数的应用之其他问题(解析版).pdf
- 专题49 一次函数的应用之其他问题(原卷版).pdf
- 2022年北京市平谷初三(上)期末物理试卷及答案.docx
- 《价格术语》课件.ppt
- 专题48 一次函数的应用之最大利润问题(解析版).pdf
- 专题48 一次函数的应用之最大利润问题(原卷版).pdf
- 2022年北京市平谷初三(上)期末物理试卷及答案.pdf
- 专题48 解答题最常考题型一次函数的实际应用(原卷版).pdf
- 专题48 韦达定理与根的判别式-2022-2023学年初中数学学科素养能力培优竞赛试题精选专练(解析版).pdf
文档评论(0)