- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
五邑大学信息学院 何国辉 1. k-Means方法(续) 4)根据距离重心M1、M2的最小距离,再分配所有的样本: d(M1,x1) = (1.662+1.342)1/2 = 2.14 d(M2,x1) = 3.4 则x1∈C1 d(M1,x2) = d(M2,x2) = 则x2∈… d(M1,x3) = d(M2,x3) = 则x3∈… d(M1,x4) = d(M2,x4) = 则x4∈… d(M1,x5) = d(M2,x5) = 则x5∈C1 1. k-Means方法(续) 5)得到新类C1和C2,并计算新的重心M1、M2 6)计算新的类内方差和总体平方误差: 7)如果总体平方误差在规定范围,结束,否则再次迭代,直到满足要求。 1. k-Means方法(续) k-Means方法的优点: 对于处理大数据量具有可扩充性和高效率。算法的复杂度是O(tkn),其中n是对象的个数,k是Cluster的个数,t是循环的次数,通常k,tn。 可以实现局部最优化。 1. k-Means方法(续) k-Means方法的缺点: 族的个数k必须事先确定。在有些应用中,事先确定族的个数非常困难。 无法找出具有特殊形状的族。 必须给出k的初始中心点,如果初始中心点选择不好,最后形成的聚类结果明显很差。 求中心点时,需要计算算术平均。无法适应具有分类属性的数据。 1. k-Means方法(续) k-Means方法的变种 k-Modes方法 k-Prototypes算法 ...... 2. k-Medoids方法 k-Medoids方法是在k-Means方法的而基础上提出的。 主要思想是:为每个族找到一个具有代表性的对象,该对象被称为Medoid,是最靠近该族中心点的对象。剩余的对象根据其与代表对象的距离分配给最近的一个簇。然后反复用非代表对象代替代表对象,以提高聚类的质量。 一旦k个Medoids确定下来,则每个对象就属于距它最近的Medoid所属族。 2. k-Medoids方法(续) k-Medoids方法的主要优点: 可以很好地处理噪音数据。这种算法对于脏数据和异常数据不敏感,但计算量显然要比K均值要大,一般只适合小数据量。 算法的结果与数据的输入顺序无关。 2. k-Medoids方法(续) PAM(Partitioning Around Medoids,围绕中心点的分割算法)方法是较早提出的一种k-Medoids方法。 2. k-Medoids方法(续) 主要思想: 任意选择k个对象作为k个Medoids(中心点); 计算每个对象好而每个Medoids之间的距离; 把每个对象分配给距它最近的Medoids所属的族; 随机选取一个非Medoids对象Orandom,计算用Orandom替换某个族的Medoids Oj所能带来的好处(用?E表示评分函数)。如果?E0,则用Orandom替换Oj。 重复(2),(3),(4)步,直到算法收敛。 10.2.2 基于密度的聚类方法 划分聚类方法是基于数据对象间的距离实现的,该类方法具有三个先天的缺陷: 必须事先输入一个参数k; 只能适应于球形的族; 聚类的结果与初始中心点的选择有很大关系。 为了能够找出任意形状的族,人们提出了基于密度的聚类方法。 该类方法认为:族是数据空间中数据比较密集的区域。 10.2.2 基于密度的聚类方法(续) 基于密度的聚类方法基本思想是:只要临近区域的密度(对象或数据点的数目)超过某个值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围的区域中必须至少包含某个数目点。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。 10.2.2 基于密度的聚类方法(续) 是一种基于距离的划分方法。 主要有两类:基于连通性的算法和基于密度函数的算法。 基于连通性的算法有:DBSCAN、GDBSCAN、OPTICS、DBCLASD等。 基于密度函数的算法有:DBNCLUE等。 10.2.3 基于层次的聚类方法 基于层次的聚类方法(hierarchical method)的基本思想是:对给定数据对象集合进行层次的分解。根据层次的分解如何形成,层次的方法可以分为凝聚的和分裂的。 该方法按群组的嵌套顺序组织数据,以树状图或树形结构来表示。 10.2.3 基于层次的聚类方法(续) 10.2.3 基于层次的聚类方法(续) 凝聚的方法: 又称为自底向上的方法,一开始将每个对象作为单独的一个组,然后根据一些规则相继地合并相近的对象或者组,将它们聚合成越来越大的类,直到所有的组合并为一个,或者达到一个预先设定的终止条件。例如,如果类C1和类C2之间的距离小于预定的最小
您可能关注的文档
最近下载
- 第六章 树和二叉树课件.ppt VIP
- 2023年辽宁省抚顺市、葫芦岛市中考数学试卷(附答案详解).docx VIP
- 危大工程巡视检查记录表(模版).pdf VIP
- 专题2.16 《实数》计算题(专项练习)(基础篇100题).docx
- [国家开放大学电大本科《古代汉语专题》2021期末试题及答案(试卷号:1310)].pdf VIP
- 2022国家开放大学电大本科《古代汉语专题》期末试题及答案〔试卷号:1310〕.pdf VIP
- 附着式升降脚手架维保记录表.docx VIP
- 抗心律失常药物临床应用中国专家共识(2023版)解读.pptx VIP
- 国家开放大学电大本科《古代汉语专题》2023期末试题及答案(试卷号:1310).pdf VIP
- 河南2025专升本专业英语考试真题及答案2025.pdf VIP
文档评论(0)