- 1、本文档共87页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 3 4 5 最小距离的优势 Original Points Two Clusters 能处理非椭圆形的簇 最小距离的局限 Original Points Two Clusters 对噪声和孤立点敏感 簇的相似性: 最大距离 两个簇间的距离由这两个簇中最不相似的点所决定 1 2 3 4 5 6 1 2 5 3 4 簇的相似性: 最大距离 最大距离的优势 Original Points Two Clusters 对噪声和孤立点不是特别敏感 最大距离的缺陷 Original Points Two Clusters 有可能会割裂大的簇 倾向于球状的簇 簇的相似性: 簇平均距离 簇间的相似性由两个簇中每对数据点的平均距离来决定 避免了最大距离偏向于大簇的问题。 基于平均距离的层次聚类 Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 5 3 4 基于平均距离的层次聚类 层次聚类方法 层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为: 凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。 分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。 层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。 层次聚类优缺点 层次聚类方法是不可逆的,也就是说,当通过凝聚式的方法将两组合并后,无法通过分裂式的办法再将其分离到之前的状态,反之亦然。 另外,层次聚类过程中调查者必须决定聚类在什么时候停止,以得到某个数量的分类。 在不必要的情况下应该小心使用层次聚类方法。 聚类举例 例1:设有五位推销员,其教育水平和推销能力的评分如下,试用最短距离法将它们分类。 在聚类前先标准化,用标准化后的数据进行聚类: * * 推销员 推销能力 教育程度 1 1.2 1.2 2 1.2 2.4 3 7.1 3.6 4 9.6 2.4 5 9.6 0 推销员 1 2 3 4 5 推销能力 0 0 0.7 1 1 教育程度 0.33 0.67 1 0.67 0 规格化变换 样品间采用绝对值距离: 因此,G1与G2合并成新类G6。 * * 计算G6与其他类的距离: 由此得, * * G4与G3合并成新类G7,它与其它各类的距离如下: 由此得, * * G7与G5合并成新类G8,它与其它各类的距离如下: 由此得, 最后,将G6与G8合并为一类,由此结束聚类。 * * 将聚类过程通过谱系图反映出来。 * * 谱系聚类图的作用在于:根据实际问题希望分为几类,都可以从谱系聚类图中得到分类结果。 但到底分为几类最合适?并没有绝对正确的原则。一般可根据实际问题的不同,可以从谱系聚类图直观看出或通过分界值(阈值) 给出分类。 2. 最长距离法 定义类 与 之间的距离为两类最远样品的距离,即为: 然后将距离最小的两类合并。将类 与 合并为 ,则任一类 与 的类间距离公式为: * * 仍是上例,采用绝对距离的初始距离阵如下: 因此,G1与G2合并成新类G6。 * * 计算G6与其他类的距离: 由此得, * * G4与G3合并成新类G7,它与其它各类的距离如下: 由此得, * * G7与G5合并成新类G8,它与其它各类的距离如下: 由此得, 最后,将G6与G8合并,聚类结束。 * * 非对称认为都是0,无意义,比如 患肺癌 1,不患肺癌0,都不患肺癌 不说明他们相似 基于非对称距离,我们可以基于相似性而不是基于相异性来度量两个二元属性的差别。例如,对象i和j之间的非对称的二元相似性:Jaccard系数,它在文献中被广泛使用。 * 这些度量显示Jim和Mary不大可能患类似的疾病,因为他们具有最高的相异性。在这三个患者中,Jack和Mary最可能患类似的疾病。 * 它到其他所有(当前cluster中的)点的距离之和最小——作为中心点(medoid) * 为了减轻k均值算法对孤立点的敏感性,k中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。 中心点到其他所有(当前cluster中的)点的距离之和最小 * 目标函数仍然可以采用平方误差准则 * * K-平均聚类的细节 初始中心点是随机选择的 每次迭代之后簇往往会发生变化. 中心点一般是该簇的均值. “相似性”一般是通过Euclidean
您可能关注的文档
- 我有一个梦想重点.ppt
- 思想品德:5.2《公民的权利和义务》(粤教版八年级下)重点.ppt
- 王建营无痛胃肠镜技术重点.ppt
- 上课输血与血型重点.ppt
- 生涯规划讲义第三讲:环境认知(2015.10)重点.ppt
- 围手术期病人的护重点.ppt
- 我的母亲(用)重点.ppt
- 十月份护理查房重点.ppt
- 三_unit1_复习试题_重点.ppt
- 无创通气病人的护理查房重点.ppt
- 新视野二版听说1第6单元示范1课件.ppt
- 【参考答案】 联络口译(第二版) 《联络口译》(第二版)参考答案.pdf
- 梅大高速茶阳路段“5·1”塌方灾害调查评估报告.docx
- 虹吸雨水PE管施工节点标准做法.pdf
- 2025消防设施施工质量常见通病防治手册,典型图示+规范要求.pptx
- 新视野大学英语(第二版)读写教程 4 空军工程大学编U05B.ppt
- E英语教程2(智慧版)Unit 6.pptx
- E英语教程3(智慧版)Unit 7.ppt
- 新视野二版读写1第4单元课件Section A How to Make a Good Impression.pptx
- E英语视听说教程4(智慧版)4-U2课件(2024版)U2.pptx
最近下载
- 食品风味化学(第二版) 课件 第10--12章 风味料在食品加工中的应用、食品的异味、食品风味质量评价与安全控制.pptx
- 大班语言《美丽的礼物》.ppt
- 孟子对先秦名实观发展的贡献-来源:现代哲学(第2019003期)-广东哲学学会.pdf VIP
- 2023年江西财经大学信息管理与信息系统专业《数据结构与算法》科目期末试卷B(有答案).docx VIP
- 乡镇交通安全课件PPT.pptx VIP
- 影视欣赏社团活动计划.docx VIP
- 食品风味化学(第二版) 课件 第8、9章 风味物质的提取与分析、 食品中风味的释放和稳定化.pptx
- 2023年江西财经大学信息管理与信息系统专业《数据结构与算法》科目期末试卷A(有答案).docx VIP
- 《进食障碍》课件.ppt VIP
- 音乐_上学歌_课件.pptx
文档评论(0)