网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘2015最新课程完整(第13讲)---聚类重点.ppt

数据挖掘2015最新课程完整(第13讲)---聚类重点.ppt

  1. 1、本文档共87页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 3 4 5 最小距离的优势 Original Points Two Clusters 能处理非椭圆形的簇 最小距离的局限 Original Points Two Clusters 对噪声和孤立点敏感 簇的相似性: 最大距离 两个簇间的距离由这两个簇中最不相似的点所决定 1 2 3 4 5 6 1 2 5 3 4 簇的相似性: 最大距离 最大距离的优势 Original Points Two Clusters 对噪声和孤立点不是特别敏感 最大距离的缺陷 Original Points Two Clusters 有可能会割裂大的簇 倾向于球状的簇 簇的相似性: 簇平均距离 簇间的相似性由两个簇中每对数据点的平均距离来决定 避免了最大距离偏向于大簇的问题。 基于平均距离的层次聚类 Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 5 3 4 基于平均距离的层次聚类 层次聚类方法 层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为: 凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。 分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。 层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。 层次聚类优缺点 层次聚类方法是不可逆的,也就是说,当通过凝聚式的方法将两组合并后,无法通过分裂式的办法再将其分离到之前的状态,反之亦然。 另外,层次聚类过程中调查者必须决定聚类在什么时候停止,以得到某个数量的分类。 在不必要的情况下应该小心使用层次聚类方法。 聚类举例 例1:设有五位推销员,其教育水平和推销能力的评分如下,试用最短距离法将它们分类。 在聚类前先标准化,用标准化后的数据进行聚类: * * 推销员 推销能力 教育程度 1 1.2 1.2 2 1.2 2.4 3 7.1 3.6 4 9.6 2.4 5 9.6 0 推销员 1 2 3 4 5 推销能力 0 0 0.7 1 1 教育程度 0.33 0.67 1 0.67 0 规格化变换 样品间采用绝对值距离: 因此,G1与G2合并成新类G6。 * * 计算G6与其他类的距离: 由此得, * * G4与G3合并成新类G7,它与其它各类的距离如下: 由此得, * * G7与G5合并成新类G8,它与其它各类的距离如下: 由此得, 最后,将G6与G8合并为一类,由此结束聚类。 * * 将聚类过程通过谱系图反映出来。 * * 谱系聚类图的作用在于:根据实际问题希望分为几类,都可以从谱系聚类图中得到分类结果。 但到底分为几类最合适?并没有绝对正确的原则。一般可根据实际问题的不同,可以从谱系聚类图直观看出或通过分界值(阈值) 给出分类。 2. 最长距离法 定义类 与 之间的距离为两类最远样品的距离,即为: 然后将距离最小的两类合并。将类 与 合并为 ,则任一类 与 的类间距离公式为: * * 仍是上例,采用绝对距离的初始距离阵如下: 因此,G1与G2合并成新类G6。 * * 计算G6与其他类的距离: 由此得, * * G4与G3合并成新类G7,它与其它各类的距离如下: 由此得, * * G7与G5合并成新类G8,它与其它各类的距离如下: 由此得, 最后,将G6与G8合并,聚类结束。 * * 非对称认为都是0,无意义,比如 患肺癌 1,不患肺癌0,都不患肺癌 不说明他们相似 基于非对称距离,我们可以基于相似性而不是基于相异性来度量两个二元属性的差别。例如,对象i和j之间的非对称的二元相似性:Jaccard系数,它在文献中被广泛使用。 * 这些度量显示Jim和Mary不大可能患类似的疾病,因为他们具有最高的相异性。在这三个患者中,Jack和Mary最可能患类似的疾病。 * 它到其他所有(当前cluster中的)点的距离之和最小——作为中心点(medoid) * 为了减轻k均值算法对孤立点的敏感性,k中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。 中心点到其他所有(当前cluster中的)点的距离之和最小 * 目标函数仍然可以采用平方误差准则 * * K-平均聚类的细节 初始中心点是随机选择的 每次迭代之后簇往往会发生变化. 中心点一般是该簇的均值. “相似性”一般是通过Euclidean

文档评论(0)

三沙市的姑娘 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档