数据挖掘2015最新课程完整(第13讲)---聚类重点.ppt

下载文档 降价啦

47
0
约9.8千字
约 87页
2016-05-07 发布于湖北
举报
版权申诉
保障服务

数据挖掘2015最新课程完整(第13讲)---聚类重点.ppt

1、本文档共87页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 3 4 5 最小距离的优势 Original Points Two Clusters 能处理非椭圆形的簇最小距离的局限 Original Points Two Clusters 对噪声和孤立点敏感簇的相似性: 最大距离两个簇间的距离由这两个簇中最不相似的点所决定 1 2 3 4 5 6 1 2 5 3 4 簇的相似性: 最大距离最大距离的优势 Original Points Two Clusters 对噪声和孤立点不是特别敏感最大距离的缺陷 Original Points Two Clusters 有可能会割裂大的簇倾向于球状的簇簇的相似性: 簇平均距离簇间的相似性由两个簇中每对数据点的平均距离来决定避免了最大距离偏向于大簇的问题。基于平均距离的层次聚类 Nested Clusters Dendrogram 1 2 3 4 5 6 1 2 5 3 4 基于平均距离的层次聚类层次聚类方法层次聚类方法对给定的数据集进行层次的分解，直到某种条件满足为止。具体又可分为：凝聚的层次聚类：一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到某个终结条件被满足。分裂的层次聚类：采用自顶向下的策略，它首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件。层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。层次聚类优缺点层次聚类方法是不可逆的，也就是说，当通过凝聚式的方法将两组合并后，无法通过分裂式的办法再将其分离到之前的状态，反之亦然。另外，层次聚类过程中调查者必须决定聚类在什么时候停止，以得到某个数量的分类。在不必要的情况下应该小心使用层次聚类方法。聚类举例例1：设有五位推销员，其教育水平和推销能力的评分如下，试用最短距离法将它们分类。在聚类前先标准化，用标准化后的数据进行聚类： * * 推销员推销能力教育程度１ 1.2 1.2 ２ 1.2 2.4 ３ 7.1 3.6 ４ 9.6 2.4 ５ 9.6 0 推销员 1 2 3 4 5 推销能力 0 0 0.7 1 1 教育程度 0.33 0.67 1 0.67 0 规格化变换样品间采用绝对值距离：因此，G1与G2合并成新类G6。 * * 计算G6与其他类的距离：由此得， * * G4与G3合并成新类G7，它与其它各类的距离如下：由此得， * * G7与G5合并成新类G8，它与其它各类的距离如下：由此得，最后，将G6与G8合并为一类，由此结束聚类。 * * 将聚类过程通过谱系图反映出来。 * * 谱系聚类图的作用在于：根据实际问题希望分为几类，都可以从谱系聚类图中得到分类结果。但到底分为几类最合适？并没有绝对正确的原则。一般可根据实际问题的不同，可以从谱系聚类图直观看出或通过分界值（阈值）给出分类。 2. 最长距离法定义类与之间的距离为两类最远样品的距离，即为：然后将距离最小的两类合并。将类与合并为，则任一类与的类间距离公式为: * * 仍是上例，采用绝对距离的初始距离阵如下：因此，G1与G2合并成新类G6。 * * 计算G6与其他类的距离：由此得， * * G4与G3合并成新类G7，它与其它各类的距离如下：由此得， * * G7与G5合并成新类G8，它与其它各类的距离如下：由此得，最后，将G6与G8合并，聚类结束。 * * 非对称认为都是0，无意义，比如患肺癌 1，不患肺癌0，都不患肺癌不说明他们相似基于非对称距离，我们可以基于相似性而不是基于相异性来度量两个二元属性的差别。例如，对象i和j之间的非对称的二元相似性：Jaccard系数，它在文献中被广泛使用。 * 这些度量显示Jim和Mary不大可能患类似的疾病，因为他们具有最高的相异性。在这三个患者中，Jack和Mary最可能患类似的疾病。 * 它到其他所有（当前cluster中的）点的距离之和最小——作为中心点（medoid） * 为了减轻k均值算法对孤立点的敏感性，k中心点算法不采用簇中对象的平均值作为簇中心，而选用簇中离平均值最近的对象作为簇中心。中心点到其他所有（当前cluster中的）点的距离之和最小 * 目标函数仍然可以采用平方误差准则 * * K-平均聚类的细节初始中心点是随机选择的每次迭代之后簇往往会发生变化. 中心点一般是该簇的均值. “相似性”一般是通过Euclidean