第八节聚类分析.pptVIP

下载本文档

14
0
约1.15万字
约 56页
2018-06-16 发布于安徽
举报
版权申诉

第八节聚类分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第八章聚类分析 8.1 什么是聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。数据挖掘对聚类的典型要求如下：可伸缩性：一个大规模数据库可能包含几百万个对象，在这样的大数据集合样本上进行聚类可能会导致有偏的结果。我们需要具有高度可伸缩性的聚类算法。处理不同类型属性的能力发现任意形状的聚类用于决定输入参数的领域知识最小化处理噪声数据的能力对于输入记录的顺序不敏感高维度基于约束的聚类可解释性和可用性 8.2 聚类分析中的数据类型许多基于内存的聚类算法选择如下两种有代表性的数据结构：数据矩阵（或称为对象与变量结构）：它用 p 个变量（也称为度量或属性）来表现 n 个对象，例如用年龄，身高，性别，种族等属性来表现对象“人”。这种数据结构是关系表的形式，或者看为 n*p （n 个对象*p 个属性）的矩阵。相异度矩阵（或称为对象-对象结构）：存储 n 个对象两两之间的近似性，表现形式是一个 n*n 维的矩阵。在这里 d(i,j)是对象 i 和对象 j 之间相异性的量化表示，通常它是一个非负的数值，当对象 i 和j 越相似，其值越接近 0；两个对象越不同，其值越大。区间标度变量区间标度变量是一个线性标度的连续度量。典型的例子包括重量和高度，经度和纬度坐标，以及大气温度。选用的度量单位将直接影响聚类分析的结果。为了实现度量值的标准化，一种方法是将原来的度量值转换为无单位的值。计算平均的绝对偏差Sf： Sf = (|x1f-mf|+|x2f-mf|+…+|xnf-mf|)/n 这里的 x1f,…,xnf 是 f 的 n 个度量值，mf 是 f 的平均值，即 mf =(|x1f +x2f+…+xnf)/n 计算标准化的度量值： zif = (xif – mf) / sf 对象间的相异度（或相似度）是基于对象间的距离来计算的。最常用的距离度量方法是欧几里得距离：这里的 i=（xi1，xi2，…,xip）和 j=(xj1,xj2,…xjp)是两个 p 维的数据对象。曼哈坦距离： d（i，j）= |xi1-xj1|+|xi2-xj2|+…+|xip-xjp| 欧几里得距离和曼哈坦距离都满足对距离函数的如下数学要求： d（i，j）≥0：距离是一个非负的数值。 d（i，i）=0：一个对象与自身的距离是 0。 d（i，j）= d（j，i）：距离函数具有对称性。 d（i，j）≤ d（i，h）+d（h，j）：从对象 i 到对象 j 的直接距离不会大于途径任何其他对象的距离。明考斯基距离是欧几里得距离和曼哈顿距离的概化： d（i，j）=（|xi1-xj1|q+|xi2-xj2|q+…+|xip-xjp|q）1/q 这里的 q 是一个正整数。当 q=1 时，它表示曼哈顿距离；当 a=2 表示欧几里得距离。二元变量一个二元变量只有两个状态：0 或 1，0 表示该变量为空，1 表示该变量存在。二元变量的可能性表 q 是对对象 i 和 j 值都为 1 的变量的数目，r 是在对象 i 中值为 1，在对象 j 中值为 0 的变量的数目，s 是在对象 i 中值为 0，在对象 j 中值为 1 的变量的数目，t 是在对象 i 和 j 中值都为 0 的变量的数目。变量的总数是 p，p=q+r+s+t。如果它的两个状态有相同的权重,那么该二元变量是对称的，也就是两个取值 0 或 1 没有优先权。例，属性“性别”，它有两个值：“女性”和“男性”。基于对称二元变量的相似度称为恒定的相似度，即当一些或者全部二元变量编码改变时，计算结果不会发生变化。恒定的相似度，评价两个对象 i和 j 之间相异度的最著名的系数是简单匹配系数： d(i,j) = (r+s) / (q+r+s+t) 如果两个状态的输出不是同样重要，那么该二元变量是不对称的。给定两个不对称的二元变量，两个都取值 1 的情况（正匹配）被认为比两个都取值 0 的情况（负匹配）更有意义。对非恒定的相似度，对象i与对象j之间的相异度最著名的评价系数是 Jaccard 系数： d(i,j) = (r+s) / (q+r+s) 例：二元变量之间的相异度：假设一个病人记录表包含属性 name, gender, fever, cough, test-1, test-2, test-3, 和 test-4，这里的 name 是对象标识，gender是对称的二元变量，其余的属性都是非对称的二元变量。大部分为二元属性的关系表假设对象之间的距离只基于非

您可能关注的文档

文档评论（0）

189****6140 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第八节聚类分析.pptVIP