- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4、重心法:Centroid clustering(样品的均值法):类与类间的距离定义为两类重心(各类样品的均值)间的距离,重心指标对类有很好的代表性,但利用各样本的信息不充分。 ? ? 课件精选 * 分别为Gp和Gq的重心,类与类之间的距离定义为两个类重心(类内样品平均值)间的平方距离。 设Gp和Gq 为两个类 课件精选 * Gr类的重心为 和 的加权算术平均数: 课件精选 * 重心法递推公式 假设第p类和第q类合并成第r类, 则第r类与其它各旧类GJ的距离按重心法为: 课件精选 * 用重心法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵: ? 0 ? ? ? ? 1 0 ? ? ? 6.25 2.25 0 ? ? 36 25 12.25 0 ? 64 49 30.25 4 0 课件精选 * G4和G6的距离为 课件精选 * 类似于方差分析的想法,如果类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。 5、离差平方和法(Ward’s Method) 具体做法:先让n个样品各自成一类,然后缩小一类,每缩小一类离差平方和就要增大,选择使S2增加最小的两类合并,直到所有的样品归为一类为止。 课件精选 * 把Gp和Gq合并为Gr类 各类内样品的离散程度为 课件精选 * 这种系统聚类法称离差平方和法或Ward法 课件精选 * 课件精选 * 如 和 为一类,则离差平方和 如 和 为一类,则离差平方和 和 被聚为新类,重心为 课件精选 * ? 0 ? ? ? ? 0.5 0 ? ? ? 3.125 1.125 0 ? ? 18 12.50 6.125 0 ? 32 24.50 15.125 2 0 课件精选 * 1、样品相似性度量:距离 距离定义的准则:定义距离要求满足第i个和第j个样品之间的距离如下四个条件(距离可以自己定义,只要满足距离的条件) 课件精选 * 2、常用距离的算法 设 和 是第i和 j 个样品的观测值,则二者之间的距离 为: 闵氏距离 √欧氏距离 (1) 闵可夫斯基距离(明氏距离Minkowski) 绝对距离 当q=1时 切比雪夫距离 当q→∞时 课件精选 * 闵氏距离有以下缺点: ①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。 ②明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,闵考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。 课件精选 * (2)马氏距离(广义欧氏距离) 是印度著名统计学家马哈拉诺比斯(P.C.Mahalanobis)所定义的一种距离,设xi,xj是来自均值向量 总体G中的P维样品,则其计算公式为: 课件精选 * 马氏距离与前述距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,不再受个指标量纲的影响,将原始数据做线性变换后,马氏距离不变。为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。 课件精选 * 例如,假设有一个二维正态总体,它的分布为: 课件精选 * (3)兰氏距离:兰思和维廉姆斯(Lance Williams)所给定的一种距离, 其计算公式为: 这是一个自身标准化的量,由于它对大的奇异值不敏感,特别适合于高度偏倚的数据。虽然这个距离有助于克服闵氏距离的第一个缺点(与各变量单位无关),但它也没有考虑指标之间的相关性。 课件精选 * (4) 斜交空间距离 由于各变量之间往往存在着不同的相关性,用欧氏距离来显得不太敏感,所以有人建议采用斜交空间距离 当各变量之间不相关时, 斜交空间退化为欧氏距离。(除相差一常数) 课件精选 * 3、相似系数(变量相似性度量) (1)相似系数 设
文档评论(0)