网站大量收购闲置独家精品文档,联系QQ:2885784924

第9章聚类分析和判别分析讲过.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第9章聚类分析和判别分析讲过

第九章 聚类分析与判别分析 在实际工作中,我们经常遇到分类问题.若事先已经建立类别,则使用判别分析,若事先没有建立类别,则使用聚类分析. 聚类分析主要是研究在事先没有分类的情况下,如何将样本归类的方法.聚类分析的内容包含十分广泛,有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法. 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学, HYPERLINK /view/92404.htm \t _blank 计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些 HYPERLINK /view/1655430.htm \t _blank 技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类是将 HYPERLINK /view/3810806.htm \t _blank 数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。 从统计学的观点看,聚类分析是通过 HYPERLINK /view/1452242.htm \t _blank 数据建模简化数据的一种方法。 §9.1 聚类分析基本知识介绍 在MATLAB软件包中,主要使用的是系统聚类法. 系统聚类法是聚类分析中应用最为广泛的一种方法.它的基本原理是:首先将一定数量的样品(或指标)各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类合并,然后重复进行,直到所有的样品都合成一类.衡量亲疏程度的指标有两类:距离、相似系数. 一、常用距离 1)欧氏距离 假设有两个维样本和,则它们的欧氏距离为 2)标准化欧氏距离 假设有两个维样本和,则它们的标准化欧氏距离为 其中:表示个样本的方差矩阵,,表示第列的方差. 3)马氏距离 假设共有个指标,第个指标共测得个数据(要求): , 于是,我们得到阶的数据矩阵,每一行是一个样本数据.阶数据矩阵的阶协方差矩阵记做. 两个维样本和的马氏距离如下: 马氏距离考虑了各个指标量纲的标准化,是对其它几种距离的改进.马氏距离不仅排除了量纲的影响,而且合理考虑了指标的相关性. 4)布洛克距离 两个维样本和的布洛克距离如下: 5)闵可夫斯基距离 两个维样本和的闵可夫斯基距离如下: 注:时是布洛克距离;时是欧氏距离. 6)余弦距离 这是受相似性几何原理启发而产生的一种标准,在识别图像和文字时,常用夹角余弦为标准. 7)相似距离 二、MATLAB中常用的计算距离的函数 假设我们有阶数据矩阵,每一行是一个样本数据. 在MATLAB中计算样本点之间距离的内部函数为 y=pdist(x) 计算样本点之间的欧氏距离 y=pdist(x,seuclid) 计算样本点之间的标准化欧氏距离 y=pdist(x,mahal) 计算样本点之间的马氏距离 y=pdist(x,cityblock) 计算样本点之间的布洛克距离 y=pdist(x,minkowski) 计算样本点之间的闵可夫斯基距离 y=pdist(x,minkowski,p) 计算样本点之间的参数为p的闵可夫斯基距离 y=pdist(x,cosine) 计算样本点之间的余弦距离 y=pdist(x,correlation) 计算样本点之间的相似距离 另外,内部函数yy=squareform(y)表示将样本点之间的距离用矩阵的形式输出. 三、常用的聚类方法 常用的聚类方法主要有以下几种:最短距离法、最长距离法、中间距离法、重心法、平方和递增法等等. 四、创建系统聚类树 假设已经得到样本点之间的距离y,可以用linkage函数创建系统聚类树,格式为z=linkage(y). 其中:z为一个包含聚类树信息的(m-1)3的矩阵.例如: z= 2.000 5.000 0.2 3.000 4.000 1.28 则z的第一行表示第2、第5样本点连接为一个类,它们距离为0.2;则z的第二行表示第3、第4样本点连接为一个类,它们距离为1.28. 在MATLAB中创建系统聚类树的函数为 z=linkage(y) 表示用最短距离法创建系统聚类树 z=linkage(y,complete) 表示用最长距离法创建系统聚类树 z=linkage(y,average)

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档