- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章 非监督学习与聚类方法 8.1 引言 统计模式识别依学习与否可分成两类: 1) 监督学习分类:(如前所述)是在已知类别标签的样本集的基础上进行分类(即已知类条件概率密度下的分类)。 2)非/无监督学习分类:不知类别标签的样本集下进行分类(即不知类条件概率密度下的分类)。 非监督学习方法又可分为两大类: 1)基于概率密度函数估计的直接方法 2)基于样本间相似性度量的间接聚类方法 即按照样本间的相似性(常用距离来表示两样本间的相似度)把集合划分成若干个子集,划分的结果应使某种表示聚类质量的准则函数为最大。 聚类方法:就是将同一个聚合类的模式比不同聚合类中模式更相近。其原理就是在没有先验知识的情况下,基于“物以类聚”观点,用数学方法分析各模式向量之间的距离及分散情况,按照样本的距离远近划分类别—即属于非监督学习。 聚类分类的结果可用来对数据提出初始假设,对新数据分类,测试数据的同类性及压缩数据。 由于数据集的复杂性,所以目前还没有通用的聚类方法来识别所有这些结构。即每个新的聚类算法对特殊的数据结构比已有的算法会显得更有效。 聚类分析与样本模式向量的分布形式密切相关。 聚类算法的重点是寻找特定形状的聚合类。 聚类分析中,由于可获得的信息甚少,即没有关于类 别数目的任何知识,所以需要有一个好的数据结构,而数据结构的组织依赖于数据的格式、大小和形状等,常用的数据结构有: 模式向量: 模式矩阵:p×n矩阵,由模式向量构成,其行表示模式,列表示特征(特征可看作是一级正交的轴,而模式可看作n维空间(特征空间)中的点) 逼近度矩阵:p×p矩阵,其行列均代表模式,而 矩阵的元素表示对应行列的一对模式之间的近似度(相似性)。逼近度矩阵常由模式使用欧氏距离方法来求得(要用到分级技术)。 聚类的定义有三种: 1)聚类是那些相似的实体的集合,而且不同的聚类内的实体是不相似的; 2)特征空间中点的聚合。即在一个聚类内的两个点间的距离小于在这个类内的任意一点和不在这个类内的另一任意点的距离。 3)可被描述成n维空间内这样连接的区域,包含较高密度点的区域通过包含较低密度点的区域与其它较高密度点的区域相分。 总之,聚类方法就是把两个最接近的模式放于同一聚类内。 8.2 模式相似性测度 为了能将模式集划分成不同的类别,需定义一种相似性的测度来度量同一类样本间的类似性和不同样本间的差异性。常用有: 1)欧氏距离 2)马氏(Mahalanobis)距离 注:马氏距离的使用难点在于: ∑难以得到。 3)明氏(Minkowski)距离 式中:X、Z为样本向量;xk和zk分别为X和Z的第k个分量; m为正整数。 4)角度相似性函数 即为模式向量X和Z之间夹角的余弦。 注:① 这几种测度都涉及把两个比较的向量X和Z的分量值 组合起来,也就是说,对于具体的模式分类,需视情况选择适当的组方法。 ② 不同的测度度量可能导致对同样数据的不同划分。 8.3 聚类准则 有了相似性测度,就能聚类相似的模式样本,而要剔出相异的样本,就需有数值描述的聚类准则。 聚类是将样本进行组合分类以使类别分离性为最大,而类别是由若干个样本组成。聚类准则应是反映类别间相似性或分离性的函数且与样本X和类别有关,所以其一般定义为: J=f(X,ωi) i=1,2,…,c 式中:X为样本,ωi为分类类别。 误差平方和准则 式中:c为聚类类别数目, 为属于ωi类的样本均值向量,Ni为ωi中样本的数目。 注:1) 即Je是ωi类中各样本X与均值Mi间的误差平方和对所有类相加。 2) Je度量了用c个聚类中心M1,…,MC代表c个样本子集ω1,…,ωc时所产生的总的误差平方。 3) 常用的。适用于那些相互间分离较开的能形成紧密状的聚类。 8.4 聚类方法 聚类方法和聚类算法是不同的。相同的聚类方法可用不同的途径来实现,从而产生一系列聚类算法。 常用的聚类算法基本上都是以寻找使分类的均方误差最小为基础的。 聚类算法可分成两类: 1)动态聚类方法:通过对每个模式的标记把模式组织成少量的聚类,即给出单一的分类。 2)系统聚类方法:是把模式样本聚合成一系列聚类的分层结构,所得到的系统结构可由一个树形图来表示。 一、动
文档评论(0)