ch10聚类综述.ppt

  1. 1、本文档共112页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析 (非监督学习方法) ------将无类别标签的样本集分类 引言 以前讨论的分类方法都是在已知类别标签的样本集的基础上进行的(统计分类).可是,在很多实际应用中由于缺少形成模式类过程的知识,或者由于实际工作中的困难(例如卫星遥感照片上各象元的分类问题),我们往往只能用没有类别标签的样本集进行工作.这就是通常所说的非监督学习方法(数据聚类) 分类与聚类的区别 分类:用已知类别的样本训练集来设计分类器(监督学习) 聚类(集群):用事先不知类别的样本,利用样本的先验知识来构造分类器(非监督学习) 非监督学习方法的分类 一般来说非监督学习方法可以分成两大类,即 一、基于混合概率密度函数p(x)估计的直接方法. 这类方法又叫作:Mixture Model-Based Clustering. 其中:Gaussian Mixture Model是最常用的. 这方面的研究常在以下两方面进行: 1).find modes in a data sample set; 在这方面中,首先要根据样本集利用Maximum-Likelihood Training方法估计混合概率密度函数p(x),而后再利用Entropy Theory 或Mutual Information Theory作为准则进行聚类(find modes)。详见参考资料4,5 find modes in a given Gaussian mixture model(of known parameters) 在这方面中,由于p(x)已知,可直接利用 gradient-quadratic search或a fixed-point search来聚类(find modes)详见参考资料6 Define the modes as regions where the density function is concave. 在这方面中, 通过分析输入模式的分布,Modes are detected by means of a test which determines locally the convexity of the multivariate p.d.f(probability density function)。详见参考资料7 这三方面共有的缺点是: Be sensitive to local irregularities in the data structure! 非监督学习方法的分类(续2) 二、基于样本间相似性度量的间接聚类方法. 10.2.2 基于对称集性质的单峰子集分离法 什么是对称集? 解决问题的思路:显然对称集一定是单峰的.因此假使我们把给定的集合划分为一些对称子集.则就自然地得到各个聚类. 存在的问题:任何一个集合都可以分成偶数个对称子集,因此对称子集的数目远远超过实际的聚类数。 解决办法:从众多的对称子集中选取那些包含有p(y)局部最大值的那些子集作为核,而把其余的对称子集按照其概率密度函数有最大值的那一点和哪一个核最为靠近就与那个核合并在一起。 在类别数c(单峰区域Si的个数)已知的条件下,可把样本集X作为训练样本集进行分类器设计. 参考资料 Ming Tang Songde Ma, “ A New Scheme of Classification Base on Scale Space” technical report,Nat’l Laboratory of Pattern Recognition,Inst. Of Auto,Chinese Academy of Sciences,2000 Ming Tang Songde Ma,“General Scheme of Region Competition Based on Scale Space”Trans on Pattern Analysis and Machine Intelligence,Vol.23,No.12,DEC 2001 R.Wilson and M.Spann,“A New Approach to Clustering,” Pattern Recognition,vol.23,no.12,pp1413-1425,1990 Zhong Rong Yang “ Mutual Information Theory for Adaptive Mixture Models”Trans on PAMI ,vol23 no.4,April 2001(已下载) 距离度量应满足的三个公理 一、常用的距离测度 一、常用的距离测度 二、常用的匹配测度 二、常用的匹配测度 二、常用的匹配测度 2)Tanimoto系数(又称广义Jaccard系数): 二、常用的匹配测度 三

文档评论(0)

***** + 关注
实名认证
内容提供者

我是自由职业者,从事文档的创作工作。

1亿VIP精品文档

相关文档