相似性概念与聚类分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析 Single Linkage 聚类分析 Single linkage的优缺点 优点: Single Linkage: J. Haritgan(1981, JASA, 76(374)) 证明了只有Single linkage 可以统计一致的发现发现高密度类, average linkage和complete linkage 不具有此性质 缺点: 不能发现不同密度的类 受噪音影响特别厉害 难点:有一个很难确定的参数, 聚类数或者阈值 聚类分析 DBSCAN 算法 算法的思想是寻找具有足够高密度的连通区域划分作为类,而低密度区域的点则作为孤立点。 一个点的密度可以看作所有样本点与此点的相似度之和 优点:可以发现任意形状类 缺点: 两个参数(密度水平参数,近邻参数), 难以选择 聚类分析 DBSCAN等算法 (DBSCAN) M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. 1996. A density-based algorithm for discovering clusters in large spatial databases. KDD96 聚类分析 QT clustering QT(Quality Threshold)聚类算法是通过限定类的直径来聚类的。主要思想是:如果定义了相异矩阵对应的图,类的直径应该不大于给定的阈值。因此,其流程如下:选定一个样本,逐渐合并与其最相似的样本,直到再增加样本将导致类的直径超过给定的阈值为止,然后选定下一个样本,重新聚类。 Heyer, L.J., et al. “Exploring Expression Data: Identification and Analysis of Coexpressed Genes”. Genome Research, 9:1106-1115 (1999) 聚类分析 现存样例型聚类算法的不足 The predefined parameters such as the number of clusters for additive clustering, the preference value and the damping factor for the affinity propagation, the number of clusters for spectral clustering, Threshold for cluster diameter High complexity of additive clustering, quality threshold No convergence proof of Affinity propagation No calculation results for Spectral clustering if similarity matrix is not proper 聚类分析 对应经典概念的聚类算法 如果经典概念的外延来表示划分,即可以用划分矩阵来表示.这样发展出来的算法可以称为划分矩阵型聚类算法。 主要有三种技术 聚类分析 基于矩阵分解技术 算法的输入是相似矩阵,计算的主要依据是可将相似矩阵分解成划分矩阵的乘积这样的形式,这样的聚类算法有基于非负矩阵分解的聚类算法 ,以及异质聚类算法中的矩阵分解聚类算法,可加性聚类算法(additive clustering)也可以勉强归为这样的算法 聚类分析 基于信息论 算法的输入是概率分布矩阵,文献中的算法有信息瓶颈(information bottleneck)聚类算法,以及异质聚类算法的互信息联合聚类算法等等 聚类分析 基于margin 理论 现有的方法有支持向量机聚类算法(support vector clustering)和最大margin聚类算法(maximum margin clustering) 类的复杂性讨论 概念的定义是一个非常难的问题. 类是什么也一直是聚类分析研究者面对的核心难题. 类原型聚类算法可以处理相切类, 重叠类, 条件是类原型合适 任意形状类(I) 任意形状类(II) 非同质类 相切类 重叠类 重叠类在图像中的表现 混合类 Cited from Jain, A.: Data clustering: 50 years beyond k-means. Pattern Recognition Letters (Available on line 9 Sept. 2009) 现存聚类算法的优缺点 类原型聚类算法可以处理相切类, 重叠类, 条件是类原型合适。 但是对于任意形状类处理不好 连通类聚类算法能够处理弱相切类(但是比较复杂),一般的相切类和重叠类处理

文档评论(0)

benzei244572 + 关注
实名认证
内容提供者

建筑工程师持证人

没啥好说的额

领域认证该用户于2024年10月16日上传了建筑工程师

1亿VIP精品文档

相关文档