模式识别(六).pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别(六)

6 模式识别 (Pattern Recognition) 武汉大学计算机学院 袁志勇 Email: yuanzywhu@163.com 第4章 聚类分析 4.1 分类与聚类的区别 4.2 系统聚类/层次聚类 4.3 分解聚类 4.4 动态聚类(兼顾系统聚类和分解聚类) 4.5 聚类分析编程举例 按照“物以类聚、人以群分”的基本思想,对未知类 别的样本集根据样本之间的相似程度分类,相似的归 为一类,不相似的归为另一类,故这种分类称为聚类 分析(Clustering analysis),又常常叫做“聚类” 。 相似性测度、聚类准则和聚类算法称为聚类分析的 三要素。 相似性测度用于衡量同类样本的类似性和不同类样 本的差异性。常用的测度有:距离、夹角余弦等(详见 课件第一讲) 。 为了评价聚类效果的好坏,必须定义准则函数。有 了模式相似性测度和准则函数后,聚类就变成了使准 则函数取极值的优化问题了。常用的准则函数是误差 平方和准则。 4.1 分类与聚类的区别 – 分类(Classifying):用已知类别的样本训练集 来设计分类器(有监督学习: supervised learning) 我们在前面设计分类器时,训练样本集中 每个样本的类别归属都是“被标记了”的 (labeled),这种利用已标记样本集的学习方法 称为有监督学习方法。 – 聚类/集群(Clustering):事先不知样本的类 别,而利用样本的先验知识来构造分类器(无监 督学习: unsupervised learning) 4.2 系统聚类 系统聚类(又叫层次聚类/谱系聚类法:Hierarchical Clustering Method):先把每个样本(或指标)各自作为一类, 然后根据样本间的相似性和相邻性聚合。即将亲疏程度最高 的两类合并,如此重复进行,直到所有的样本都合成一类。 衡量亲疏程度的指标有两种:距离、相似系数。 相似性、相邻性一般用距离表示。 一、两类间的距离 1.最短距离:两类中相距最近的两样本间的距离。 D min d pq ij x ∈ω i p x ∈ω j q 2.最长距离 :两类中相距最远的两个样本间的距 离。 D max d pq ij x ∈ω i p x ∈ω j q 3. 中间距离:最短距离和最长距离都有片面性, 因此有时采用中间距离。假设某一步将ω 与ω 2 3 合并为类 ω ,需要计算ω 类与某类 ω 的距离。

文档评论(0)

rovend + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档