ch9 聚类分析-13课件.pptVIP

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
层次聚类:先把每个样本作为一类,然后根据它们间的相似性和相邻性聚合。 相似性、相邻性一般用距离表示 1. 最短距离: 两类中相距最近的两样品间的距离 2、最长距离:两类中相距最远的两样本间的距离 10.3.2 层次聚类方法 最短距离举例: 最长距离举例: 3、中间距离:最短距离和最长距离都有片面性,因此有时用中间距离。设ω1类和ω23 类间的最短距离为d12,最长距离为d13,ω23 类的长度为d23,则中间距离为: 4、均值距离: 10.3.2 层次聚类方法 划分序列:N个样本自底向上逐步合并一类: 每个样本自成一类(划分水平1) K水平划分的进行:计算已有的c=N-K+2个类的类间距离矩阵D(K-1)=[dij](K-1),其最小元素记作d(K-1),相应的两个类合并成一类; 重复第2步,直至形成包含所有样本的类(划分水平N) 划分处于K水平时,类数c = N-K+1,类间距离矩阵D(K)=[dij](K),其最小元素记作d(K) 如果D(K) 阈值dT,则说明此水平上的聚类是适宜的 10.3.2 层次聚类方法 层次聚类树表示方法 y1 y2 y3 y4 y5 y6 1-水平 -- 2-水平 -- 3-水平 -- 4-水平 -- 5-水平 -- 6-水平 -- 分级 聚类 例:如下图所示 1、设全部样本分为6类 2、作距离矩阵D(0) G1 G2 G3 G4 G5 G2 9 G3 1 16 G4 49 16 64 G5 25 4 36 4 G6 64 25 81 1 9 3、求最小元素: 4、把G1, G3合并G7=(1,3) G4, G6合并G8=(4,6) 5、作距离矩阵D(1) G7 G2 G8 G2 9 G8 49 16 G5 25 4 4 6、若合并的类数没有达到要求,转3。否则停止。 3、求最小元素: 4、G8, G5, G2合并, G9=(2,5,4,6) 设有6个五维模式样本如下,按最小距离准则进行聚类分析: x1: 0, 3, 1, 2, 0 x2: 1, 3, 0, 1, 0 x3: 3, 3, 0, 0, 1 x4: 1, 1, 0, 2, 0 x5: 3, 2, 1, 2, 1 x6: 4, 1, 1, 1, 0 10.5 聚类中的问题 非监督模式识别问题存在更大的不确定性: 可利用信息少 相似性度量一般对数据尺度(scale)较敏感 影响聚类结果的因素:样本的分布,样本数量,聚类准则,相似性度量,预分类数等 针对不同数据,不同目标选择不同的聚类算法 动态聚类算法计算效率高,实际应用多 作业 画出ISODATA算法的流程框图 试用ISODATA算法对如下模式分布进行聚类分析: {x1(0, 0), x2(3,8), x3(2,2), x4(1,1), x5(5,3), x6(4,8), x7(6,3), x8(5,4), x9(6,4), x10(7,5)} 作业 画出给定迭代次数为n的系统聚类法的算法流程框图 对如下5个6维模式样本,用最小聚类准则进行系统聚类分析: x1: 0, 1, 3, 1, 3, 4 x2: 3, 3, 3, 1, 2, 1 x3: 1, 0, 0, 0, 1, 1 x4: 2, 1, 0, 2, 2, 1 x5: 0, 0, 1, 0, 1, 0 * Pattern Recognition wanwanyuan@ 第十章 非监督模式识别 Pattern Recognition wanwanyuan@ 第十章 非监督学习方法 10.1 引言 3 2 10.2 单峰子集的分离方法 10.3 聚类方法 1 10.1 引言 有监督学习(supervised learning):用已知类别的样本训练分类器,以求对训练集的数据达到某种最优,并能推广到对新数据的分类 非监督学习(unsupervised learning) :样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering) 非监督学习方法大致分为两大类: 基于概率密度函数估计的方法 基于样本间相似性度量的方法 方案对比 10.2 单峰子集的分离方法 思想:把特征空间分为若干个区域,在每个区域上混合概率密度函数是单峰的,每个单峰区域对应一个类 一维空间中的单峰分离: 对样本集 KN={xi} 应用直方图方法估计概率密度函数,找到概率密度函数的峰以及峰之间的谷底,以谷底为阈值对数据进行分割 一维空间中的单峰子集分离 概率密度分析 多维空间投影方法 多维空间y中直接划分成单峰区域比较困难,把它投影到一维空间x中简化问题。 确定合适的投影方向u: 使投影{x=uTy}的方差最大,方差越大,类之间分离的程度也可

文档评论(0)

mwk365 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档