ch9 聚类分析-13课件.pptVIP

下载本文档

16
0
约4.14千字
约 45页
2017-05-22 发布于河南
举报
版权申诉

ch9 聚类分析-13课件.ppt

1、本文档共45页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

层次聚类：先把每个样本作为一类，然后根据它们间的相似性和相邻性聚合。相似性、相邻性一般用距离表示 1. 最短距离：两类中相距最近的两样品间的距离 2、最长距离：两类中相距最远的两样本间的距离 10.3.2 层次聚类方法最短距离举例：最长距离举例： 3、中间距离：最短距离和最长距离都有片面性，因此有时用中间距离。设ω1类和ω23 类间的最短距离为d12，最长距离为d13，ω23 类的长度为d23，则中间距离为： 4、均值距离： 10.3.2 层次聚类方法划分序列：N个样本自底向上逐步合并一类：每个样本自成一类（划分水平1） K水平划分的进行：计算已有的c=N-K+2个类的类间距离矩阵D(K-1)=[dij](K-1)，其最小元素记作d(K-1)，相应的两个类合并成一类；重复第2步，直至形成包含所有样本的类（划分水平N）划分处于K水平时，类数c = N-K+1，类间距离矩阵D(K)=[dij](K)，其最小元素记作d(K) 如果D(K) 阈值dT，则说明此水平上的聚类是适宜的 10.3.2 层次聚类方法层次聚类树表示方法 y1 y2 y3 y4 y5 y6 1-水平 -- 2-水平 -- 3-水平 -- 4-水平 -- 5-水平 -- 6-水平 -- 分级聚类例：如下图所示 1、设全部样本分为6类 2、作距离矩阵D(0) G1 G2 G3 G4 G5 G2 9 G3 1 16 G4 49 16 64 G5 25 4 36 4 G6 64 25 81 1 9 3、求最小元素： 4、把G1, G3合并G7=(1,3) G4, G6合并G8=(4,6) 5、作距离矩阵D(1) G7 G2 G8 G2 9 G8 49 16 G5 25 4 4 6、若合并的类数没有达到要求，转3。否则停止。 3、求最小元素： 4、G8, G5, G2合并, G9=（2,5,4,6）设有6个五维模式样本如下，按最小距离准则进行聚类分析： x1: 0, 3, 1, 2, 0 x2: 1, 3, 0, 1, 0 x3: 3, 3, 0, 0, 1 x4: 1, 1, 0, 2, 0 x5: 3, 2, 1, 2, 1 x6: 4, 1, 1, 1, 0 10.5 聚类中的问题非监督模式识别问题存在更大的不确定性: 可利用信息少相似性度量一般对数据尺度(scale)较敏感影响聚类结果的因素：样本的分布，样本数量，聚类准则，相似性度量，预分类数等针对不同数据，不同目标选择不同的聚类算法动态聚类算法计算效率高，实际应用多作业画出ISODATA算法的流程框图试用ISODATA算法对如下模式分布进行聚类分析： {x1(0, 0), x2(3,8), x3(2,2), x4(1,1), x5(5,3), x6(4,8), x7(6,3), x8(5,4), x9(6,4), x10(7,5)} 作业画出给定迭代次数为n的系统聚类法的算法流程框图对如下5个6维模式样本，用最小聚类准则进行系统聚类分析： x1: 0, 1, 3, 1, 3, 4 x2: 3, 3, 3, 1, 2, 1 x3: 1, 0, 0, 0, 1, 1 x4: 2, 1, 0, 2, 2, 1 x5: 0, 0, 1, 0, 1, 0 * Pattern Recognition wanwanyuan@ 第十章非监督模式识别 Pattern Recognition wanwanyuan@ 第十章非监督学习方法 10.1 引言 3 2 10.2 单峰子集的分离方法 10.3 聚类方法 1 10.1 引言有监督学习（supervised learning)：用已知类别的样本训练分类器，以求对训练集的数据达到某种最优，并能推广到对新数据的分类非监督学习（unsupervised learning) ：样本数据类别未知，需要根据样本间的相似性对样本集进行分类(聚类，clustering) 非监督学习方法大致分为两大类：基于概率密度函数估计的方法基于样本间相似性度量的方法方案对比 10.2 单峰子集的分离方法思想：把特征空间分为若干个区域，在每个区域上混合概率密度函数是单峰的，每个单峰区域对应一个类一维空间中的单峰分离: 对样本集 KN={xi} 应用直方图方法估计概率密度函数，找到概率密度函数的峰以及峰之间的谷底，以谷底为阈值对数据进行分割一维空间中的单峰子集分离概率密度分析多维空间投影方法多维空间y中直接划分成单峰区域比较困难，把它投影到一维空间x中简化问题。确定合适的投影方向u：使投影{x=uTy}的方差最大，方差越大，类之间分离的程度也可