模式识别第一章Clustering研讨.pptVIP

下载本文档

62
0
约6.49千字
约 55页
2016-08-06 发布于湖北
举报
版权申诉

模式识别第一章Clustering研讨.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

模式识别第一章Clustering研讨

重心法类平均距离递推公式： ………… 距离不同，则结果可能不同 §1.4 系统聚类分类法(续) [举例] 设有6个五维模式样本如下，按最小距离准则进行聚类分析： x1: 0, 3, 1, 2, 0 x2: 1, 3, 0, 1, 0 x3: 3, 3, 0, 0, 1 x4: 1, 1, 0, 2, 0 x5: 3, 2, 1, 2, 1 x6: 4, 1, 1, 1, 0 §1.4 系统聚类分类法(续) 算法过程描述： Step1 :每个样本看成一类：说明：（1）距离矩阵元的值是类与类之间的距离，距离的定义有多种。（2）距离矩阵，是对称矩阵。对角上线的元值表示同类之间的距离，即为0。 0 0 0 0 0 0 x1: 0, 3, 1, 2, 0 x2: 1, 3, 0, 1, 0 x3: 3, 3, 0, 0, 1 x4: 1, 1, 0, 2, 0 x5: 3, 2, 1, 2, 1 x6: 4, 1, 1, 1, 0 Step2 :合并距离最小的两类，产生新的距离矩阵说明：距离矩阵中选择距离最小的，如果有相同的可以任选其中一个，要忽略对角线上的元素。 0 0 0 0 0 Step3 ：继续合并，计算新的距离矩阵说明：合并类的距离计算应该符合距离的运算规则。如，距离反映的是两类的重心距离，那么合并后，应该仍然反映的重心的距离。 Step4：继续合并，直到收敛说明：算法的收敛条件判断准则的确定。 0 0 0 0 0 0 0 § 1.4 系统聚类法(续) 系统聚类的树状表示 §1.5 动态聚类分类法基本思想首先选择若干个样本点作为聚类中心，再按某种聚类准则（通常采用最小距离准则）使样本点向各中心聚集，从而得到初始聚类；然后判断初始分类是否合理，若不合理，则修改分类；如此反复进行修改聚类的迭代算法，直至合理为止 1.5.1 C－均值算法 1.5.2 ISODATA算法（迭代自组织的数据分析方法） 1.5.1 C－均值算法思想：基于使聚类性能指标最小化，所用的聚类准则函数是聚类集中每一个样本点到该类中心的距离平方之和，并使其最小化。 1.5.1 C－均值算法目标：将对象分成C个“最好”的非空的子集基本C均值算法（第二版P237，第三版P193）每次调整一个样本就需要重新计算一次类的均值改进：第一步：选C个初始聚类中心，任选C个样本作为初始聚类中心第二步：计算每个类的平均值作为中心点. 第三步：重新将对象划分到离它最近的聚类第四步：重新计算聚类的中心，重新划分类，直到所有的类中心都不再发生变化. 1.5.1 C-均值算法 [举例] 对如图模式样本用C-均值算法进行分类 1.5.1 C－均值算法说明：（1）C是指需要分成C类，均值是指每类的中心,就是该类所有样本的平均值，不一定就有某个样本在这个位置上。 (2) 算法的收敛性判别：前后两次迭代的结果，也就是每迭代分类后，分类都是一样的，此时停止。（3）C值和初始聚类中心对分类的结果影响很大。通常需要其它的算法来确定这两个的选取。 1.5.1 C-均值算法（4）C的选择：上面所说的是C已知的情况，如果C未知，则我们把类别数依次增加：C=1，C=2，C=3 。。。，分别适用该算法。显然准则函数Je随着类别增加而减小。我们可以选择拐点处的C作为我们的类别数。 1.5.1 C-均值算法讨论 C-均值算法的结果受如下选择的影响：所选聚类的数目聚类中心的初始分布模式样本的几何性质读入次序在实际应用中，需要试探不同的C值和选择不同的聚类中心的起始值。如果模式样本可以形成若干个相距较远的孤立的区域分布，一般都能得到较好的收敛效果。 C-均值算法比较适合于分类数目已知的情况。 1.5.2 ISODATA算法 Iterative Self-Organizing Data Analysis Technique Algorithm 迭代自组织数据分析算法 1.5.2 ISODATA算法 1.考虑了类别的合并与分裂，因而有了自我调整类别数的能力。合并主要发生在某一类内样本个数太少的情况，或两类聚类中心之间距离太小的情况。为此设有最小类内样本数限制，以及类间中心距离参数。若出现两类聚类中心距离小于的情况，可考虑将此两类合并。　　分裂则主要发生在某一类别的某分量出现类内方差过大的现象，因而宜分裂成两个类别，以维持合理的类内方差。给出一个对类