5聚类分析资料.pptVIP

下载本文档

30
0
约5.97千字
约 52页
2017-02-11 发布于湖北
举报
版权申诉

5聚类分析资料.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

5聚类分析资料

第五章聚类分析 5.1 引言 5.2 相似性度量 (相异度) 5.3 聚类准则函数 5.4 聚类方法 5.5 典型的聚类算法 5.1 引言 5.2 相似性度量 (相异度) 5.3 聚类准则函数误差平方和准则(1) 误差平方和准则(2) 误差平方和准则(3) 误差平方和准则(4) 误差平方和准则(5) 误差平方和准则(6) 加权平均平方距离和准则 (1) 加权平均平方距离和准则 (2) 5.4 聚类方法 5.5 典型的聚类算法采用最近邻规则的聚类算法最大最小距离聚类算法 C－均值聚类算法 ISODATA聚类算法最大最小距离聚类算法 (1) 最大最小距离聚类算法 (2) C—均值聚类算法(1) ISODATA聚类算法树聚类(层次聚类)(1) 合并相近的对象或组，直到所有的组合并为一个(层次的最上层)，或者达到一个终止条件。分裂即一开始将所有的对象置于一个类中。在迭代的每一步中，一个类被分为更小的类，直到最终每个对象在单独的一个类中，或者达到一个终止条件。 (3)基于密度的方法：绝大多数划分方法基于对象之间的距离进行聚类。这样的方法只能发现球状的类，而在发现任意形状的类上遇到困难。随之提出基于密度的聚类方法，其主要思想就是只要临近区域的密度超过某个阀值，就继续聚类。即对给定类中的每个数据点，在一个给定范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤“噪声”孤立点数据，发现任意形状的类。采用最近邻规则的聚类算法假设已有混合样本集，按照最近邻原则进行聚类，算法如下： ① 选取距离阈值T，并且任取一个样本作为第一个聚合中心Z1，如： ② 计算样本到 Z1的距离：若，则，否则令为第二个聚合中心，。设，计算到和的距离和，若和，则建立第三个聚合中心。否则把归于最近邻的聚合中心。依此类推，直到把所有的n个样本都进行分类。 ③ 按照某种聚类准则考察聚类结果，若不满意，则重新选取距离阈值T、第一个聚合中心，返回②，直到满意，算法结束。算法步骤：算法说明：最大最小距离聚类算法 (3) 例题：样本分布如图所示，利用最大最小距离聚类算法进行分类。最大最小距离聚类算法 (4) 解答：最大最小距离聚类算法 (5) 算法要解决的关键问题：首先选择有代表性的C点作为起始聚合中心。若类型数目已知，则选择代表点的数目等于类型数目；若未知，则需要采用相应的方法估计出C值。代表点选择好之后，如何把所有样本区分到以代表点为初始聚合中心的范围内，形成初始划分。 C—均值聚类算法所采用的聚类准则函数是误差平方和准则：为了使聚类结果优化，应该使最小化 C—均值聚类算法(2) C—均值聚类算法的基本实现情况：给出n个混合样本，令I=1，表示迭代运算次数，选取C个初始聚合中心，计算每个样本与聚合中心的距离若： C—均值聚类算法(3) 计算C个新的集合中心： C—均值聚类算法(4) 样本在两类之间移动对的影响：移动后聚合中心： C—均值聚类算法(5) C—均值聚类算法(6) 优化后的C－均值聚类算法： * * 聚类是一种数据分析和处理方法，就是按照一定的规律对事物进行区分和分类的过程，它把一个没有类别标记的样本集按某种准则划分成若干个子集(类)，使相似的样本尽可能归为一类，而不相似的样本尽量划分到不同的类中。聚类分析过程中没有关于类的先验知识，仅靠事物间的相似性作为类属划分的准则，因此属于无监督分类的范畴。聚类分析是多元统计分析的一种，也是无监督模式识别的一个重要分支。聚类分析无训练过程，训练与识别混合在一起。聚类分析定义聚类分析是无监督分类无监督方法可以揭示观测数据的一些内部结构和规律。为什么需要无监督分类收集并标记大型样本集是个非常费时费力的工作需要逆向解决问题：先用大量无标记的样本集来自动地训练分类器，再人工地标记数据分组地结果。这种方法非常适合“数据挖掘”方面的应用。存在很多应用，待分类模式的性质会随着时间发生缓慢的变化用无监督的方法提取一些基本特征，对样本进行预处理对样本集，按某种相似性把 X分类，怎样实现？在上述图中，(a)具有一个类型，(b)、(c)各有两个类型。此时，无论是参数估计，还是非参数估计，都无法取得合理的结果，必须采用聚类分析的方法进行分类。有时混合训练样本集