数据挖掘聚类分析.pptxVIP

下载本文档

1
0
约2.27千字
约 77页
2020-02-15 发布于上海
举报
版权申诉

数据挖掘聚类分析.pptx

1、本文档共77页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘;引言;但历史上这些分类方法多半是人们主要依靠经验作定性分类，致使许多分类带有主观性和任意性，不能很好地揭示客观事物内在的本质差别与联系；特别是对于多因素、多指标的分类问题，定性分类的准确性不好把握。为了克服定性分类存在的不足，人们把数学方法引入分类中，形成了数值分类学。后来随着多元统计分析的发展，从数值分类学中逐渐分离出了聚类分析方法。随着计算机技术的不断发展，利用数学方法研究分类不仅非常必要而且完全可能，因此近年来，聚类分析的理论和应用得到了迅速的发展。聚类分析就是分析如何对样品（或变量-在多元统计中，它就是一个向量）进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理，R型聚类是对变量进行分类处理。;什么是聚类;聚类无所不在;聚类无所不在;聚类无所不在;聚类的应用领域;有贡献的领域;什么情况下应该聚类;聚类分析原理;;;;;;;聚类与分类;相似性及其度量;;测量相似性;距离度量的常见计算方法;;;二元属性对象的相似性;;相似性系数;;实例分析;;;;聚类的基本类型;层次聚类;凝聚层次聚类;单连接（最近邻）;完全连接（最远邻）;组平均;单连接;;;;;完全连接;;;;层次聚类的优缺点;算法的步骤;K-means算法;;;;;;;;;;;;K-中心点;算法;工作方式;工作方式;现代聚类方法;增量聚类;增量聚类算法的步骤：把第一个数据项分配到第一个类里。考虑下一个数据项，把它分配到目前某个类中或一个新类中。它基于一些准则的，例如新数据项到目前类的重心的距离。在这种情况下，每次添加一个新数据项到一个目前的类中时，需要重新计算重心的值。重复步骤2，直到所有的数据样本都被聚类完毕。;增量算法是非迭代的，需要主存储空间非常小，所需要的时间也很少，即使采用迭代算法，所需的计算时间也不会显著增加。增量聚类存在的一个明显的缺点：对样本的顺序非常敏感。不同的顺序会产生不同的分区。例如：仍然采用上例的数据集。假定样本的顺序是x1,x2,x3,x4,x5，则类相似度阈值水平是δ=3。;第一样本x1为第一个类C1={x1}。C1的重心为M1={0,2}。开始分析其他样本。 a)把第二个样本x2和M1比较，距离d为： d(x2,M1)=(02+22)1/2=2.03 因此， x2属于类C1 ，新的重心是： M1={0,1} b)第三个样本x3和重心M1比较： d(x3,M1)=(1.52+12)1/2=1.83 x3∈ C1 → C1 ={x1,x2,x3} →M1={0.5,0.66}; c)第四个样本x4和重心M1比较： d(x4,M1)=(4.52+0.662)1/2=4.553 x4 → C2 ={x4} →M2={5,0} d)第五个样本和这两个类的重心相比较： d(x5,M1)=(4.52+1.442)1/2=4.723 d(x5,M2)=(02+22)1/2=23 x5∈ C2 → C2 ={x4,x5} →M2={5,1} 3. 分析完所有的样本，聚类结果是获得两个类： C1 ={x1,x2,x3}和C2 ={x4,x5} 如果观察的样本的顺序不同，聚类结果也不同。 ;对于大多数分区聚类算法，包括迭代方法，都是通过该类的特征向量CF给出的类的简要表示，每个类的参数由3部分组成，类中点(样本)的个数，类的重心和类的半径。类的半径定义为类中的点到重心的平均平方距离的平方根(平均类内方差)。当添加和删除类中的点时，可以通过旧的CF来计算新CF，而不需要用类中所有点去计算新的CF，这一点非常重要。;如果样本是分类的数据，就没有办法计算类的重心来表述类。另一种算法K-最近邻法可用于估计样本和目前类间的距离(或相似度) 。算法的基本步骤：计算新的样本到所有已被分类的旧样本之间的距离。把这些距离按升序排列，选Ｋ个最近值的样本。运用投票原理，把新样本添加(分类)给已选的Ｋ个样本中最大的类。;例如：给出6个6维分类的样本：　　　　X1={A,B,A,B,C,B} 　　　　X2={A,A,A,B,A,B} 　　　　X3={B,B,A,B,A,B} 　　　　X4={B,A,B,A,C,A} 　　　　X5={A,C,B,A,B,B} 　　　　X6={A,C,B,A,B,B} 它们被聚集成两个类：　　C1={x1,x2,x3}和C2={x4,x5,x6}。新样本Y={A,C,A,B,C,A}属于哪一类？;运用Ｋ-最近邻算法，第一步求出新样本和其他所有已聚类样本间的距离。　　　采用SMC