- 1、本文档共77页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘;引言;但历史上这些分类方法多半是人们主要依靠经验作定性分类,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系;特别是对于多因素、多指标的分类问题,定性分类的准确性不好把握。
为了克服定性分类存在的不足,人们把数学方法引入分类中,形成了数值分类学。
后来随着多元统计分析的发展,从数值分类学中逐渐分离出了聚类分析方法。
随着计算机技术的不断发展,利用数学方法研究分类不仅非常必要而且完全可能,因此近年来,聚类分析的理论和应用得到了迅速的发展。
聚类分析就是分析如何对样品(或变量-在多元统计中,它就是一个向量)进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。;什么是聚类;聚类无所不在;聚类无所不在;聚类无所不在;聚类的应用领域;有贡献的领域;什么情况下应该聚类;聚类分析原理;;;;;;;聚类与分类;相似性及其度量;;测量相似性;距离度量的常见计算方法;;;二元属性对象的相似性;;相似性系数;;实例分析;;;;聚类的基本类型;层次聚类;凝聚层次聚类;单连接(最近邻);完全连接(最远邻);组平均;单连接;;;;;完全连接;;;;层次聚类的优缺点;算法的步骤;K-means算法;;;;;;;;;;;;K-中心点;算法;工作方式;工作方式;现代聚类方法;增量聚类;增量聚类算法的步骤:
把第一个数据项分配到第一个类里。
考虑下一个数据项,把它分配到目前某个类中或一个新类中。它基于一些准则的,例如新数据项到目前类的重心的距离。在这种情况下,每次添加一个新数据项到一个目前的类中时,需要重新计算重心的值。
重复步骤2,直到所有的数据样本都被聚类完毕。;增量算法是非迭代的,需要主存储空间非常小,所需要的时间也很少,即使采用迭代算法,所需的计算时间也不会显著增加。
增量聚类存在的一个明显的缺点:对样本的顺序非常敏感。不同的顺序会产生不同的分区。
例如:仍然采用上例的数据集。假定样本的顺序是x1,x2,x3,x4,x5,则类相似度阈值水平是δ=3。;第一样本x1为第一个类C1={x1}。C1的重心为M1={0,2}。
开始分析其他样本。
a)把第二个样本x2和M1比较,距离d为:
d(x2,M1)=(02+22)1/2=2.03
因此, x2属于类C1 ,新的重心是:
M1={0,1}
b)第三个样本x3和重心M1比较:
d(x3,M1)=(1.52+12)1/2=1.83
x3∈ C1 → C1 ={x1,x2,x3} →M1={0.5,0.66}; c)第四个样本x4和重心M1比较:
d(x4,M1)=(4.52+0.662)1/2=4.553
x4 → C2 ={x4} →M2={5,0}
d)第五个样本和这两个类的重心相比较:
d(x5,M1)=(4.52+1.442)1/2=4.723
d(x5,M2)=(02+22)1/2=23
x5∈ C2 → C2 ={x4,x5} →M2={5,1}
3. 分析完所有的样本,聚类结果是获得两个类: C1 ={x1,x2,x3}和C2 ={x4,x5}
如果观察的样本的顺序不同,聚类结果也不同。 ;对于大多数分区聚类算法,包括迭代方法,都是通过该类的特征向量CF给出的类的简要表示,每个类的参数由3部分组成,类中点(样本)的个数,类的重心和类的半径。
类的半径定义为类中的点到重心的平均平方距离的平方根(平均类内方差)。
当添加和删除类中的点时,可以通过旧的CF来计算新CF,而不需要用类中所有点去计算新的CF,这一点非常重要。;如果样本是分类的数据,就没有办法计算类的重心来表述类。另一种算法K-最近邻法可用于估计样本和目前类间的距离(或相似度) 。
算法的基本步骤:
计算新的样本到所有已被分类的旧样本之间的距离。
把这些距离按升序排列,选K个最近值的样本。
运用投票原理,把新样本添加(分类)给已选的K个样本中最大的类。;例如:给出6个6维分类的样本:
X1={A,B,A,B,C,B}
X2={A,A,A,B,A,B}
X3={B,B,A,B,A,B}
X4={B,A,B,A,C,A}
X5={A,C,B,A,B,B}
X6={A,C,B,A,B,B}
它们被聚集成两个类:
C1={x1,x2,x3}和C2={x4,x5,x6}。
新样本Y={A,C,A,B,C,A}属于哪一类?;运用K-最近邻算法,第一步求出新样本和其他所有已聚类样本间的距离。
采用SMC
文档评论(0)