- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于几何光滑度案例聚类方法
基于几何光滑度案例聚类方法
摘要:聚类分析技术是近年迅速发展的一种数据处理技术,它在诸如经济学、生物学、统计学、机器学习、数据挖掘等许多领域具有广泛的应用。首先阐述聚类分析的基本概念,接下来介绍了当前典型的几种聚类方法,然后提出了基于几何光滑度的光滑拼接聚类算法,最后提及了聚类算法的未来发展。
关键词:聚类分析;相似度;共享最近邻;k-平均算法;数据挖掘
中图分类号:F224.0 文献标志码:A 文章编号:1673-291X(2010)05-0238-03
引言
随着信息技术的不断发展,数据库应用的范围、规模和深度也在不断的扩大,这样就导致积累了大量的数据,而人们所关心的往往是这些数据背后所隐藏的信息。目前,商业界普遍使用的条形码和科学研究领域利用先进的数据测量仪器所测出的数据,这些数据都是海量的。面对这样庞大的数据库,人们迫切的需要一种有效的技术从这些庞大的数据中智能、自动地提取出来有价值的知识或是信息,这就是所谓的数据挖掘技术。而聚类分析正是数据挖掘所采用的关键技术之一,它被用于发现隐藏在大量数据中的分组和令人感兴趣的数据模式。迄今为止,人们提出了许多聚类算法,所有这些算法都试图解决大规模数据的聚类问题。
一、聚类的基本概念
1.聚类的定义
所谓聚类[1],就是将一个数据集合分成若干个称为簇或是类别的子集,每个簇中的数据都是具有很高的相似度,而簇之间具有较低的相似度。
簇的定义[2]:由于不同的应用所分析的具体数据具有不同的特征,因此聚类的目标簇具有不同的的形式和定义。简单的来讲,簇就是聚类分析结果中由相似的数据对象所组成的一个个的分组就成为簇,同一簇中的点具有很高的相似性,不同簇中的点具有很高的相异性。
2.聚类的一般步骤
聚类分析一般的主要步骤如下:
(1)特征选择。首先必须适当的选择特征,尽可能多的包含任务所关心的信息。在选择特征中,信息的多余减少和最小化是主要的目的。
(2)相似性度量。用于定量度量两个特征向量之间的相似度。一个简单的度量如欧氏距离经常被用来反应两个特征向量之间的非相似度。
(3)聚类算法。已经选择了合适的相似性度量,这步涉及到选择特定的聚类算法,用于揭示数据集中隐藏的数据结构。
(4)结果验证。一旦用聚类算法得到了结果,就需要验证其正确性。
(5)结果的判定。在许多情况下,应用领域的专家必须用其他实验数据和分析判定聚类结果,最后得出可被人理解的正确的结论。
3.聚类的典型要求
一种好的健壮的聚类方法应当具有可伸缩性、具有处理不同类型属性的能力、能够发现任意形状的簇、先验知识最小化、具有处理噪声数据的能力、对输入数据的顺序不敏感、具有处理高维数据的能力、基于约束的聚类、具有可解释性和可用性。
二、典型的聚类方法
1.基于划分的方法
给定一个包含n个数据对象的数据库,以及要生成簇的数目k,一个基于划分的聚类算法将数据对象组织为k个划分(k
1.SNN相似度
数据对象之间相似的程度取决于它们共享最近邻的数量。任一数据对象的k个最近邻组成 一个最近邻列表,两个对象之间的共享最近邻为它们最近邻列表的交集。特殊地,当两个对象的k最近邻列表完全一致时,它们的相似程度最大。SNN相似度就是它们共享的近邻个数。计算SNN相似度可利用下述算法。
2.相关定义
如前所述,SNN相似度就是它们共享的最近邻个数。通过算法1我们能够计算出所有样本间的SNN相似度并组成相似度图。随后我们可以应用到基于SNN的聚类算法中,但是一般的基于SNN的聚类算法如JP聚类[7]和基于SNN密度聚类[8]都存在一个共同的缺点:一个样本集是分裂成两个类还是保持不变,可能依赖于一条链,这使它们显得有些脆弱。例如,如果有3个样本x1,x2,x3,x1和x2有一个很高的SNN相似度,x2和x3也有一个很高的SNN相似度,但x1和x3的SNN相似度却为0,这时应用JP聚类算法或基于SNN密度聚类算法,x1,x2,x3一般会归到一类中去。这显然不是很好的聚类。因为直观上看,如果这3个样本是一类,那么x1和x3也应该有一个较高的SNN相似度,而不至于很快降为0。这类似于几何中计算参数曲线拼接问题,如果两条参数曲线在拼接点满足越高阶的导数连续性,拼接后的曲线就被认为越光滑,在直观上也觉得它更象一条曲线了。因此,我们根据几何中的这种现象提出基于SNN相似度的n阶光滑度的定义。在此基础上再提出光滑拼接聚类算法。
定义1:如果有一条长链,由2n+1个样本点x-n,…,x-1,x0,x1,…,xn组成。假设链可表示为:x-n?圮x-n+1?圮…?圮x-1?圮x0?圮x1?圮…
文档评论(0)