- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
核函数在划分聚类中应用和实现
核函数在划分聚类中应用和实现 摘要:聚类是数据挖掘的一种重要方法,核函数是能够将低维不可分的数据映射到高维空间进行线性可分时能够降低数据处理难度的重要手段。介绍了聚类算法和核函数的特点。通过引入基于核函数的相似性测度,对k-平均聚类算法和围绕中心点的划分(PAM)算法在Matlab上做了改进和实现。
关键词:核函数;划分聚类;k-折交叉验证;PAM(围绕中心点的划分);主成分分析
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2013)27-6185-04
随着智能化的到来,机器学习技术得到广泛的重视。当前,数据挖掘技术的发展,以及社会应用对云计算、大数据等的要求也越来越高。分类、关联规则、聚类、时间序列与序列模式、Web挖掘、空间挖掘技术等得到了较快发展。作为一种基于统计学习理论的支持向量机(SVM)成为了数据挖掘的一种比较重要且有特色的方法,在分类、聚类方面有着很重要的意义。支持向量机使用结构风险最小化原则代替经验风险最小化原则,采用将低维空间映射到高维空间,在非线性、小样本、二分类、高维模式应用环境中具有一些明显的优势。
支持向量机目前在二分类问题中得到了深入的研究,在多类分类问题的求解上也提出了很多解决办法。聚类作为数据挖掘的另一个重要领域,则相对于分类而言,研究的较少。文献[6]对将支持向量机的思想应用于聚类做了简单的介绍,并且提出了采用主成分分析(PCA)进行特征提取的一种线性降维的简单算法。
支持向量机具有的明显优势,有一个很重要的原因,就是采用了核函数(但核函数不一定只用在SVM上)。该文根据核函数在支持向量机上进行有效分类的启发,将核函数思想应用到划分聚类上,在Matlab环境下进行了应用与实现。
1 核函数
核函数对支持向量机的分类性能有影响。核函数的形式的选取,参数的选择,都是核函数的应用必须考虑的问题。
核函数具有以下优点:
2)采用核函数可以处理高维数据。这是因为采用核函数后,输入空间的维数对核函数的矩阵没有影响。这样就避免了所谓的“维数灾难”,并且计算量得到了减小。
3)核函数对于支持向量机是至关重要的,但核函数的思想绝不仅仅只用于支持向量机处理上。实际上,只要一个应用,在建立模型后存在内积形式,都可以采用K(x,x)去替换,这样就有可能改进目标算法。这样,核函数思想就可以与聚类算法相结合,在聚类的预处理步骤上,能够设计出各种基于核函数的子算法,更重要的是这两部分的设计可以独立开展,根据不同的应用环境进行筛选,找出合适的算法。
4)核函数有多种形式,相同的核函数的参数也会不同。有些应用,适合采用某一种核函数,而有些应用可能要采用另一种核函数。
核函数应用中,Mercer定理具有很重要的意义。Mercer定理指出:要证明K是一个核函数,不必去寻找Φ变换函数,只需要在数据训练集上求出各个内积Kij,然后只要判断一下矩阵K是不是半正定矩阵就可以了。满足Mercer条件的函数就能作为核函数。
2 聚类
2.1 聚类简介
聚类和分类一样,是数据挖掘的一项重要功能。分类是一种有监督的学习。而聚类与分类不同,聚类中要划分的组(簇)事先是不确定的,而是由数据决定的,因此聚类是一种无监督的学习。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类具有重要的意义和普遍的价值。在日常生活中,经常有“物以类聚,人以群分”的说法,聚类能够很好地刻画数据的属性以及群体行为特征。聚类的目标就是将数据采用某种算法,根据数据本身的属性,划分成若干组(簇),分组的依据是在同一个组(簇)中的数据之间具有较高的相似度,在不同的组(簇)中具有很低的相似度。
目前,数据挖掘技术以及大数据技术面对的是巨大的、复杂的、异构的数据集,聚类分析算法面临很大的挑战。一个好的聚类分析算法应该考虑以下一些方面:
1) 可伸缩性:聚类算法在小数据集和大数据集上均能得出有效的结论;
2) 能够处理各种数据类型的属性,并且能够处理高维、稀疏数据;
3) 能够根据数据本身的特征,找出任意形状的组(簇),而不是仅仅发现类球类的簇;
4) 对专业领域知识依赖性低;聚类的结果应该是易于理解、便于应用;
5)数据集输入的顺序对聚类的结果影响较小;
6) 能够对噪声进行处理;能够根据实际应用的约束条件进行聚类。
2.2 距离与相似度的度量
从聚类的概念上可以看出,数据元素之间的相似度是聚类分析中很重要的因素。如何来定义数据对象之间的相似度,对聚类分析的质量有决定作用。相似度在通常情况下可以用距离d(xi,xj)来衡量,当xi与xj相似时,d(xi,xj)值较小;而当xi与xj不相似时,
文档评论(0)