R型聚类中基于Gammatest一种新度量.docVIP

下载本文档

8
0
约6.36千字
约 12页
2018-08-11 发布于福建
举报
版权申诉

R型聚类中基于Gammatest一种新度量.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

R型聚类中基于Gammatest一种新度量

R型聚类中基于Gammatest一种新度量　　摘要:对R-型聚类分析的度量进行了研究,提出了一种基于Gamma-test理论的新度量.给出了新度量的5种不同定义方式,对各定义的性质进行了讨论.并将其应用于经典的系统聚类法,对所得的聚类结果与用相关系数作为度量所得的结果进行比较,分析了各定义的优劣,得出了最有效的新度量定义. 　　关键词:Gamma-Test; 新度量; R-型聚类　　中图分类号:O213 文献标志码:A 文章编号:1008-9497(2010)01-017-05 　　　　0 引言　　　　随着数据挖掘技术的不断发展,对复杂数据的处理便显得尤为重要,聚类便是其中一种重要的处理方法.聚类分析可以作为独立的数据挖掘工具,用来获得数据分布的情况,观察每个类的特点,集中对其中特定的类做进一步处理;也可以作为其他数据挖掘算法,比如特征和分类等的预处理. 　　现有的聚类算法主要有两大类:一类是对样本聚类(Q-型聚类),另一类是对随机变量聚类(R-型聚类).前者的研究比较深入,已有许多较好的聚类算法,如分层聚类算法[1-2],基于平方误差的聚类算法[3-4],模糊聚类算法[5],基于网格和密度的聚类算法[6-7],其他类型的聚类算法[8-9]等.对随机变量聚类算法的研究则相对较少,其中关键问题之一为难于找到两个随机变量关系的合适度量,最常用的方式是利用相关系数来度量两个随机变量的关系,随后又有香农信息论方法[10]和kolmogorov信息度量方法[11]等来度量两个随机变量的关系. 　　到目前为止,没有任何一种聚类算法可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构.在聚类算法中,度量矩阵的准确性对聚类算法的有效性起着关键作用. 　　Gamma-test方法为非参数估计方法,它通过输入输出数据组(x,y)的内在关系来估算误差的方差var(r),通过对var(r)的处理来达到最优的模型选择.本文将该方法运用于R-型聚类,定义了一种新度量,并对该新度量的性质进行了讨论,得出了较有效的定义方式. 　　　　1 基于Gamma-test的新度量　　　　1.1 Gamma-test理论介绍　　Gamma-test理论在1997年由KONCAR[12]和STEFANSSON[13]等首先提出,之后TSUI[14-15]等对其作了进一步的讨论和研究. 　　Gamma-test为非参数估计方法,无需关注输入数据和输出数据之间的任何参数关系,只依赖于输入输出数据本身来估计误差.它基于如下的假设: 　　如果输入的两个点x和x′的距离足够小,则相应的输出y和y′的距离也会足够小,否则,把这种差异归结为误差的影响. 　　文献[16]中给出了该方法的主要步骤: 　　设给定一组数据集　　1.2 由Gamma-test理论得到新度量　　将上面的理论应用于聚类分析,得到了与现有度量完全不同的度量方式.该新度量基于如下的想法:通过计算不同变量的数据之间的变异能力的大小来划分距离的远近,变异能力通过var(r)var(y)来度量.当变量之间联系越紧密时,该值越小.通过对这个值的观察,便可以大致判定变量之间关系的亲疏,具体过程如下. 　　对于随机变量(x,y),若满足式(1)中假定,?┰蛴? 　　var(y)=var(f(x))+var(r).(4) 　　因此,var(r)var(y)反映了变量y的变异能力被变量x的函数的变异能力解释后的剩余部分占总变异能力的比例.当var(y)确定时,如果y与x关系越密切,则var(r)var(y)越小,特别地,当y为x的函数时,var(r)var(y)=0;反之,当var(y)确定时,如果y与x关系越疏远,则var(r)var(y)越大,特别地,当y与x独立时var(r)var(y)=1. 　　另一方面,可以设x=g(y)+s,并进行类似的讨论. 　　基于以上想法,给出新度量的5个不同定义. 　　关于以上5个定义,做以下几点说明: 　　　　① 以上的度量模型并不满足d(x,y)=0,当且仅当x=y.事实上,只要满足y=f(x),f为光滑函数,就可以得出d(x,y)=0,反之,则不能?┩瞥?. 　　② 以上的度量不一定满足d(x,z)≤d(x,y)+d(y,z). 　　③ 在定义5中,当var(r)var(y)或var(r)var(y)有一为0时,认为度量值为0. 　　从以上的性质和说明中可以看出,新度量与相关系数和距离度量有所不同,其性质与相关系数更为接近,但从度量的作用上看,又与距离度量相近,可以看作是一种广义距离. 　　　　2 聚类算法与结果分析　　　　在这一部分将上面定义的各新度量应用于系统聚类法,将所