- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模糊c-均值聚类算法的f统计量
模糊f统计量与模糊聚类有效性
聚类分析是一种重要的方法。最著名、最常用的模糊聚类算法是模糊c-中旬聚类算法(rcm)。当使用模糊聚类算法时,一个事先必须确定的参数是数据集的分类数。这个问题属于“聚类有效性问题”。到目前为止,已提出了多种聚类有效性标准。文献中Hubert的Γ统计量就是最早基于统计信息而被应用于分类数判决的有效性函数,文献中比较系统地研究了Hubert的Γ统计量的使用效果,文献中针对Hubert的Γ统计量的不足提出了修改的Γ统计量,文献中也对修改的Γ统计量的使用效果作了尽一步的实验研究。由于Γ统计量是通过对数据的分布本身与聚类算法对数据得到的划分之间的匹配程度来判定数据的分类情况,这实际上对数据强加人为的假设而造成实际使用中很难有效。文献中提出了基于数据集的类内统计信息和类间统计信息的伪F统计量用于数据聚类分析,并能在聚类过程中确定数据集的最佳分类数。文献中将数理统计学中的F统计量用于数据划分最佳分类数的确定。文献中针对数理统计学中的F统计量不适合多维数据而提出了混合F统计量。由于Γ统计量、伪F统计量、F统计量以及混合F统计量等对数据带有模糊性分类的情况很难凑效,甚至要将数据模糊性分类的结果进行分明处理后,才能使用这些基于分明统计信息的聚类有效性函数,势必造成要抹杀数据模糊性分类的许多细节信息,将给实际最佳分类数的判定造成不利和不便。文献将文献中的伪F统计量进行模糊化修改,提出了适合模糊C-均值聚类算法的模糊伪F统计量的聚类有效性函数,就能够处理数据具有模糊分类情况的最佳分类的确定。本文将文献中用于方差分析的F统计量模糊化修改,也提出了适合模糊C-均值聚类算法的模糊F统计量的聚类有效性函数。模糊F统计量不仅能够处理数据具有模糊分类情况的最佳分类数的判决;而且,它的分类性能比模糊伪F统计量要好。
1 基于fcm的聚类中心数的规划算法
模糊聚类问题可表示成下面的数学规划问题
minJm(U,V)=n∑i=1c∑j=1umijd2ij
使得c∑j=1uij=1,1≤i≤n;uij≥0,1≤i≤n,
1≤j≤c;n>n∑i=1uij>0,1≤j≤c。
这里X={x1,x2,…,xn}?Rs是欧氏空间的s维数据集,n是数据集中样本个数,c是聚类中心数
(1cn),m是权重系数(m1),dij=‖xi-Vj‖是样本点xi和聚类中心Vj的距离,Vj?Rs(1≤j≤c)。uij是第i个样本属于第j类的隶属度,U=[uij]是一个n×c矩阵,V=[V1,V2,…,Vc]是一个s×c矩阵。在文献中,Bezdek提出解决上述数学规划问题的下列算法(记为FCM)。
初始化 选取ε0,初始聚类中心V(1),令k=1。
步骤1 使用(1)和(2)两式计算U(k)
如果?i,r,dir(k)0,则
uij(k)=1/c∑r=1[(dij(k)/dir(k)2/(m-1)](1)
如果存在i,r使得dir(k)=0,则
uir(k)=1且对j≠r,uij(k)=0, (2)
步骤2 使用(3)计算V(k+1)
?jVj(k+1)=n∑i=1umij(k)xi/n∑i=1umij(k)(3)
步骤3 如果‖V(k)-V(k+1)‖ε停止,
否则令k=k+1,回到步骤1。
2 多维聚类分析方法—F统计量与伪F统计量
在数理统计学的方差分析中,为了检验同方差的多个正态总体均值是否相等的问题,而引入了下面的F统计量,其目的是检验多个同方差的正态总体均值是否有显著差异。
定义1F统计量为
设方差分析中有关单因素试验的因素A有s个水平Aj(j=1,…,s),在给定水平Aj(j=1,…,s)下,进行了nj(nj≥2)次独立实验,实验观测值为yij(i=1,…,nj)。
我们假定:各个水平Aj(j=1,…,s)下的样本yij(i=1,…,nj)来自具有同方差σ2,均值分别为μj(j=1,…,s)的正态总体N(μj,σ2),μj与σ2未知。且设不同水平Aj下的样本之间相互独立。
方差分析的目的就是用F统计量检验s个正态总体N(μj,σ2)(j=1,…,s)的均值是否相等或存在显著差异。
F=SA/(s-1)SE/(n-1)=s∑j=1nj∑i=1(ˉyj-ˉy)2?(n-s)s∑j=1nj∑i=1(yij-ˉy)2?(s-1)=s∑j=1nj(ˉyj-ˉy)2?(n-s)s∑j=1nj∑i=1(yij-ˉyj)2?(s-1)(4)
其中n=s∑j=1nj,它表示所有不同水平Aj下的全部观测值总数;
ˉy=1ns∑j=1nj∑i=1yij,它表示所有观测数据的总均值;
ˉyj=1njnj∑i=1yij,它表示水平Aj下的样本平均值;
SA=s∑j=1nj∑i=1(ˉyj-ˉy)2=s∑j=1nj(ˉyj-ˉy)2=s∑j
原创力文档


文档评论(0)