- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于属性关联度辅助分类模型
基于属性关联度辅助分类模型
摘 要:提高分类器覆盖率是显露模式分类中的重要内容。通过降低支持度的方法来提升覆盖率,将会大大增加算法时间开销。在CAEP分类模型基础上,分别使用关联分析中常用的卡方检验、置信度和比值比策略,对分类模型中无法被覆盖的事务进行辅助分类。在UCI数据集合下进行对比实验,结果表明,采用了关联分析辅助策略分类模型的分类准确率均有所提升,且额外消耗的时间较少。
关键词:分类; 显露模式; 卡方检验; 置信度; 比值比
DOIDOI:10.11907/rjdk.151484
中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2015)007-0048-04
0 引言
显露模式[1-2]分类方法中,模式的选择或者精简是最重要的环节,而模式选择中的一个重要指标,就是模式集合对于测试事务的覆盖率[3-4]。一个覆盖率过低的模式集合,对于分类算法来说,其性能和意义都将大打折扣。解决上述问题,目前有两种主流方案:①降低模式挖掘门槛,即降低支持度[5]、增长率等参数的阈值,挖掘出数量更多、覆盖更全面的模式集合;②采用MDL原则[3],在模式选择阶段选择出覆盖率更好、鲁棒性更好的模式。对于部分数据集合,即使采用降低支持度阈值等方法,也会产生分类模型的覆盖率不足、分类准确率低的情况。其可能的原因是,该数据集合存在分类信息散、特征比较模糊[6]等特点。分类器支持度阈值较高时,模式数量较少,覆盖率较低;当支持度阈值很低时,容易引入噪音模式,影响分类准确率,时间复杂度更高。
模式的支持度在不同数据集合之间存在显著差异,称为显露模式。在特征明晰的数据集合中,挖掘出拥有高增长率值的显露模式,为分类提供更加确切的信息。在特征比较模糊的数据集合中,显露模式整体的增长率阈值较低,难以描述数据集合之间的特征差异。
针对分类器的覆盖率问题,本文基于关联分析特性,提出了基于属性关联度的快速辅助分类方法。关联分析方法,能够更大程度地挖掘特征模糊数据集合中属性之间的关联程度,其鲁棒性和适用范围都较好。
1 基于卡方的属性关联度
1.1 卡方独立性检验
卡方检验[7]是以χ2分布为基础的一种常用检验方法,其目的在于监测观察频数与期望频数的差别,下面以简单的例子来说明卡方检验的具体方法。表1为二维的条件概率表,其中变量X和Y是两个不同的二值属性,即X和Y有且仅有两种取值,如:X=0, X=1;Y=0,Y=1。表中的nij满足i, j∈{0,1},表示属性X=i和属性Y=j在数据集合中共现的次数为nij次。ni.表示属性X=i出现的总次数,ni. = ni0 + ni1;同理,n.j表示属性Y=i出现的总次数,n.j = n0j + n1j。
定义1属性独立性:设X和Y是数据集合D中的属性,如果满足条件P(XY )= P(X ) *P(Y ),则称属性X与属性Y相互独立,否则二者相关。
定义2属性期望值:期望描绘的是随机变量的平均取值,属性期望值公式如下:
E(nij)=ni.n*n.jn*n(1)
卡方独立性检验能够通过观察频数与期望频数的差别,计算属性变量间的独立性大小。卡方值越高,表明属性之间的独立性越小,反之,属性间独立的可能性越大。假设两个属性X和Y独立,计算X和Y属性的卡方值,χ2(X,Y) 3.84,查表可知,当α=0.5时,拥有95%的置信度区间拒绝该假设成立,也就是说,X和Y独立的可能性仅有5%。
定义3属性间独立性检验:对于属性X和Y的卡方估计值χ2(X,Y),计算公式如下:
χ2=∑1i=0∑1j=0(nij-E(nij))2E(nij)(2)
1.2 卡方评分值归一化
使用属性与目标类别之间的卡方值作为评分依据,对测试事务分类。由于不同数据集合间的规模不同,个别属性的卡方值较大。如果按照普通累加的方式,很容易出现以偏概全的情况,单个属性决定了事务所属的类别。本文对卡方值进一步处理,采用BaseScore参数伪归一化的方法,降低因为个别属性卡方值过高或者过低带来的评分倾斜。
本文提出一种新的归一化方法,具体步骤如下:①累加当前属性X与各个类别属性Y的卡方值,Base(Y )=(χ2(X,Y );②计算属性X与每个类别Y的关联程度的权重,Weight(X,Y ) = χ2(X,Y ) / Base(Y )。卡方聚集评分公式如下:
score(t,C)=∑X∈tweight(X,C)(3)
算法1为计算条件属性与目标属性之间的卡方值,对卡方值进行归一化,过程见表2。
2 基于置信度的属性关联度
置信度(confidence)不仅是数理统计分析中的重要概念,也是规则模式挖掘中的
文档评论(0)