基于属性关联度辅助分类模型.docVIP

下载本文档

23
0
约5.16千字
约 11页
2018-08-29 发布于福建
举报
版权申诉

基于属性关联度辅助分类模型.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于属性关联度辅助分类模型

基于属性关联度辅助分类模型　　摘要：提高分类器覆盖率是显露模式分类中的重要内容。通过降低支持度的方法来提升覆盖率，将会大大增加算法时间开销。在CAEP分类模型基础上，分别使用关联分析中常用的卡方检验、置信度和比值比策略，对分类模型中无法被覆盖的事务进行辅助分类。在UCI数据集合下进行对比实验，结果表明，采用了关联分析辅助策略分类模型的分类准确率均有所提升，且额外消耗的时间较少。　　关键词：分类；显露模式；卡方检验；置信度；比值比　　DOIDOI：10.11907/rjdk.151484 　　中图分类号：TP301 文献标识码：A 文章编号：1672-7800（2015）007-0048-04 　　0 引言　　显露模式[1-2]分类方法中，模式的选择或者精简是最重要的环节，而模式选择中的一个重要指标，就是模式集合对于测试事务的覆盖率[3-4]。一个覆盖率过低的模式集合，对于分类算法来说，其性能和意义都将大打折扣。解决上述问题，目前有两种主流方案：①降低模式挖掘门槛，即降低支持度[5]、增长率等参数的阈值，挖掘出数量更多、覆盖更全面的模式集合；②采用MDL原则[3]，在模式选择阶段选择出覆盖率更好、鲁棒性更好的模式。对于部分数据集合，即使采用降低支持度阈值等方法，也会产生分类模型的覆盖率不足、分类准确率低的情况。其可能的原因是，该数据集合存在分类信息散、特征比较模糊[6]等特点。分类器支持度阈值较高时，模式数量较少，覆盖率较低；当支持度阈值很低时，容易引入噪音模式，影响分类准确率，时间复杂度更高。　　模式的支持度在不同数据集合之间存在显著差异，称为显露模式。在特征明晰的数据集合中，挖掘出拥有高增长率值的显露模式，为分类提供更加确切的信息。在特征比较模糊的数据集合中，显露模式整体的增长率阈值较低，难以描述数据集合之间的特征差异。　　针对分类器的覆盖率问题，本文基于关联分析特性，提出了基于属性关联度的快速辅助分类方法。关联分析方法，能够更大程度地挖掘特征模糊数据集合中属性之间的关联程度，其鲁棒性和适用范围都较好。　　1 基于卡方的属性关联度　　1.1 卡方独立性检验　　卡方检验[7]是以χ2分布为基础的一种常用检验方法，其目的在于监测观察频数与期望频数的差别，下面以简单的例子来说明卡方检验的具体方法。表1为二维的条件概率表，其中变量X和Y是两个不同的二值属性，即X和Y有且仅有两种取值，如：X=0， X=1；Y=0，Y=1。表中的nij满足i， j∈{0，1}，表示属性X=i和属性Y=j在数据集合中共现的次数为nij次。ni.表示属性X=i出现的总次数，ni. = ni0 + ni1；同理，n.j表示属性Y=i出现的总次数，n.j = n0j + n1j。　　定义1属性独立性：设X和Y是数据集合D中的属性，如果满足条件P（XY ）= P（X ） *P（Y ），则称属性X与属性Y相互独立，否则二者相关。　　定义2属性期望值：期望描绘的是随机变量的平均取值，属性期望值公式如下：　　E（nij）=ni.n*n.jn*n（1）　　卡方独立性检验能够通过观察频数与期望频数的差别，计算属性变量间的独立性大小。卡方值越高，表明属性之间的独立性越小，反之，属性间独立的可能性越大。假设两个属性X和Y独立，计算X和Y属性的卡方值，χ2（X，Y） 3.84，查表可知，当α=0.5时，拥有95%的置信度区间拒绝该假设成立，也就是说，X和Y独立的可能性仅有5%。　　定义3属性间独立性检验：对于属性X和Y的卡方估计值χ2（X，Y），计算公式如下：　　χ2=∑1i=0∑1j=0（nij-E（nij））2E（nij）（2）　　1.2 卡方评分值归一化　　使用属性与目标类别之间的卡方值作为评分依据，对测试事务分类。由于不同数据集合间的规模不同，个别属性的卡方值较大。如果按照普通累加的方式，很容易出现以偏概全的情况，单个属性决定了事务所属的类别。本文对卡方值进一步处理，采用BaseScore参数伪归一化的方法，降低因为个别属性卡方值过高或者过低带来的评分倾斜。　　本文提出一种新的归一化方法，具体步骤如下：①累加当前属性X与各个类别属性Y的卡方值，Base（Y ）=（χ2（X，Y ）；②计算属性X与每个类别Y的关联程度的权重，Weight（X，Y ） = χ2（X，Y ） / Base（Y ）。卡方聚集评分公式如下：　　score（t，C）=∑X∈tweight（X，C）（3）　　算法1为计算条件属性与目标属性之间的卡方值，对卡方值进行归一化，过程见表2。　　2 基于置信度的属性关联度　　置信度（confidence）不仅是数理统计分析中的重要概念，也是规则模式挖掘中的