分类算法中基于信息理论的选择策略改进.docVIP

分类算法中基于信息理论的选择策略改进.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类算法中基于信息理论的选择策略改进.doc

分类算法中基于信息理论的选择策略改进   摘 要:数据挖掘分类算法中基于信息理论的选择策略在选择分裂属性时,只考虑最优的分裂属性,忽略其他分裂属性。改进算法考虑了与最优分裂属性分裂效果相近的其他分裂属性,将其他分裂属性连同最优分裂属性一起作为待定分裂属性,并将待定分裂属性的每一个属性进行预分裂,判断这些待定分裂属性的好坏,从中选择最好的分裂属性。   关键词:数据挖掘;分类算法;信息论;选择策略   中图分类号:TP391.41   1 问题的描述   1.1 传统的基于信息理论的分类算法选择策略才在的问题   基于信息理论的选择策略基于信息论领域中的信息熵、信息增益来实现数据的分类划分。利用这种方法,分裂后的熵越小,该分裂方法就越好。   (1)该方法根据单属性判断分裂的好坏,即只能看到一次分裂之后的分裂效果,   (2)最佳分裂属性的熵,有时与次佳分裂属性十分相近。   2 改进的算法   改进的方法在选择分裂属性时,不直接选择最佳分裂属性进行分裂,而是考虑将最佳分裂属性与若干次佳分裂属性,考察这些属性分裂后的节点的再分裂效果的好坏,从中选择最优的分裂属性。   2.1 算法描述   具体做法是:   假设该节点含有n个可分裂属性,分别为A1,A2,A3…An,对应的熵为E1,E2,E3…En   (1)确定最佳分裂属性和次佳分裂属性   令最佳分裂属性为Abest次佳分裂属性Ebest,次佳分裂属性集合为Aless_best则:   Ebest=Min(E1,E2,E3…En)Ebest所对应的属性为Abest。次佳分裂属性:E1,E2,E3…En中与Ebest相近的熵所对应的属性。可以设定门限η,集合{Ei|EiEbest+η}中的元素所对应的属性为Aless_best。对于不同的节点,其E1,E2,E3…En,的分布会何不相同,因此门限η往往需要多个值,为了统一门限η,便于合理给定Aless_best的范围,需要对E1,E2,E3…En进行单位化,其方法是:   max=Max(E1,E2,E3…En),min=Min(E1,E2,E3…En),对于所有Ei=   这样,将(E1,E2,E3…En)映射到[0,1]的区间上,并且至少有一个值为0,至少有一个值为1.给定一个门限参数η,所有小于η的Ei所对应的属性就为最佳分裂属性和次佳分裂属性。   (2)所有最佳属性和次佳属性中选择分裂属性   假定所有最佳属性和次佳属性一共有k个,它们分别称为A1,A2,A3…Ak,选择过程如下:   数组E中存储第二次预分裂后的熵,数组sum中sum[i]存放第i个备选属性的分裂评价值。   for(l=0;lk;l++)   {   以Al对节点进行预分裂,令Ai的属性值个数为attribute_num,则分裂出attribute_num个子节点,分别为n1,n2,….nattribute_num,N为存储这attribute_num个节点的集合。   2.2 算法示例   若一数据集包含4个属性,它们分别为A1,A2,A3,A4;属性A1可取3个值,分别为A1.1,A1.2,A1.3;属性A2可取3个值,分别为A2.1,A2.2,A2.3;属性A3可取2个值,分别为A3.1,A3.2;属性A4可取2个值,分别为A4.1,A4.2。   指定参数η=0.2,Base=0.5;初始化变量value[1,2,3,4]=NaN;//NaN表示正无穷。   第一步:分别以A1,A2,A3,A4四个属性与分裂节点,得到的4个熵分别为:0.89,0.81,.026,0.31。   第二部,将A1,A2,A3,A4的分裂熵归一化后,分别为:1,0.873,0,0.080。   第三部,确定最佳属性和次佳属性,分别为A3,A4。   第四步,考察A3的分裂情况,A3可取A3.1和A3.2连个值。A3的两个可以取到的值将节点划分为2个子节点n1和n2,包含的样本个数分别为num1=575,num2=425。对n1分别以A1,A2,A4进行第二层预分裂,分裂后的熵E[1],E[2],E[3],E[4]别为0.68,0.57.Nan,0.62,以Base=0.5加权求和,value[3]=(0.57*1+0.62*0.5+0.68*0.52)*num1/(num1+num2)=1.05*575/(575+425)=0.64,再对n2分别以A1,A2,A4进行第二层预分裂,分裂后的熵E[1],E[2],E[3],E[4]别为0.72,0.31.Nan,0.82,以Base=0.5加权求和和,value[3]=value[3]+(0.31*1+0.72*0.5+0.82*0.52)*n

文档评论(0)

sis_lxf + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档