分类算法中基于信息理论的选择策略改进.docVIP

下载本文档

10
0
约 6页
2016-09-26 发布于北京
举报
版权申诉

分类算法中基于信息理论的选择策略改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分类算法中基于信息理论的选择策略改进.doc

分类算法中基于信息理论的选择策略改进　　摘要：数据挖掘分类算法中基于信息理论的选择策略在选择分裂属性时，只考虑最优的分裂属性，忽略其他分裂属性。改进算法考虑了与最优分裂属性分裂效果相近的其他分裂属性，将其他分裂属性连同最优分裂属性一起作为待定分裂属性，并将待定分裂属性的每一个属性进行预分裂，判断这些待定分裂属性的好坏，从中选择最好的分裂属性。　　关键词：数据挖掘；分类算法；信息论；选择策略　　中图分类号：TP391.41 　　1 问题的描述　　1.1 传统的基于信息理论的分类算法选择策略才在的问题　　基于信息理论的选择策略基于信息论领域中的信息熵、信息增益来实现数据的分类划分。利用这种方法，分裂后的熵越小，该分裂方法就越好。　　（1）该方法根据单属性判断分裂的好坏，即只能看到一次分裂之后的分裂效果，　　（2）最佳分裂属性的熵，有时与次佳分裂属性十分相近。　　2 改进的算法　　改进的方法在选择分裂属性时，不直接选择最佳分裂属性进行分裂，而是考虑将最佳分裂属性与若干次佳分裂属性，考察这些属性分裂后的节点的再分裂效果的好坏，从中选择最优的分裂属性。　　2.1 算法描述　　具体做法是：　　假设该节点含有n个可分裂属性，分别为A1，A2，A3…An，对应的熵为E1，E2，E3…En 　　（1）确定最佳分裂属性和次佳分裂属性　　令最佳分裂属性为Abest次佳分裂属性Ebest，次佳分裂属性集合为Aless_best则：　　Ebest=Min（E1，E2，E3…En）Ebest所对应的属性为Abest。次佳分裂属性：E1，E2，E3…En中与Ebest相近的熵所对应的属性。可以设定门限η，集合{Ei|EiEbest+η}中的元素所对应的属性为Aless_best。对于不同的节点，其E1，E2，E3…En，的分布会何不相同，因此门限η往往需要多个值，为了统一门限η，便于合理给定Aless_best的范围，需要对E1，E2，E3…En进行单位化，其方法是：　　max=Max（E1，E2，E3…En），min=Min（E1，E2，E3…En），对于所有Ei= 　　这样，将（E1，E2，E3…En）映射到[0，1]的区间上，并且至少有一个值为0，至少有一个值为1.给定一个门限参数η，所有小于η的Ei所对应的属性就为最佳分裂属性和次佳分裂属性。　　（2）所有最佳属性和次佳属性中选择分裂属性　　假定所有最佳属性和次佳属性一共有k个，它们分别称为A1，A2，A3…Ak，选择过程如下：　　数组E中存储第二次预分裂后的熵，数组sum中sum[i]存放第i个备选属性的分裂评价值。　　for（l=0；lk；l++）　　{ 　　以Al对节点进行预分裂，令Ai的属性值个数为attribute_num，则分裂出attribute_num个子节点，分别为n1，n2，….nattribute_num，N为存储这attribute_num个节点的集合。　　2.2 算法示例　　若一数据集包含4个属性，它们分别为A1，A2，A3，A4；属性A1可取3个值，分别为A1.1，A1.2，A1.3；属性A2可取3个值，分别为A2.1，A2.2，A2.3；属性A3可取2个值，分别为A3.1，A3.2；属性A4可取2个值，分别为A4.1，A4.2。　　指定参数η=0.2，Base=0.5；初始化变量value[1，2，3，4]=NaN；//NaN表示正无穷。　　第一步：分别以A1，A2，A3，A4四个属性与分裂节点，得到的4个熵分别为：0.89，0.81，.026，0.31。　　第二部，将A1，A2，A3，A4的分裂熵归一化后，分别为：1，0.873，0，0.080。　　第三部，确定最佳属性和次佳属性，分别为A3，A4。　　第四步，考察A3的分裂情况，A3可取A3.1和A3.2连个值。A3的两个可以取到的值将节点划分为2个子节点n1和n2，包含的样本个数分别为num1=575，num2=425。对n1分别以A1，A2，A4进行第二层预分裂，分裂后的熵E[1]，E[2]，E[3]，E[4]别为0.68，0.57.Nan，0.62，以Base=0.5加权求和，value[3]=（0.57*1+0.62*0.5+0.68*0.52）*num1/（num1+num2）=1.05*575/（575+425）=0.64，再对n2分别以A1，A2，A4进行第二层预分裂，分裂后的熵E[1]，E[2]，E[3]，E[4]别为0.72，0.31.Nan，0.82，以Base=0.5加权求和和，value[3]=value[3]+（0.31*1+0.72*0.5+0.82*0.52）*n