决策树算法中多值偏向问题的理论分析.pdfVIP

下载本文档

10
0
约1.31万字
约 8页
2017-08-13 发布于安徽
举报
版权申诉

决策树算法中多值偏向问题的理论分析.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2005年全国自动化新技术学术交流会会议论文集决策树算法中多值偏向问题的理论分析韩松来，张辉，周华平 007 (国防科学技术大学机电工程与自动化学院，湖南长沙413) 摘要：多值偏向是决策树算法中普遍存在的问题，以往人们对于多值偏向问题的分析主要是基于实验观测的。该文针对决策树算法中的多值偏向问题提出了一种理论分析方法，并使用该方法分析了四种常用的决策树算法一ID3算法、Gini指数算法、z2统计算法和Relief算法。理论分析的结果跟实验观测的结果相一致，证明了这种分析方法的有效性。关键词：决策树；多值偏向；ID3；Gini指数；z2统计；Relief 中图分类号：TPl8 文献标识码：A 1 介绍．决策树算法是机器学习领域的一种重要方法，主要用于数据的分类和预测。1986年， J．R．Qunlan在研究决策树的ID3算法11J时，发现了多值偏向问题。所谓多值偏向是指决策树算法在选择拆分属性时，倾向于优先选取取值个数较多的属性。多值偏向所带来的问题是把属性在分类中的重要性跟属性取值个数的多少关联起来，最终可能导致从数据集中归纳出错误的知识。随后，人们发现大部分决策树算法都存在多值偏向问题。但是，到目前为止人们对于多值偏向问题的研究都是基于实验观测的，即把决策树算法应用到数据集中，通过观察生成的决策树，来判断该算法是否具有多值偏向问题，这种方法复杂而且还可能导致判断错误。本文提出了一种从理论上分析决策树算法的多值偏向问题的方法，直接根据算法的表达式推断算法是否具有多值偏向问题。第2部分介绍了从理论上分析多值偏向问题的基本方法。第3部分将使用这种方法分析几种常用的决策树算法是否具有多值偏向问题。第4部分是一个简短的总结。 2多值偏向问题的基本分析方法假定A是某数据集的一个属性，它的取值为A1，A2，…，A。。同时假定存在另外一个属性爿’，它的到的。显然，拆分属性的某一个取值并不会增加属性的重要性，即A’不会比A更重要。然后，把决策树算法分别作用在A和彳’，如果后者的值恒大于前者，则说明此算法具有多值偏向问题。对于下文所用到的一些符号的说明。假定分类属性C的取值为01,C2，…，靠，则p(C，)表示数据集中第i类数据出现的概率，p(A，)表示数据集中属性A取值为爿，的数据出现的概率，p(爿；)表示数据集中属性爿’取值为爿?的数据出现的概率，p(c，／A1)表示在属性A取值为爿，的数据子集中第i类数据出现的概率，p(c，／爿?)表示在属性彳取值为4的数据子集中第i类数据出现的概率。 3决策树算法的多值偏向问题分析发现前三种算法具有多值偏向问题，而第四种算法没有多值偏向问题，这种结果与实验观测的结果相一致。作者简介：韩松来(1982．)，男，河南泌阳县人，硕士生，模式识别与智能系统；张辉(1972-)，男，安徽合肥人，副教授，机器人控制；周华平(1969一)，男，湖北襄樊人，副教授，模式识别与智熊控制． 133 2005年全国自动化新技术学术交流会会议论文集 3．1 ID3算法在生成决策树时，ID3算法f1I采用信息增益作为属性选取的标准，属性A的信息增益可表示如下： gain(A)=，一E(彳) 正，=-Zp(c，)l092(P(C∽ ／=l E(爿)：羔p(Aj)，(勺)：一兰p(勺)∑k[P(cf／4)l092(P(c，／勺))] ，；l j=l i=1 根据第2部分的分析，把ID3算法分别作用在A’和A上得： gain(A)=，一E(爿) gain(A’)=，一E(A’) 的取值情况： gain(A’)一gain(A)=(』一E(A3)一(，一E(爿))=E(彳)一E(A3 其中，￡(爿)和E(A’)的取值如下： E(4)=E p(Aj)；(xJ)