决策树算法中多值偏向问题的理论分析.pdfVIP

决策树算法中多值偏向问题的理论分析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2005年全国自动化新技术学术交流会会议论文集 决策树算法中多值偏向问题的理论分析 韩松来,张辉,周华平 007 (国防科学技术大学机电工程与自动化学院,湖南长沙413) 摘要:多值偏向是决策树算法中普遍存在的问题,以往人们对于多值偏向问题的分析主要是基于实验 观测的。该文针对决策树算法中的多值偏向问题提出了一种理论分析方法,并使用该方法分析了四种 常用的决策树算法一ID3算法、Gini指数算法、z2统计算法和Relief算法。理论分析的结果跟实 验观测的结果相一致,证明了这种分析方法的有效性。 关键词:决策树;多值偏向;ID3;Gini指数;z2统计;Relief 中图分类号:TPl8 文献标识码:A 1 介绍 .决策树算法是机器学习领域的一种重要方法,主要用于数据的分类和预测。1986年, J.R.Qunlan在研究决策树的ID3算法11J时,发现了多值偏向问题。所谓多值偏向是指决策树算法 在选择拆分属性时,倾向于优先选取取值个数较多的属性。多值偏向所带来的问题是把属性在分类 中的重要性跟属性取值个数的多少关联起来,最终可能导致从数据集中归纳出错误的知识。随后, 人们发现大部分决策树算法都存在多值偏向问题。 但是,到目前为止人们对于多值偏向问题的研究都是基于实验观测的,即把决策树算法应用到 数据集中,通过观察生成的决策树,来判断该算法是否具有多值偏向问题,这种方法复杂而且还可 能导致判断错误。本文提出了一种从理论上分析决策树算法的多值偏向问题的方法,直接根据算法 的表达式推断算法是否具有多值偏向问题。 第2部分介绍了从理论上分析多值偏向问题的基本方法。第3部分将使用这种方法分析几种常 用的决策树算法是否具有多值偏向问题。第4部分是一个简短的总结。 2多值偏向问题的基本分析方法 假定A是某数据集的一个属性,它的取值为A1,A2,…,A。。同时假定存在另外一个属性爿’,它的 到的。显然,拆分属性的某一个取值并不会增加属性的重要性,即A’不会比A更重要。然后,把决 策树算法分别作用在A和彳’,如果后者的值恒大于前者,则说明此算法具有多值偏向问题。 对于下文所用到的一些符号的说明。假定分类属性C的取值为01,C2,…,靠,则p(C,)表示数据集中 第i类数据出现的概率,p(A,)表示数据集中属性A取值为爿,的数据出现的概率,p(爿;)表示数据集 中属性爿’取值为爿?的数据出现的概率,p(c,/A1)表示在属性A取值为爿,的数据子集中第i类数据出 现的概率,p(c,/爿?)表示在属性彳取值为4的数据子集中第i类数据出现的概率。 3决策树算法的多值偏向问题分析 发现前三种算法具有多值偏向问题,而第四种算法没有多值偏向问题,这种结果与实验观测的结果 相一致。 作者简介:韩松来(1982.),男,河南泌阳县人,硕士生,模式识别与智能系统;张辉(1972-),男,安徽合肥人, 副教授,机器人控制;周华平(1969一),男,湖北襄樊人,副教授,模式识别与智熊控制. 133 2005年全国自动化新技术学术交流会会议论文集 3.1 ID3算法 在生成决策树时,ID3算法f1I采用信息增益作为属性选取的标准,属性A的信息增益可表示如 下: gain(A)=,一E(彳) 正 ,=-Zp(c,)l092(P(C∽ /=l E(爿):羔p(Aj),(勺):一兰p(勺)∑k[P(cf/4)l092(P(c,/勺))] ,;l j=l i=1 根据第2部分的分析,把ID3算法分别作用在A’和A上得: gain(A)=,一E(爿) gain(A’)=,一E(A’) 的取值情况: gain(A’)一gain(A)=(』一E(A3)一(,一E(爿))=E(彳)一E(A3 其中,£(爿)和E(A’)的取值如下: E(4)=E p(Aj);(xJ)

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档