- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于平衡准确率和规模的决策树剪枝算法-科学技术与工程
第 卷第 期 年 月 科 学 技 术 与 工 程
基于平衡准确率和规模的决策树剪枝算法
宋万洋 李国和 吴卫江 洪云峰 周晓明
中国石油大学北京地球物理与信息工程学院 油气数据挖掘北京市重点实验室 北京
石大兆信数字身份管理与物联网技术研究院 北京
摘要 决策树剪枝是决策树分类学习中的重要步骤可降低决策树复杂程度和提高决策树泛化能力从而提高决策树识别
精度和效率 通过利用系数函数综合决策树的错误率和规模形成决策树剪枝标准在系数函数的参数合适选取采用自底
向上遍历过程逐一进行判断剪枝 实验结果表明综合考虑决策树的分类预测准确率和决策树的规模大小剪枝算法
能够获得更好的剪枝效果
关键词 决策树 剪枝算法 准确率 规模
中图法分类号 文献标志码
决策树算法是当前研究应用比较广泛的机器学 度 准则 根据
习算法 决策树中从根到叶结点的每一条路径 不同的样本数决定对决策树的剪枝程度 但其单纯
对应一组属性值 构成的分类规则 决策树生成 从决策树复杂程度决定剪枝可能导致决策树分类
与训练集紧密相关可能会因为完全拟合训练集导 精确度下降 综合考虑决策树复杂度和分类精度的
致过拟合降低决策树分类精度 决策树剪枝是解 后剪枝更能实现决策树的结构风险最小如结合多
决过拟合提高决策树泛化能力的有效方法之一符
种策略的剪枝算法 但是其策略的组合需要人为
合结构风险最小化理论在经验风险 即训练误差 根据经验给定在应用时有一定的限制基于信息增
和决策树复杂程度取得平衡 当前决策树剪枝
益和最小距离分类的决策时改进算法 其在由信
方法分为前剪枝 和后剪枝 息增益构造的决策树的基础上使用最小距离的标准
前者是在树生成过程中控制决策树的生长容 来调节修整决策树模型但是其对原始数据进行修
易导致过早停止生长的视野效应 后者对已生成 改会导致不可恢复的错误
的决策树进行剪枝 在分析经典后剪枝存在的不足的基础上提出
相关工作 一种综合考虑决策树分类准确率和规模的决策树后
剪枝算法采用自底向上的剪枝策略并且无需单独
后剪枝使决策树具有更好结构风险最小的特 用于剪枝的数据集
点有些经典算法如 等 剪
结合准确率和规模的剪枝算法
枝 算法是常用的剪枝算法但其速度较慢并且
文档评论(0)