- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 42卷 第 4期 太 原 理 工 大 学 学 报 Vo1.42 No.4
201i年 7月 JOURNALOFTAIYUAN UNIVERSITY oFTECHN0LOGY ju1.2011
文 章编 号 :1007—9432(20l1)04—0346-03
决策树分类的属性选择方法的研究
王会青,陈俊杰,侯晓晶,郭 凯
(太原理工大学 计算机科学与技术学院,太原 030024)
摘 要 :针 对 ID3算 法偏 向 于选择 取值 较 多 的属性 作 为测试 属性 的缺 点 ,引入 OneR算 法选择
属 性 的相 关子 集进行 分 类 ,降低 无 关属性 和重 复属性 对分 类 的影响 。实验 结 果表 明 ,与 ID3算 法相
比优化 后 的方案提 高 了 ID3算 法 的分类 准确 率 ,降低 了分 类 时 间,同 时克服 了 ID3算 法 的取值 偏 置
问题 ,优 化 了分 类 结 果 。
关键词 :决策树 ;ID3算 法 ;属性 选择 ;怀卡 托智 能分 析环境 (wEKA)系统
中 图分 类 号 :TD301.6 文 献 标 识码 :A
分类是数据挖掘 中一种重要 的分析方法 ,通过 得所产生的每个样本子集 中的 “不同类别混合程度”
学习训练集构造一个分类函数或分类模 型,利用分 降为最低 。ID3算法 的基本原理为L5j:
类函数或模型对测试数据集进行分类[1]。分类可用 设样本集 S是 S个数据样本 的集合 ,假定有 m
于预测 ,预测的目的是从历史数据记录中自动推导 个不同类C (i一1,2,…,),S是 c 类 的样本数 ,
出对给定数据的趋势描述,从而能对未来数据进行 对样本集 s所期望的信息值 (S,S。,…,S)为 :
预测。 目前分类算法主要有决策树方法、神经网络 m
I(s1,s2,… ,s)一一 P lg2(P ).
方法 、统计方法等 ],不 同方法会产生不 同的分类 i— l
器,分类器的优劣直接影响数据挖掘 的效率与准确 式中,P。是任意样本属于C 的概率 :S/s。
性。决策树方法是一种经典 的分类算法 ,具有较好 设属性A有 个不同值 {a,a,…,a),利用
地处理缺省数据及带有噪声数据的能力 。 属性 A可以将样本集 S划分为 个子集 {S ,S。,
ID3算法是由Quinlan提出的一种基于信息熵 … , s),其 中,S,包含s中属性A上具有a,值的
的决策树学习算法I2]。该算法 以信息论为基础 ,把 样本 。如果属性A被选为测试属性,则这些子集对
信息熵作为选择测试属性标准,对训练实例集进行 应有包含集合 S的结点生长出来的分支 。
归纳分类 。但是在选择测试属性时,ID3算法往往 设 s是S,中C 类的样本数 ,则由属性 A划分
偏向于选择取值较多 的属性 ,而属性值较多 的属性 成子集的熵为 :
却不一定是最优的属性 ]。为了克服 ID3算法在选
择属性中存在 的缺点 ,引人 OneR算法来选择相关 一 耋 ,…,S),
属性子集 ,降低无关属性或重复属性在分类 中的影
I(Slj,s2J,… ,s )一一 lg2(d).
响 ,优化分类结果 。 i= l
您可能关注的文档
- 基于Iverson模型的低渗透率油层压裂高度测井预测研究.pdf
- 基于L2增益的永磁同步电动机无速度传感器的自抗扰控制.pdf
- 基于LPC2294的便携式汽车车轮测量仪的开发.pdf
- 基于MEMS工艺的硅基四电极电导率与温度集成传感器芯片的研制.pdf
- 基于MTM和灰色关联度的混合噪声自适应滤波算法.pdf
- 基于QoS的认知OFDM无线电系统自适应资源分配.pdf
- 基于Spline插值的分布式多速率数据帧扫描同步重构技术.pdf
- 基于SVM的二次下降有效集算法.pdf
- 基于Tight gas致密砂岩储层渗透率的有效应力特性研究.pdf
- 基于WSN和ANN的综合远程智能地质灾害监测预警系统研究.pdf
文档评论(0)