- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2008年 1O月 保 定 学 院 学报 0ct.2008
第 21卷第4期 JOURNALOFBAODINGUNIVERSITY VoL21No-4
文章编号:1674—2494(2008)04—0024—40
ID3算法的合理性证明及实验分析
左吉峰l,,乔均俭
(1.河北大学 数学与计算机学院,河北 保定 071002;2.河北农业大学 理学院,河北 保定 071001)
摘 要:研究一个属性的某几个属性值并的权熵之和与该属性单个属性值的权熵之和的关系,
从理论上证明一个属性的某几个属性值并的权熵之和不小于该属性单个属性值的权熵之和.为ID3算
法的合理性提供理论基础.实验结果证明结论正确.
关键词:信息熵;ID3算法;决策树;条件属性;决策属性
中图分类号:1’P3O1.6 文献标识码:A
决策树 IJ-5】方法是应用最广的归纳推理算法 表1 相对于目标概念PlayTennis的训练样例
之一.ID3算法是一种典型的决策树归纳算法,
它是Quinlan6[1首先提出的.其核心思想是利用
信息熵原理171,选择信息熵最小的属性作为分类
属性,递归地拓展决策树的分枝,完成决策树的
构,产生出一组分类规则.其中属性的熵定义为
该属性单个属性值的权熵之和,在生成树的过
程中,每个结点只有一个属性值(权熵相同的属
性值看作一个属性值),其优点是采用 自顶向下
不回溯的策略搜索全部的属性空间,其建立决
策树的算法简单,难度小,分类速度快.以表1为
例,表1中有l4个训练样例,每个样例含有4个分
类属性 ,Outlook,Temperature,Wind,Humidit及 1
个决策属性PlayTennis.根据ID3算法,可生成图1
中的决策树.产生出如下的分类规则:
规则l:如果Outlook=Sunny,且Humidity=
Normal,则适合打球;
规则2:如果Outlook=Sunny,且Humidity=
High,则不适合打球;
规则3:如果Outlook=Overcast,则适合打球;
规则4:如果Outlook=Rain,且Wind=Weak,
则适合打球;
规则5:如果,Outlook=Rain,且Wind=Strong,
则不适合打球 .
本文首先研究了一个属性的某几个属性值
并的权熵之和与该属性单个属性值的权熵之和 N
的关系,得出了如下结论:一个属性的某几个属 图1 由表1生成的决策树
收稿 日期:20o8一o6—3O
基金项目:河北农业大学非生命学科与新兴学科科研发展基金(FSY200739)
作者简介:左吉峰(1979一),男,河北邢台人,河北大学硕士研究生,河北农业大学助教
左吉峰,乔均俭:ID3算法的合理性证明及实验分析
性值并的权熵之和不小于该属性单个属性值的权熵之和.然后通过在Pima数据库的实验,证明结论的正确性,
从而为ID3算法的合理性提供了理论基础和例证.
1 准备知识
定义1信息熵是信息的一种不确定性程度的度量,设系统s具有概率分布p={p}(0≤p≤1),i=1,2,…,n,
则系统S的信息熵(Shannonentropy)定义为
E(s)一∑Plnp.
在二类分类问题中,给定一个集合S,假设Js是由目标值为正的样例或 目标值为负的样例组成,则集合s90
熵为E(s)=-p+log~p+--P—log2p一,其中p+是正例在 中所占的比例,P一是反例在 中所占的比例.
ID3算法原理 设训练样例子集PⅣ含有P个正例和n个反例,则一个例子属于正例集朋的概率为—L ,属于
p+n
反例集^ 的概率为 ·决策树可以看作正例与反例集的信息源,因而产生这些信息的期望信息为
l(p.n)-一 l0g2( )一 l0 (
您可能关注的文档
- 2008年9中国铅、锌、锡、锑进口情况.pdf
- 2008年10月PU原料市场分析.pdf
- 2008年10月份部份建材产品检验结果汇表.pdf
- 2008年11月上旬安国药市动态.pdf
- 2008年11月上旬广州药市动态.pdf
- 2008年11月上旬三棵树药市动态.pdf
- 2008年11月上旬毫州药市动态.pdf
- 2008年11月上旬陕西商洛地产药材动态.pdf
- 2008年11月上旬禹州药市动态.pdf
- 2008年安徽高考理科22题结论的推广.pdf
- IEC 61988-2-3国际标准提案介绍.pdf
- IEEE 802.11i协议的DOS攻击分析及改进.pdf
- IEEE802.16g:2007和IEEE802.16k:2007标准研究.pdf
- IFRS在各国应用现状研究.pdf
- IgA肾病中医证候及其辨证治疗的研究进展.pdf
- IGCC气流床气化炉温度的模糊PID控制.pdf
- IGF-1和IGFBP-3在生长激素缺乏的矮小儿童诊断中的意义和价值.pdf
- ILK与P-PKB蛋白在卵巢肿瘤组织中的表达及意义.pdf
- IMO船员培训和值班标准分委会工作组特别会间会审议STCW公约和STCW规则.pdf
- Importance of vocabulary in reading comprehension: An experiment in reading comprehension.pdf
最近下载
- 《公共体育课》课程健美选项教学大纲.pdf VIP
- 新教材牛津译林版必修第一册全册各单元重点语法总结.pdf VIP
- 公共体育课课程排舞选项教学大纲.pdf VIP
- 不发火施工方案.pdf VIP
- 初中英语新人教版八年级上册Unit 2 Home Sweet Home语法知识讲解和练习(2025秋).doc VIP
- 新教材高中物理 期末综合检测(A、B卷)(含解析)新人教版必修第一册.pdf VIP
- 2025新人教版八年级英语上册Unit 2 Home Sweet课文讲解学案.docx VIP
- 2024年新教材高中物理模块综合检测A含解析新人教版必修第一册.docx VIP
- 2024新化县中小学教师招聘考试题库及答案.docx VIP
- 2024_2025学年新教材高中物理期末把关检测卷含解析新人教版必修第一册.doc VIP
文档评论(0)