- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章5.2ID3的
第 5 章;5.2 基于信息论的归纳学习方法;5.2.1 基于互信息的ID3方法;;2、ID3算法;一、ID3 基本思想;它属于哪类气候(能否打高尔夫球)呢?
每个实体属于不同的类别,为简单起见,假定仅有两个类别,分别为P,N。在这种两个类别的归纳任务中,P类和N类的实体分别称为概念的正例和反例。
将一些已知的正例和反例放在一起便得到训练集。
下表给出一个训练集。由ID3算法得出一棵正确分类训练集中每个实体的决策树,见图。;NO.;天 气;决策树叶子为类别名,即P 或者N。其它结点由实体的特征组成,每个特征的不同取值对应一分枝。
若要对一实体分类,从树根开始进行测试,按特征的取值分枝向下进入下层结点,对该结点进行测试,过程一直进行到叶结点,实体被判为属于该叶结点所标记的类别。; 用图来判本节开始处的具体例子,得该实体的类别为P类。
ID3方法就是要从表的训练集构造图这样的决策树。
实际上,能正确分类训练集的决策树不止一棵。
Quinlan的ID3算法能得出结点最少的决策树。;二、ID3 算法;主算法流程用下图表示。其中PE、NE分别表示正例集和反例集,它们共同组成训练集。
PE’,PE’’和NE’,NE’’分别表示正例集和反例集的子集。
主算法中每迭代循环一次,生成的决策树将会不相同。;训练集
PE、NE;(二)建树算法
1、对当前例子集合,计算各特征的互信息;
2、选择互信息最大的特征Ak;
3、把在Ak处取值相同的例子归于同一子集,Ak取几个值就得几个子集;
4、对既含正例又含反例的子集,递归调用建树算法;
5、若子集仅含正例或反例,对应分枝标上P或N,返回调用处。;3、ID3方法应用实例; 类别出现概率:
|S|表示例子集S的总数,|ui|表示类别ui的例子数。
对9个正例和5个反例有:
P(u1)=9/14 P(u2)=5/14
H(U)=(9/14)log(14/9)+(5/14)log(14/5)=0.94bit; 条件熵:;A1=天气 取值 v1=晴,v2=多云,v3=雨
在A1处取值晴的例子5个,取值多云的例子4 个,取值雨的例子5 个,故:
P(v1)=5/14 P(v2)=4/14 P(v3)=5/14
取值为晴的5 个例子中有2 个正例、3个反例,故:
P(u1/v1)=2/5, P(u2/v1)=3/5
同理有:P(u1/v2)=4/4, P(u2/v2)=0
P(u1/v3)=2/5, P(u2/v3)=3/5
H(U/V)=(5/14)((2/5)log(5/2)+(3/5)log(5/3))+(4/14)
((4/4)log(4/4)+0)+(5/14)((2/5)log(5/2)+(3/5)log(5/3)) = 0.694bit;⒊ 互信息计算
对 A1=天气 处有:
I(天气)=H(U)- H(U|V)= 0.94 - 0.694 = 0.246 bit
类似可得: I(气温)=0.029 bit
I(湿度)=0.151 bit
I(风)=0.048 bit
⒋ 建决策树的树根和分枝
ID3算法将选择互信息最大的特征天气作为树根,在14个例子中对天气的3个取值进行分枝,3 个分枝对应3 个子集,分别是:
F1={1,2,8,9,11},F2={3,7,12,13},F3={4,5,6,10,14}
其中F2中的例子全属于P类,因此对应分枝标记为P,其余两个子集既含有正例又含有反例,将递归调用建树算法。;⒌ 递归建树
分别对F1和F3子集利用ID3算法,在每个子集中对各特征(仍为四个特征)求互信息.
(1)F1中的天气全取晴值,则H(U)=H(U|V),有I(U|V)=0,在余下三个特征中求出湿度互信息最大,以它为该分枝的根结点,再向下分枝。湿度取高的例子全为N类,该分枝标记N。取值正常的例子全为P类,该分枝标记P。
(2)在F3中,对四个特征求互信息,得到风特征互信息最大,则以它为该分枝根结点。再向下分枝,风取有风时全为N类,该分枝标记N。取无风时全为P类,该分枝标记P。
这样就得到图的决策树 ;5.2.2 基于信息增益率的C4.5方法; C4.5的进步
(1)用信息增益率来选择属性,它克服了用信息增益选择属性时偏向选择取值多的属性的不足;
(2)在树构造过程中或者构造完成之
您可能关注的文档
最近下载
- 2025年安徽皖江高速公路有限公司高速公路收费人员招聘笔试模拟试题及答案解析.docx VIP
- 人体结构与功能教案仅供参考.pptx VIP
- 物探报告范例.pdf VIP
- 三级养老护理员国家职业技能培训模块一项目三任务三协助老年人进行口腔吸痰.pptx VIP
- 2025年安徽皖江高速公路有限公司高速公路收费人员招聘考试备考题库及答案解析.docx VIP
- 2025年安徽皖江高速公路有限公司高速公路收费人员招聘笔试备考试题及答案解析.docx VIP
- 完整版2025年开学思政第一课.ppt VIP
- 2025年安徽皖江高速公路有限公司高速公路收费人员招聘考试备考试题及答案解析.docx VIP
- 写作载体与写作受体.ppt VIP
- 电子科技大学博士、硕士学位授权点一览表最终.docx VIP
文档评论(0)