- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章5.2ID3
第 5 章 机器学习与数据挖掘 (2) 5.2节 5.2 基于信息论的归纳学习方法 5.2.1 基于互信息的ID3方法 5.2.2 基于信息增益率的C4.5方法 5.2.3 基于信道容量的IBLE方法 5.2.1 基于互信息的ID3方法 决策树概念最早是1966年由E.Hunt提出的的CLS决策树学习算法。 影响最大的是J.R.Quinlan于1986年提出的改进CLS算法的ID3方法,他提出用信息增益(information gain,即信息论中的互信息)来选择属性作为决策树的结点。 由于决策树的建树算法思想简单,识别样本效率高的特点,使ID3方法成为当时机器学习领域中最有影响的方法之一 。 2、ID3算法 决策规则树 决策规则树结点 (1)规则表示形式 决策规则树中非叶结点均为规则。规则表示为: 特征: A1,A2,..., .Am 权值: W1,W2,...,.Wm 标准值:V1,V2,..., .Vm 阈值:Sp,Sn 该规则可形式描述为: (1)sum:=0; (2)对i:=1到m作:若(Ai)=Vi,则 sum:=sum+wi; (3)若sum?sn,则该例为N类; (4)若sum?sp,则该例为P类; (5)若snsumsp,则该例暂不能判,转下一条规则判别。 其中sum表示权和,(Ai)表示特征Ai的取值。 (2)举例 设问题空间中例子有10个特征(属性),特征编号从1到10。每个特性取值为{no,yes},用{0,1}表示,规则是由重要特征组成的,对每个特征求出权值以表示其重要程度,删除不重要特征得规则如下: 特征: 1 3 4 6 7 权值: 100 90 105 500 40 标准值: 1 0 1 1 0 阈值: 220,100 现有三个测试例子: 例子1:(1,0,0,0,1,0,0,1,1,1) 例子2:(0,1,0,0,1,0,0,0,1,0) 例子3:(0,1,0,0,1,0,1,0,1,1) 例子1的权和sum=230,有sum220,判定例子1属于u1类。 例子2的权和sum=130,有100sum220,认为例子2不能判, 例子3有权和sum=90,有sum100,判例子3的类别为u2类。 规则中: A1,A2,...,Am为组成规则的特征 W1,W2,...,Wm为对应的权值 V1,V2,...,Vm为对应特征取正例的标准值 测试例子在该特征处取值与标准值相同,则sum(权和)加上对应权值,否则不加。 Sp,Sn是判是、判非、不能判的阈值。 测试例子的权和为sum: sum≥Sp时判为是类(u1类) sum?Sn时判为非类(u2类) SnsumSp时认为不能判 IBLE算法由四部分组成: 预处理; 建决策树算法; 建规则算法; 类别判定算法。 以上算法见书中说明. IBLE方法实例 配隐形眼镜问题 (1)患者配隐形眼镜的类别 患者是否应配隐形眼镜有三类: @1:患者应配隐形眼 @2:患者应配软隐形眼镜 @3:患者不适合配隐形眼镜 (2)患者眼镜诊断信息(属性) a:患者的年纪 (1)年轻;(2)前老光眼;(3)老光眼 b:患者的眼睛诊断结果 (1)近视;(2)远视 c:是否散光 (1)是:(2)否 d:患者的泪腺 (1)不发达;(2)正常 利用IBLE算法得出的各类决策规则树和逻辑公式 (1)@1类的决策规则树 规则 1 a=1 b=1 c=2 d=2 0.21 0.048 0.282 0.282 s1=0.5639 ≤s1 s1 非@1类 @1类 等价规则为:c=2 ∧ d=2 ∧ a=1 → @1 c=2 ∧ d=2 ∧ b=1 → @1 苯等八类化合物的分类问题 IBLE与ID3的比较 原因分析 IBLE决策规则树的特点 IBLE决策规则树的特点 习题 11 , 12 , 13 , 14 , 16 配隐形眼镜患者实例表 3 3 2 2 2 24 1 2 1 2 2 12 3 3 2 2
文档评论(0)