第5章5.2ID3的.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章5.2ID3的

第 5 章;5.2 基于信息论的归纳学习方法;5.2.1 基于互信息的ID3方法;;2、ID3算法;一、ID3 基本思想;它属于哪类气候(能否打高尔夫球)呢? 每个实体属于不同的类别,为简单起见,假定仅有两个类别,分别为P,N。在这种两个类别的归纳任务中,P类和N类的实体分别称为概念的正例和反例。 将一些已知的正例和反例放在一起便得到训练集。 下表给出一个训练集。由ID3算法得出一棵正确分类训练集中每个实体的决策树,见图。;NO.;天 气;决策树叶子为类别名,即P 或者N。其它结点由实体的特征组成,每个特征的不同取值对应一分枝。 若要对一实体分类,从树根开始进行测试,按特征的取值分枝向下进入下层结点,对该结点进行测试,过程一直进行到叶结点,实体被判为属于该叶结点所标记的类别。; 用图来判本节开始处的具体例子,得该实体的类别为P类。 ID3方法就是要从表的训练集构造图这样的决策树。 实际上,能正确分类训练集的决策树不止一棵。 Quinlan的ID3算法能得出结点最少的决策树。;二、ID3 算法;主算法流程用下图表示。其中PE、NE分别表示正例集和反例集,它们共同组成训练集。 PE’,PE’’和NE’,NE’’分别表示正例集和反例集的子集。 主算法中每迭代循环一次,生成的决策树将会不相同。;训练集 PE、NE;(二)建树算法 1、对当前例子集合,计算各特征的互信息; 2、选择互信息最大的特征Ak; 3、把在Ak处取值相同的例子归于同一子集,Ak取几个值就得几个子集; 4、对既含正例又含反例的子集,递归调用建树算法; 5、若子集仅含正例或反例,对应分枝标上P或N,返回调用处。;3、ID3方法应用实例; 类别出现概率: |S|表示例子集S的总数,|ui|表示类别ui的例子数。 对9个正例和5个反例有: P(u1)=9/14 P(u2)=5/14 H(U)=(9/14)log(14/9)+(5/14)log(14/5)=0.94bit; 条件熵:;A1=天气 取值 v1=晴,v2=多云,v3=雨 在A1处取值晴的例子5个,取值多云的例子4 个,取值雨的例子5 个,故: P(v1)=5/14 P(v2)=4/14 P(v3)=5/14 取值为晴的5 个例子中有2 个正例、3个反例,故: P(u1/v1)=2/5, P(u2/v1)=3/5 同理有:P(u1/v2)=4/4, P(u2/v2)=0 P(u1/v3)=2/5, P(u2/v3)=3/5 H(U/V)=(5/14)((2/5)log(5/2)+(3/5)log(5/3))+(4/14) ((4/4)log(4/4)+0)+(5/14)((2/5)log(5/2)+(3/5)log(5/3)) = 0.694bit;⒊ 互信息计算 对 A1=天气 处有: I(天气)=H(U)- H(U|V)= 0.94 - 0.694 = 0.246 bit 类似可得: I(气温)=0.029 bit I(湿度)=0.151 bit I(风)=0.048 bit ⒋ 建决策树的树根和分枝 ID3算法将选择互信息最大的特征天气作为树根,在14个例子中对天气的3个取值进行分枝,3 个分枝对应3 个子集,分别是: F1={1,2,8,9,11},F2={3,7,12,13},F3={4,5,6,10,14} 其中F2中的例子全属于P类,因此对应分枝标记为P,其余两个子集既含有正例又含有反例,将递归调用建树算法。;⒌ 递归建树 分别对F1和F3子集利用ID3算法,在每个子集中对各特征(仍为四个特征)求互信息. (1)F1中的天气全取晴值,则H(U)=H(U|V),有I(U|V)=0,在余下三个特征中求出湿度互信息最大,以它为该分枝的根结点,再向下分枝。湿度取高的例子全为N类,该分枝标记N。取值正常的例子全为P类,该分枝标记P。 (2)在F3中,对四个特征求互信息,得到风特征互信息最大,则以它为该分枝根结点。再向下分枝,风取有风时全为N类,该分枝标记N。取无风时全为P类,该分枝标记P。 这样就得到图的决策树 ;5.2.2 基于信息增益率的C4.5方法; C4.5的进步 (1)用信息增益率来选择属性,它克服了用信息增益选择属性时偏向选择取值多的属性的不足; (2)在树构造过程中或者构造完成之

文档评论(0)

ayangjiayu3 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档