- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息论方法
(一)主算法 ⒈ 从训练集中随机选择一个既含正例又含反例的子集(称为窗口); ⒉ 用“建树算法”对当前窗口形成一棵决策树; ⒊ 对训练集(窗口除外)中例子用所得决策树进行类别判定,找出错判的例子; ⒋ 若存在错判的例子,把它们插入窗口,转2,否则结束。 二、ID3算法 训练集 PE、NE 取子集建窗口 窗口 PE`、NE` 生成 决策树 测试 PE、NE 扩展窗口 PE`=PE`+PE``NE`=NE`+NE`` 此决策树为最后结果 存在错判的 PE``,NE``吗 是 否 ID3主算法流程 PE、NE分别表示正例集和反例集,它们共同组成训练集 PE’,PE’’和NE’,NE’’分别表示正例集和反例集的子集。 主算法流程用下图表示 ⒈ 对当前例子集合,计算各特征的互信息(信息增益); ⒉ 选择互信息(信息增益)最大的特征Ak; ⒊ 把在Ak处取值相同的例子归于同一子集,Ak取几个值就得几个子集; ⒋ 对既含正例又含反例的子集,递归调用建树算法; ⒌ 若子集仅含正例或反例,对应分枝标上P或N,返回调用处。 (二)建树算法 实例计算 对于气候分类问题进行具体计算(找出根节点) ⒈ 信息熵的计算 信息熵: 类别出现概率: |S|表示例子集S的总数(14),|ui|表示类别ui的例子数。 u1代表正例P共9个和u2代表反例N共5个,有: P(u1)=9/14 P(u2)=5/14 H(U)=(9/14)log(14/9)+(5/14)log(14/5)=0.94bit NO. 属性 类别 天气 气温 湿度 风 1 晴 热 高 无风 N 2 晴 热 高 有风 N 3 多云 热 高 无风 P 4 雨 适中 高 无风 P 5 雨 冷 正常 无风 P 6 雨 冷 正常 有风 N 7 多云 冷 正常 有风 P 8 晴 适中 高 无风 N 9 晴 冷 正常 无风 P 10 雨 适中 正常 无风 P 11 晴 适中 正常 有风 P 12 多云 适中 高 有风 P 13 多云 热 正常 无风 P 14 雨 适中 高 有风 N ⒉ 条件熵计算 条件熵: 属性A1取值vj时,类别ui的条件概率: A1=天气 取值 v1=晴,v2=多云,v3=雨 在A1处取值晴的例子5个,取值多云的例子4 个,取值雨的例子5 个,故: P(v1)=5/14 P(v2)=4/14 P(v3)=5/14 取值为晴的5 个例子中有2 个正例、3个反例,故: P(u1/v1)=2/5, P(u2/v1)=3/5 同理有:P(u1/v2)=4/4, P(u2/v2)=0 P(u1/v3)=2/5, P(u2/v3)=3/5 H(U/V)=(5/14)((2/5)log(5/2)+(3/5)log(5/3))+(4/14)((4/4)log(4/4) +0)+(5/14)((2/5)log(5/2)+(3/5)log(5/3)) = 0.694bit ⒊ 互信息(信息增益)计算 对 A1=天气 处有: I(天气)=H(U)- H(U|V)= 0.94 - 0.694 = 0.246 bit 类似可得: I(气温)=0.94-0.911=0.029 bit I(湿度)=0.94-0.788=0.151 bit I(风)=0.94-0.892=0.048 bit ⒉ 条件熵计算 A2=气温 取值 v1=热,v2=适中,v3=冷 在A2处取值热的例子4个,取值适中的例子6 个,取值冷的例子4 个,故: P(v1)=4/14 P(v2)=6/14 P(v3)=4/14 取值为热的4个例子中有2个正例、2个反例,故: P(u1/v1)=2/4, P(u2/v1)=2/4 同理有:P(u1/v2)=4/6, P(u2/v2)=2/6 P(u1/v3)=3/4, P(u2/v3)=1/4 H(U/V)=(4/14)((2/4)log(4/2)+(2/4)log(4/2))+(6/14)((2/3)log(3/2) +(1/3)log(3/1))+(4/14)((3/4)log(4/3)+(1/4)log(4/1)) = 2/7+3/7((2/3)log3-2/3log2+ (1/3)log3)+2/7((3/4)log4-(3/4)log3+1/2)=2/7+2/7log3-2/7+4/7+3/14log3=4/7+3/14log3=0.911bit ⒉ 条件熵计算 A3=湿度 取值 v1=高,v2=正常 在湿度A3处取值高的例子7个,取值正常的例
文档评论(0)