第5章:数据仓库与数据挖掘的决策支持-3课件.pptVIP

第5章:数据仓库与数据挖掘的决策支持-3课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息分析与决策支持 唐晶磊 2、ID3算法 5.6 数据挖掘的决策支持及应用 决策树用于对新样本的分类:通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。 DM的决策树方法的原理是信息论。信息论是C.E.Shannon为解决信息传递(通信)过程问题而建立的理论,也称为统计通信理论。 传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)三者组成。 信息论把通信过程看做在随机干扰的环境中传递信息的过程。在这个通信模型中,信息源和干扰(噪声)都被理解为某种随机过程或随机序列。 补充内容 在进行实际通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,不可能判断信源会处于什么样的状态。 此情形称为信宿对于信源状态具有不确定性。这种不确定性存在通信之前的,又叫做先验不确定性。 通信之后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。 如果干扰很小,信源发出的信息能够被信宿全部收到。此种情况下,信宿的先验不确定性就会被完全消除。 补充内容 一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。因此,先验不确定性不能全部被消除,只能部分地消除。 通信结束之后,信宿还仍然具有一定程度的不确定性。这就是后验不确定性。 显然,后验不确定性总要小于先验不确定性,不可能大于先验不确定性。 补充内容 如果后验不确定性的大小正好等于先验不确定性的大小,表示信宿根本没有收到信息。 如果后验不确定性的大小等于零,表示信宿收到了全部信息。 因此,信息是用来消除(随机)不确定性的度量。信息量的大小,由所消除的不确定性的大小来计量。 当前国际上最有影响的示例学习方法首推ID3。 ID3引进了信息论中的互信息(信息增益 information gain),作为特征(属性)判别能力的度量,且将建树的方法嵌在一个迭代的外壳之中。 ID3基本思想 每个实体用多个特征来描述,每个特征限于在一个离散集中取互斥的值。例如,设实体是某天早晨,分类任务是关于气候的类型,有4各特征(属性)为: 天气 取值为: 晴,多云,雨 气温 取值为: 冷 ,适中,热 湿度 取值为: 高 ,正常 风 取值为: 有风, 无风 某天早晨(实体)气候描述为: 天气: 多云 气温: 冷 湿度: 正常 风: 无风 判断此实体属于哪类气候类别? 假定仅有两个类别,分别为P,N。两个类别的归纳任务中,P类和N类的实体分别称为概念的正例和反例。 将一些已知的正例和反例放在一起便得到训练集。 下表给出一个训练集,由ID3算法得出一棵正确分类训练集中每个实体的决策树。 N 有风 高 适中 雨 14 P 无风 正常 热 多云 13 P 有风 高 适中 多云 12 P 有风 正常 适中 晴 11 P 无风 正常 适中 雨 10 P 无风 正常 冷 晴 9 N 无风 高 适中 晴 8 P 有风 正常 冷 多云 7 N 有风 正常 冷 雨 6 P 无风 正常 冷 雨 5 P 无风 高 适中 雨 4 P 无风 高 热 多云 3 N 有风 高 热 晴 2 N 无风 高 热 晴 1 风 湿度 气温 天气 类别 属性 NO. 天 气 湿 度 风 晴 雨 多云 高 正常 有风 无风 P N N P P ID3决策树 决策树叶子结点为类别名,即P或者N。 其它结点由实体的特征组成,每个特征的不同取值对应一分枝。 若要对一个实体分类,从树根开始进行测试。 按特征的取值分枝向下进入下层结点,对该结点进行测试,过程一直进行到叶结点,实体被判为属于该叶结点所标记的类别。 ID3算法 (一)主算法 1、 从训练集中随机选择一个既含正例又含反例的子集(称为窗口); 2、用“建树算法”对当前窗口形成一棵决策树; 3、对训练集(窗口除外)中例子用所得决策树进行类别判定,找出错判的例子; 4、若存在错判的例子,把它们插入窗口,转2,否则结束。主算法流程用下图表示。 训练集 PE、NE 取子集建窗口 窗口 PE`、NE` 生成 决策树 测试 PE、NE 扩展窗口 PE`=PE`+PE``NE`=NE`+NE`` 此决策树为最后结果 存在错判的 PE``,NE``吗 是 否 ID3主算法流程 PE、NE分别为正例集和反例集,共同组成训练集。 PE’,PE’’和NE’,NE’’分别表示正例集和反例集的子集。 主算法中每迭代循环一次,生成的决策树将会不相同。 (二)建树算法 1、计算当前例子集合各特征的互信息;

文档评论(0)

mwk365 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档