决策树模型概述.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树模型概述

决策树模型 排名 挖掘主题 算法 得票数 发表时间 作者 陈述人 1 分类 C4.5 61 1993 Quinlan, J.R Hiroshi Motoda 2 聚类 k-Means 60 1967 MacQueen, J.B Joydeep Ghosh 3 统计学习 SVM 58 1995 Vapnik, V.N QiangYang 4 关联分析 Apriori 52 1994 Rakesh Agrawal Christos Faloutsos 5 统计学习 EM 48 2000 McLachlan, G Joydeep Ghosh 6 链接挖掘 PageRank 46 1998 Brin, S. Christos Faloutsos 7 集装与推进 AdaBoost 45 1997 Freund, Y. Zhi-Hua Zhou 8 分类 kNN 45 1996 Hastie, T Vipin Kumar 9 分类 Naïve Bayes 45 2001 Hand, D.J Qiang Yang 10 分类 CART 34 1984 L.Breiman Dan Steinberg 共有145人参加了ICDM 2006 Panel (会议的专题讨论),并对18种候选算法进行投票,选出了数据挖掘10大算法 ICDM 2006会议的算法投票结果 信息的定量描述 衡量信息多少的物理量称为信息量。 若概率很大,受信者事先已有所估计,则该消息信息量就很小; 若概率很小,受信者感觉很突然,该消息所含信息量就很大。 信息量的定义 根据客观事实和人们的习惯概念,函数f(p)应满足以下条件: f(p)应是概率p的严格单调递减函数,即当p1p2, f(p1)f(p2); 当p=1时,f(p)=0; 当p=0时,f(p)=∞; 两个独立事件的联合信息量应等于它们分别的信息量之和。 对信息量的 认识理解 信息量的定义 若一个消息x出现的概率为p,则这一消息所含的信息量为 其中,对数的底大于1 信息量单位 以2为底时,单位为 bit(binary unit,比特) 以e为底时,单位为 nat(natural unit,奈特) 以10为底时,单位为 hart(Hartley,哈特) 抛一枚均匀硬币,出现正面与反面的信息量是多少? 解:出现正面与反面的概率均为0. 5,它们的信息量是 I(正)= -lbp(正)= -lb0.5=1b I(反)= -lbp(反)= -lb0.5=1b 抛一枚畸形硬币,出现正面与反面的概率分别是1/4,3/4,出现正面与反面时的信息量是多少? 解:出现正面与反面的概率分别是1/4,3/4,它们的信息量是 I(正)= -lbp(正)= -lb1/4=2b I(反)= -lbp(反)= -lb3/4=0.415b 信源含有的信息量是信源发出的所有可能消息的平均不确定性,香农把信源所含有的信息量称为信息熵,是指每个符号所含信息量的统计平均值。m种符号的平均信息量为 抛一枚均匀硬币的信息熵是多少? 解:出现正面与反面的概率均为0. 5,信息熵是 抛一枚畸形硬币,出现正面与反面的概率分别是1/4,3/4,出现正面与反面时的信息量是多少? 解:出现正面与反面的概率分别是1/4,3/4,信息熵是 例:气象预报 12 条件自信息量 在事件yj出现的条件下,随机事件xi发生的条件概率为p(xi | yj) ,则它的条件自信息量定义为条件概率对数的负值: 13 条件熵 在给定yj条件下,xi的条件自信息量为I(xi| yj), X集合的条件熵H(X|yj)为 在给定Y(即各个yj )条件下,X集合的条件熵H(X|Y) 条件熵H(X|Y)表示已知Y后,X的不确定度 是否适合打垒球的决策表 天气 温度 湿度 风速 活动 晴 炎热 高 弱 取消 晴 炎热 高 强 取消 阴 炎热 高 弱 进行 雨 适中 高 弱 进行 雨 寒冷 正常 弱 进行 雨 寒冷 正常 强 取消 阴 寒冷 正常 强 进行 晴 适中 高 弱 取消 晴 寒冷 正常 弱 进行 雨 适中 正常 弱 进行 晴 适中 正常 强 进行 阴 适中 高 强 进行 阴 炎热 正常 弱 进行 雨 适中 高 强 取消 活 动  天 气 是否进行垒球活动 进行 取消 晴 阴 雨 晴 阴 雨 活 动 进行 取消 活动的熵 活动有2个属性值,进行,取消。其熵为: H(活动) = - (9/14)*log (9/14) - (5/14)*log (5/14) = 0.94 活 动 进行 取消 已知户外的天气情况下活动的条件熵 户外有三个属性值,晴,阴和雨。其熵分别为: H(活动|户外=晴) = - (2/5)*log2(2/5) - (3/5)*log2(

文档评论(0)

tangtianbao1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档