2.决策树算法讲解.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

机器学习决策树算法

决策树思想理论01

决策树思想理论01问题:根据该数据集,判断张先生能否偿还债务?张先生的特征是:(无房、已婚、年收入10万)

决策树思想理论02决策树是以实例为基础的归纳学习算法它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。决策树能帮人或机器做出决策,实际的运用中包括,推荐系统、CRM系统等决策树优点:计算量小、显示清晰缺点:容易过拟合(需要修枝),对时间顺序的数据,需要很多预处理的工作等

决策树思想理论03信息熵1948年,香农引入了信息熵,将其定义为离散随机事件出现的概率,一个系统越是信息量低,信息熵就越低,反之一个系统越是信息量高,它的信息熵就越高。所以信息熵可以被认为是系统有序化程度的一个度量。信息熵就是用来描述信息源(量)的不确定度。图片来源于网络

决策树思想理论04熵的计算假如一个随机变量的取值为每一种取到的概率分别是那么的熵定义为:意思是一个变量的变化情况可能越多,那么它携带的信息量就越大。

决策树思想理论05信息增益在划分数据集之前之后信息发生的变化称为信息增益,信息增益最高的特征就是最好的选择.信息增益是针对某一个特征而言的,系统本身的信息量(系统熵)减去该特征在系统中所对应的信息量(条件熵),两者的差值就是这个特征给系统带来的信息量,即信息增益。

决策树思想理论06下面是描述天气数据表,预测的目标是play或者notplay。(如下表)

决策树思想理论071.根据上图计算play对应的熵:(Entropy(S))一共是14条记录,你能数出取值为yes的记录有9个,取值为no的有5个,我们说这个样本里有9个正例,5个负例,记为S(9+,5-),S是样本的意思(Sample)。这里熵记为Entropy(S),计算公式为:Entropy(S)=-(9/14)*log(9/14)-(5/14)*log(5/14),但是必须以2为底,所以在excel中可以:-(9/14)*LOG(9/14,2)-(5/14)*LOG(5/14,2)就算出的熵为:0.94

决策树思想理论08分别以Wind、Humidity、Outlook和Temperature作为根节点,计算其信息增益1.计算Wind的熵可以数得,属性Wind中取值为false的记录的记录有8条,其中正例6个,负例2个;同样,取值为true的记录6个,正例负例各3个。我们可以计算相应的熵为:Entropy(F)=-(6/8)*log(6/8)-(2/8)*log(2/8)=0.811Entropy(T)=-(3/6)*log(3/6)-(3/6)*log(3/6)=1.0现在就可以计算出相应的信息增益了:Gain(Wind)=Entropy(S)-(8/14)*Entropy(F)-(6/14)*Entropy(T)=0.940-(8/14)*0.811-(6/14)*1.0=0.0488/14是属性Wind取值为False的个数占总记录的比例,同样6/14是其取值为True的记录个数与总记录数之比。

决策树思想理论092.以Humidity作为根节点:Entropy(High)=0.985;Entropy(Normal)=0.592Gain(Humidity)=0.940-(7/14)*Entropy(High)-(7/14)*Entropy(Normal)=0.151三:Outlook作为根节点:Entropy(Sunny)=0.971;Entropy(Overcast)=0.0;Entropy(Rain)=0.971Gain(Outlook)=0.940-(5/14)*Entropy(Sunny)-(4/14)*Entropy(Overcast)-(5/14)*Entropy(Rain)=0.2473.Temperature作为根节点:Entropy(Cool)=0.811;Entropy(Hot)=1.0;Entropy(Mild)=0.918G

文档评论(0)

vermonth155-2娟 + 关注
实名认证
文档贡献者

专注ppt课件

版权声明书
用户编号:8046135067000064

1亿VIP精品文档

相关文档