第八章50课件讲解.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第八章

汇报人:人工智能专业

决策树算法

决策树的原理

PARTONE

单击此处编辑母版文本样式

第二级

第三级

第四级

第五级

3

决策树(decisiontree)是一种基于树结构的机器学习模型,可以用于分类与回归任务。在机器学习中,决策树分为分类树和回归树,当对样本的所属类别进行预测时使用分类树;当对样本的某个值进行预测时使用回归树。

8.1决策树算法的基本原理

4

决策树算法可用于分类任务和回归任务。无论是分类任务还是回归任务,决策树算法的关键是构造合适的决策树,只要有了决策树,就可以根据决策树写出分类决策规则或划分特征空间,然后预测新数据。构造决策树常用的算法有ID3算法、C4.5算法和CART算法。

8.1.1决策树算法的原理分析

5

ID3算法构造决策树的基本思想是:以信息增益最大的特征属性作为分类属性,基于贪心策略的自顶向下搜索遍历决策树空间,通过递归方式构建决策树,即比较每个特征属性的信息增益值,每次选择信息增益最大的节点作为决策树(或子树)的根节点。

信息增益是信息论中的概念,指的是得知特征属性A的信息而使得类别属性Y的取值不确定性减少的程度。用数学表达式可表示为

8.1.2ID3算法

6

熵的概念来源于信息论。信息论认为,信息是对客观事物不确定性的消除或减少。接收者收到某一信息后所获得的信息量,可以用接收者在通信前后不确定性的消除量来度量。

生活中有这样的直观经验:北方的秋天常常是秋高气爽的天气,如果天气预报是“明天是一个晴天”,人们习以为常,因此得到的信息量很小;但如果天气预报是“明天有雪”,人们将感到十分意外,这个异常的信息给人们带来了极大的信息量。可见,信息量的大小与消息出现的概率成反比。

基于上述特性,可将信息量的大小定义为消息出现概率的倒数的对数,用数学表达式表示为

8.1.2ID3算法

7

通常,信源能发出若干条信息(如天气预报可能会播报晴天和雨天两种信息,晴天的概率为0.25,阴天的概率为0.75),很多时候人们所关心的并不是每条信息携带的信息量,而是信源发出的所有信息的平均信息量。平均信息量指每条信息所含信息量的统计平均值,因此有N条消息的离散信源的平均信息量为

这个公式与统计物理学中熵的计算公式完全相同,因此把信源输出信息的平均信息量称为信源的熵。

8.1.2ID3算法

8

8.1.2ID3算法

9

使用ID3算法构造决策树的流程如下。

(1)确定决策树(或子树)的根节点。

首先,计算给定数据集中类别属性的信息熵;

然后,计算给定数据集中每个特征属性的条件熵;

最后,计算各个特征属性对应类别属性的信息增益,并选择信息增益最大的特征属性作为决策树(或子树)的根节点。

(2)更新数据集,根据决策树(或子树)根节点特征属性的取值将训练数据集分配到各分支中。

(3)重复以上步骤,直至子集包含单一特征属性或节点的样本个数小于预定阈值。

(4)生成ID3决策树。

8.1.2ID3算法

10

【例6-1】某单位要组织一次户外活动,活动时间将至,活动策划人需要根据天气情况评判此次活动是否能如期进行。为此,他收集了以往关于天气情况和是否进行活动的数据集,如表6-4所示。使用ID3算法构造决策树,判定活动(活动当天天气:阴,寒冷,湿度高,风速弱)是否能如期进行。

表6-4天气情况和是否进行活动的数据集

序号

天气

温度

湿度

风速

活动

1

炎热

取消

2

炎热

取消

3

炎热

进行

4

适中

进行

5

寒冷

正常

进行

6

寒冷

正常

取消

7

寒冷

正常

进行

8

适中

取消

9

寒冷

正常

进行

10

适中

正常

进行

11

适中

正常

进行

12

适中

进行

13

炎热

正常

进行

14

适中

取消

8.1.2ID3算法

11

【解】ID3算法构造决策树并对新样本进行预测的步骤如下。

(1)确定根节点。数据集中共有4个特征属性,使用ID3算法构造决策树需要计算每个属性的信息增益,确定决策树的根节点。各个特征属性对应类别属性的信息增益用公式表示为

8.1.2ID3算法

12

(1)确定根节点。

8.1.2ID3算法

13

②已知天气的情况下,计算类别属性“活动”的条件熵,数学表达式为

“天气”这一列有晴、阴和雨3个属性值,其出现的概率分别为5/14、4/14和5/14。当天气为晴时,活动进行的概率为2/5,活动取消的概率为3/5;当天气为阴时,活动进行个概率为1,活动取消的概率为0;当天气为雨时,活动进行的概率为3/5,活动取消的概率为2/5。于是,有

因此,已知天气情况下,类别属性

您可能关注的文档

文档评论(0)

vermonth134 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档