高中信息技术浙教版:2-4 决策树-教学课件.pptxVIP

高中信息技术浙教版:2-4 决策树-教学课件.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2.4决策树决策树分类概念1构建决策树2举例说明:鸢尾花分类3未来的深度学习备用:深度学习:人工智能展望与挑战【案例分析】一个游乐场经营者希望通过所收集的一系列气象参数来预测游客是否会来游乐场游玩。为了实现这样的预测,游乐场经营者希望通过天气状况(如晴、雨、多云)、温度高低、湿度大小、风力强弱四个气象特点来预测游客是否来游乐场游玩。通过长时间的观察,游乐场经营者得到如下所示数据,记录了在不同天气、温度、湿度和风力情况下,游客是否来游乐场的情况。2.4.1决策树分类概念[观察表格]思考:从表格中可以观察到什么?可以用什么策略?有什么规律?谈谈你的想法?表2.4.1气象特点与游客是否来游乐场的关系[观察表格,画出树形结构]决策树决策树是一种通过树形结构进行分类的方法。在决策树中,树形结构中每个节点表示对分类目标在属性上的一个判断,每个分支代表基于该属性做出的一个判断,最后树形结构中每个叶子节点代表一种分类结果。2.4.1决策树分类概念决策树将分类问题分解为若干基于单个信息的推理任务,采用树状结构来逐步完成决策判断。2.4.1决策树分类概念●当天气状况的属性取值为“多云”时,样本子集为{3,7,12,13},“多云”属性可将样本子集{3,7,12,13}划分为“前往游乐场游玩”一个类别。图2.4.1游乐场游玩问题决策树2.4.1决策树分类概念●当天气状态的属性取值为“晴”时,样本子集为{1,2,8,9,11},可知天气状况为“晴”这个属性所得到的样本子集{1,2,8,9,11}不属于同一个类别,要进一步使用其他属性对这个样本子集进行划分。经观察,通过“湿度是否>75?”这一属性值,可以将该样本子集进一步划分成{1,2,8}(>75,不前往游乐场)和{9,11}(≤75,前往游乐场)两个样本子集。此时这两个样本子集已被划分为两类,不需要再划分。图2.4.1游乐场游玩问题决策树2.4.1决策树分类概念●当天气状况的属性取值为“雨”时,样本子集为{4,5,6,10,14},此时样本子集无法被划分为一类,需要进一步使用其他属性对这个样本子集进行划分。经观察,通过“有风否?”这个属性值,可将该样本子集进一步划分成{4,5,10}(无风,前往游乐场)和{6,14}(有风,不前往游乐场)两个样本子集。此时这两个样本子集已被划分为两类,不需要再划分。“温度”是多余的特点图2.4.1游乐场游玩问题决策树如何判断某一天游客是否会来游乐场游玩?天气、温度、湿度2.4.1决策树分类概念建立决策树的过程选择一个属性值,基于这个属性对样本集进行划分,得到子集划分结果。再选择其他属性,对得到的划分结果进行划分,直至最后所得划分结果中每个样本为同一个类别。2.4.2构建决策树构建决策树来解决实际生活中的问题时,需按照一定的顺序选择划分属性。通常,性能好的决策树随着划分不断进行,决策树分支节点的“纯度”会越来越高,即其所包含样本尽可能属于相同类别。为了逐次选出最优属性,可以采用信息增益(informationgain)这一指标。信息增益被用来衡量样本集合复杂度(不确定性)所减少的程度。香农提出了“信息熵”(entropy)的概念,用来度量信息量的大小。直觉上而言,对一个不确定的信息(很少出现)的了解需要更多的信息。相反,如果对某件事已经有了较多了解,就不需要太多信息了。从信息论的角度来看,对信息的度量等于计算信息不确定性的多少。2.4.2构建决策树“假设有K个信息,其组成了集合样本D,记第k个信息发生的概率为pk(1≤k≤K)”。如下定义这K个信息的信息熵:E(D)值越小,表示D包含的信息越确定,也称D的纯度越高。需要指出,所有pk累加起来的和为1。2.4.2构建决策树?表2.4.1中14个样本分属于“游客来游乐场’(9个样本)和“游客不来游乐场”(5个样本)两个类别,即K=2。记“游客来游乐场”和“游客不来游乐场”的概率分别为p1和p2,显然,p1=,p2=,则这14个样本所蕴含的信息量(熵)如下计算:2.4.2构建决策树有天气状况、温度高低、湿度大小、风力强弱四个气象特点。以天气状况为例,天气状况包含“雨”“晴”“多云”三个属性。这三个属性对14个样本进行划分,在决策树中产生了三个分支节点,每个分支节点所得到的样本子集就是其对应属性对数据的划分。例如,“多云”这一属性包含四个样本{3,7,12,13}。2.4.2构建决策树当计算天气状况所包含“雨”“晴”“多云”三个属性信息增益时,其取值情况和对应样本集情况如表2.4.2所示。这里记属性取值为a,如天气状况的三个属性记为a0=“晴”,a1=“多云”,a2=“雨”,记属性可能取值总数为n,那么用这些属性划分样本集可得到n个分支节点。属性取值为a;,对应分支节点所包含子样本集记为Di,该子样本集包含

文档评论(0)

中小学教学资料 + 关注
实名认证
服务提供商

小学、初中、高中信息科技教案、试卷、课件等教学资源

1亿VIP精品文档

相关文档