大数据解析与应用导论 课件 第6章 决策树.pptx

大数据解析与应用导论 课件 第6章 决策树.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据解析与应用导论课件

大数据解析与应用导论Introduction to Big Data Analytics and Application4.2.3.1.实例应用 决策树算法基本内容随机森林第六章决策树 (一)智能体的决策过程小玉和小泉同学为了准备羽毛球赛,最近打算练习一下,但并不是每天都适合打球。通常,需要考虑一些因素:如果有场地,就在室内打;没有场地,就要考虑户外天气情况。日期场地温度天气风速打球1号室内炎热下雨大是2号室内适中晴小是3号室内适中下雨小否4号室外炎热阴大否5号室外适中晴小是【表1:各种情况与打球关系表】(一)智能体的决策过程实际上,这是一个典型的智能决策问题:决策算法特征场地场地室内室外气温气温打球炎热适中天气天气不打球下雨晴天风速不打球打球对于一个智能决策系统,它有三个重要组成部分:特征+算法+决策(二)什么是决策树决策树,又称为判定树,是数据挖掘技术中的一种重要分类方法,它是一种以树结构来表达的预测分析模型。根节点非叶子节点(代表测试的条件,对数据属性的测试)分支(代表测试的结果)叶节点(代表分类后所获得的分类标记)(三)决策树的背景生活中很多地方都需要分类,各种分类技术的诞生为我们节省了大量的时间,决策树作为分类技术的一种,在零售、电子商务、金融、医疗卫生等方面有着广泛的运用。决策树方法是一种比较通用的分类函数逼近法,它是一种常用于预测模型的算法,通过将大量数据有目的分类,找到一些有潜在价值的信息。决策树有哪些优点?1、决策树构造的分类器容易理解;2、决策树算法的运算速度要快于其他分类方法;3、决策树分类方法得到的结果的准确率要优于其他算法。(三)决策树的应用信用卡欺诈,信用评估保险公司偿付能力分析客户细分,交叉销售疾病因素分析客户消费特征行为分析(四)决策树的结构场地构建决策树两大要点:特征属性序列为什么根节点要选择场地变量?室内室外气温打球炎热适中特征属性形式有些标签是离散的(天气只有阴晴雨雪);有些标签是连续的(温度湿度)天气不打球下雨晴天不打球(五)熵和信息熵熵在化学中是表示分子的混乱程度,分子越混乱,它的熵就越大,而若分子越有序,熵值就越小。信息熵也是一样的,它能对信息的不确定性进行恒量,如果某个信息让我们的判断更加有序,清晰,则它信息熵越小,反之越大。?对于有限个取值的随机变量X,若其概率分布为,则该随机变量的信息熵为:?(五)熵和信息熵举例:随机变量X的取值集合为,其信息熵为随机变量Y的取值集合,其信息熵为?信息熵越高,变量随机程度越高大数据解析与应用导论Introduction to Big Data Analytics and Application4.2.3.1.实例应用 决策树算法基本内容随机森林第六章决策树 (一)决策树的结构场地构建决策树两大要点:特征属性序列为什么根节点要选择场地变量?室内室外气温打球炎热适中特征属性形式有些标签是离散的(天气只有阴晴雨雪);有些标签是连续的(温度湿度)天气不打球下雨晴天不打球(二)决策树的构建像人类一层一层做决策一样,决策树也需要从根节点到叶子结点一层一层构建。决策树的生成过程输入:训练数据集D输出:一棵决策树(1)在根节点上,遍历所有可能的特征A与某一特征下所有可能的切分点a,取划分后左右孩子结点纯度之和最高的特征与切分点对{A*,a*},将数据集划分成两个子节点;(2)对两个子节点递归调用(1),直至划分完成;(3)生成一棵决策树。(二)决策树的构建分类划分的优劣用不纯性度量来分析。如果对于所有分支,划分后选择相同分支的所有实例都属于相同的类,则这个划分是纯的。 一种度量不纯性的可能函数是熵函数(entropy)。设X是一个取有限个值的离散随机变量,其概率分布为:?定义该随机变量的熵为:?(三)决策树的构建系统越无序、越混乱,熵就越大。构造决策树,熵定义为无序性度量。选择一个属性划分数据,使得同一个子节点上数据的类值(例中“yes”或“no”)大部分都相同(低无序性)。如果一个节点上的数据的类值在可能的类值上均匀分布,则称节点的熵(无序性)最大。如果一个节点上的数据的类值对于所有数据都相同,则熵最小。通过分裂,得到尽可能纯的节点。这相当于降低系统的熵。(三)决策树的构建我们以西瓜数据集为例,看看怎么来确定决策树的根节点是哪个变量。若取色泽为根节点,则可以将根节点分为三类(色泽=青绿、乌黑、浅白),拆分后的三类熵分别为:???总熵为:?(三)决策树的构建我们以西瓜数据集为例,看看怎么来确定决策树的根节点是哪个变量。类似的,计算按其他变量区分后的熵:?显然,按照变量‘纹理’对根节点上的所有样本进行划分,得到的三个子节点的熵加权和最小。因此纹理被选定为根节点。(三)决策树的构建我们以西瓜数据集为例,看看怎么来确定决策树的根节点是哪个变量。根节点之外的其他节

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档