机器学习算法之决策树学习汇报 - teamtrac.ppt

机器学习算法之决策树学习汇报 - teamtrac.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习算法之决策树学习汇报 - teamtrac

机器学习算法之决策树 学习汇报 二〇一六年十一月二十五日 S王鸿飞 决策树算法 机器学习中分类和预测算法的评估 准确率 速度 健壮性 可规模性 可解释性 决策树算法 决策树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。 什么是决策树/判定树(decision tree)? 决策树算法 决策树算法 熵(entropy)概念: 信息和抽象如何度量? 1948年,香农提出了 ”信息熵(entropy)“的概念 一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常非常不确定的事情,或者 是我们一无所知的事情,需要了解大量信息 ==信息量的度量就等于不确定性的多少 决策树算法 例子:猜世界杯冠军,假如一无所知,猜多少次? 每个队夺冠的几率不是相等的 比特(bit)来衡量信息的多少 变量的不确定性越大,熵也就越大 决策树算法 决策树归纳算法 (ID3) 选择属性判断节点 信息获取量(Information Gain): Gain(A) = Info(D) - Infor_A(D) 通过A来作为节点分类获取了多少信息 决策树算法 决策树算法 类似地, Gain(income)=0.029 Gain(student)=0.151 Gain(credit_rating)=0.048 所以,选择age作为第一个根节点 决策树算法 重复…… 决策树算法 递归划分仅当下列条件成立之一时停止: (a)给定结点的所有样本属于同一类 (b)没有剩余属性可用来进一步划分样本。在此情况下使用多数表决。这涉及将给定的结点转换成树叶,并用样本中的多数所在的类标记它。 决策树算法 其他算法: C4.5: Quinlan Classification and Regression Trees (CART): (L. Breiman, J. Friedman, R. Olshen, C. Stone) 共同点:都是贪心算法,自上而下(Top-down approach) 区别:属性选择度量方法不同: C4.5 (gain ratio), CART(gini index), ID3 (Information Gain) 决策树算法 决策树的剪枝理论: 避免overfitting; PrePrune:预剪枝,及早的停止树增长. PostPrune:后剪枝,在已生成过拟合决策树上进行剪枝,可以得到简化版的剪枝决策树。 决策树算法 决策树的优点: 直观,便于理解,小规模数据集有效 决策树的缺点: 1. 处理连续变量不好 2.类别较多时,错误增加的比较快 3.可规模性一般 决策树应用 Python机器学习的库: scikit-learn 特性: 简单高效的数据挖掘和机器学习分析 对所有用户开放,根据不同需求高度可重用性 基于Numpy, SciPy和matplotlib 开源,商用级别 覆盖问题领域: 分类(classification), 回归(regression), 聚类(clustering), 降维(dimensionality reduction) 模型选择(model selection), 预处理(preprocessing) 决策树应用 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档