机器学习-分类与决策树.pdf

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习 决策树与分类算法 章节介绍 • 分类的任务是将样本(对象)划分到合适的预定义目标类中 • 本章主要介绍决策树算法,它是机器学习中的一个经典的监督式学习算法 ,被广泛应用F金融分析、生物学、天文学等多个领域 • 本章首先介绍决策树的1D3、C4.5、C5. 0、CART 等常用算法,然后讨论决 策树的集成学习,包括装袋法、提升法、随机森林、GBDT、AdaBoost 等算 法。最后介绍决策树算法的应用案例 章节结构 • 决策树算法 – 分支处理 – 连续属性离散化 – 过拟合问题 – 分类效果评价 • 集成学习 – 装袋法 – 提升法 – GBGT – 随机森林 • 决策树应用 决策树算法 • 分类算法是利用训练样本集获得分类函数即分类模型(分类器),从而实现将 数据集中的样本划分到各个类中。分类模型通过学习训练样本中属性集与 类别之间的潜在关系,并以此为依据对新样本属于哪一类进行预测 决策树算法 • 决策树通过把数据样本分配到某个叶子结点来确定数据集中样本所属的分 类 • 决策树由决策结点、分支和叶子结点组成 – 决策结点表示在样本的一个属性上进行的划分 – 分支表示对于决策结点进行划分的输出 – 叶结点代表经过分支到达的类。 • 从决策树根结点出发,自顶向下移动,在每个决策结点都会进行次划分, 通过划分的结果将样本进行分类,导致不同的分支,最后到达个叶子结点 ,这个过程就是利用决策树进行分类的过程 决策树算法 • 外卖订餐决策树 决策树算法 • 连续变量 坐标 (1,4) (1,6) (3,1) (3,8) (6,6) (7,2) (7,7) (8,9) (11,3) (14,9) 分类 ◇ ○ ◇ ○ ◇ ○ ◇ ◇ ○ ○ 决策树算法 • 决策树对应二维空间的分割结果 议程分支处理 • 往往使用启发式算法来进行决策树的构造,例如,使用贪婪算法对每个结 点构造部分最优决策树 • 对于一个决策树的构建,最重要的部分就在于其分支处理,即确定在每个 决策结点处的分支属性 • 分支属性的选取即对决策节点上选择哪一个属性来对数据集进行划分,要 求每个分支中样本的类别纯度尽可能高,而且不要产生样本数量太少的分 支 议程ID3 算法 • ID3算法是在每个结点处选取能获得最高信息增益的分支属性进行分裂 • 在每个决策结点处划分分支、选取分支属性的目的是将整个决策树的样本 纯度提升 • 衡量样本集合纯度的指标则是熵 m | | = − , = 2 i=1 • 举例来说,如果有一个大小为10的布尔值样本集S ,其中有6个真值、4个 假值,那么该布尔型样本分类的熵为: 6 6 4 4 S = − log − = 0.9710 2 2 10 10 10 10 议程ID3

文档评论(0)

恬淡虚无 + 关注
实名认证
内容提供者

学高为师,身正为范.师者,传道授业解惑也。做一个有理想,有道德,有思想,有文化,有信念的人。 学无止境:活到老,学到老!有缘学习更多关注桃报:奉献教育,点店铺。

1亿VIP精品文档

相关文档