机器学习算法之决策树学习汇报 - teamtrac.ppt

下载文档 降价啦

3
0
约1.61千字
约 16页
2017-09-02 发布于天津
举报
版权申诉
保障服务

机器学习算法之决策树学习汇报 - teamtrac.ppt

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习算法之决策树学习汇报 - teamtrac

机器学习算法之决策树学习汇报二〇一六年十一月二十五日 S王鸿飞决策树算法机器学习中分类和预测算法的评估准确率速度健壮性可规模性可解释性决策树算法决策树是一个类似于流程图的树结构：其中，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，而每个树叶结点代表类或类分布。树的最顶层是根结点。什么是决策树/判定树（decision tree)? 决策树算法决策树算法熵（entropy）概念：信息和抽象如何度量？ 1948年，香农提出了 ”信息熵(entropy)“的概念一条信息的信息量大小和它的不确定性有直接的关系，要搞清楚一件非常非常不确定的事情，或者是我们一无所知的事情，需要了解大量信息 ==信息量的度量就等于不确定性的多少决策树算法例子：猜世界杯冠军，假如一无所知，猜多少次？每个队夺冠的几率不是相等的比特（bit）来衡量信息的多少变量的不确定性越大，熵也就越大决策树算法决策树归纳算法（ID3）选择属性判断节点信息获取量(Information Gain)： Gain(A) = Info(D) - Infor_A(D) 通过A来作为节点分类获取了多少信息决策树算法决策树算法类似地， Gain(income)=0.029 Gain(student)=0.151 Gain(credit_rating)=0.048 所以，选择age作为第一个根节点决策树算法重复…… 决策树算法递归划分仅当下列条件成立之一时停止：（a）给定结点的所有样本属于同一类（b）没有剩余属性可用来进一步划分样本。在此情况下使用多数表决。这涉及将给定的结点转换成树叶，并用样本中的多数所在的类标记它。决策树算法其他算法： C4.5: Quinlan Classification and Regression Trees (CART): (L. Breiman, J. Friedman, R. Olshen, C. Stone) 共同点：都是贪心算法，自上而下(Top-down approach) 区别：属性选择度量方法不同： C4.5 （gain ratio), CART(gini index), ID3 (Information Gain) 决策树算法决策树的剪枝理论：避免overfitting; PrePrune：预剪枝，及早的停止树增长. PostPrune：后剪枝，在已生成过拟合决策树上进行剪枝，可以得到简化版的剪枝决策树。决策树算法决策树的优点：直观，便于理解，小规模数据集有效决策树的缺点： 1. 处理连续变量不好 2.类别较多时，错误增加的比较快 3.可规模性一般决策树应用 Python机器学习的库： scikit-learn 特性：简单高效的数据挖掘和机器学习分析对所有用户开放，根据不同需求高度可重用性基于Numpy, SciPy和matplotlib 开源，商用级别覆盖问题领域：分类（classification), 回归（regression), 聚类（clustering), 降维(dimensionality reduction) 模型选择(model selection), 预处理(preprocessing) 决策树应用 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *