- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4章 决策树;二分类学习任务
属性
属性值;;1,2,3,4,5,6,8,10,15;决策树学习的关键是算法的第8行:选择最优划分属性
什么样的划分属性是最优的?
我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高,可以高效地从根结点到达叶结点,得到决策结果。;1. 信息增益;一个事件的信息量就是这个事件发生的概率的负对数。
信息熵是跟所有事件的可能性有关的,是平均而言发生一个事件得到的信息量大小。所以信息熵其实是信息量的期望。;信息增益;举例:求解划分根结点的最优划分属性;用“色泽”将根结点划分后获得3个分支结点的信息熵分别为:;第11页/共39页;第12页/共39页;若把“编号”也作为一个候选划分属性,则属性“编号”的信息增益为:;2. 增益率;3. 基尼指数;过拟合:学习器学习能力过于强大,把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降。
欠拟合:学习器学习能力低下,对训练样本的一般性质尚未学好。;剪枝,即通过主动去掉一些分支来降低过拟合的风险。
预剪枝
决策树的剪枝策略
后剪枝;第18页/共39页;预剪枝;不足:
基于“贪心”本质禁止某些分支展开,带来了欠拟合的风险;后剪枝;后剪枝决策树;知识回顾:
四类学习任务
Hunt算法3种递归返回情形、第8行
3种度量结点“纯度”的指标:
信息增益 ID3
增益率 C4.5
基尼指数 CART
过拟合、欠拟合
决策树剪枝
预剪枝
后剪枝;离散属性:脐部 根蒂 色泽···;连续属性离散化技术:二分法 C4.5决策树算法;第26页/共39页;根结点的信息熵仍为:;选择“纹理”作为根结点划分属性;现实任务中,尤其在属性数目较多时,存在大量样本出现缺失值。
出于成本和隐私的考虑;属性值缺失时,如何进行划分属性选择?(如何计算信息增益)
给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
(对于缺失属性值的样本如何将它从父结点划分到子结点中);无缺失值的样本子集 上的信息增益;对于问题2:对于有缺失值的样本如何将它从父结点划分到子结点中
若样本 在划分属性a上的取值已知,则将 划??与其取值对应的子结点,且样本权值在子结点中保持为
若样本 在划分属性a上的取值未知,则将 同时划入所有子结点,且样本权值在子结点中调整为 ,就是让同一个样本以不同的概率划入不同的子结点中。;无缺失值样本中第k类所占比例;无缺失值样本中在属性 上取值 的样本所占比例;样本划分原则:
属性值已知,划入与其取值对应的子结点,样本权值不变,仍为
属性值未知,划入所有子结点,样本权值调整为 ,让同一个样本以不同的概率划入不同的子结点中;0.381;不足:;;感谢您的观看。
文档评论(0)