决策树学习教学课件.ppt

下载文档 降价啦

9
0
约6.34千字
约 51页
2019-08-23 发布于山东
举报
版权申诉
保障服务

决策树学习教学课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 避免过度拟合的方法及早停止树增长后修剪法两种方法的特点第一种方法更直观，精确地估计何时停止树增长第二种方法被证明在实践中更成功 * 避免过度拟合数据（3）避免过度拟合的关键使用什么样的准则来确定最终正确树的规模解决方法使用与训练样例截然不同的一套分离的样例，来评估通过后修剪方法从树上修建节点的效用使用所有可用数据进行训练，但进行统计测试来估计扩展（或修剪）一个特定的节点是否有可能改善在训练集合外的实例上的性能使用一个明确的标准来衡量训练样例和决策树的复杂度，当这个编码的长度最小时停止树增长 * 避免过度拟合数据（4）方法评述第一种方法是最普通的，常被称为训练和验证集法可用数据分成两个样例集合：训练集合，形成学习到的假设验证集合，评估这个假设在后续数据上的精度方法的动机：即使学习器可能会被训练集合误导，但验证集合不大可能表现出同样的随机波动验证集合应该足够大，以便它本身可提供具有统计意义的实例样本常见的做法是，样例的三分之二作训练集合，三分之一作验证集合 * 避免过度拟合数据（5）将树上的每一个节点作为修剪的候选对象修剪步骤删除以此节点为根的子树，使它成为叶结点把和该节点关联的训练样例的最常见分类赋给它反复修剪节点，每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点继续修剪，直到进一步的修剪是有害的为止数据集分成3个子集训练样例，形成决策树验证样例，修剪决策树测试样例，精度的无偏估计如果有大量的数据可供使用，那么使用分离的数据集合来引导修剪 * 错误率降低修剪(reduced-error pruning) * 错误率降低修剪法（举例）步骤从训练集合推导出决策树，增长决策树直到尽可能好地拟合训练数据，允许过度拟合发生将决策树转化为等价的规则集合，方法是为从根节点到叶节点的每一条路径创建一条规则通过删除任何能导致估计精度提高的前件来修剪每一条规则按照修剪过的规则的估计精度对它们进行排序，并按这样的顺序应用这些规则来分类后来的实例 * 规则后修剪(rule post-pruning) 例子图3-1的最左一条路径 if (outlook=sunny)?(Humidity=High) then PlayTennis=No 考虑删除先行词(outlook=sunny)和(Humidity=High) 选择使估计精度有最大提升的步骤考虑修剪第二个前件 * 规则后修剪（2）规则精度估计方法使用与训练集不相交的验证集基于训练集合本身[C4.5] 使用一种保守估计来弥补训练数据有利于当前规则的估计偏置过程先计算规则在它应用的训练样例上的精度然后假定此估计精度为二项式分布，并计算它的标准差对于一个给定的置信区间，采用下界估计作为规则性能的度量评论对于大的数据集，保守预测非常接近观察精度，随着数据集合的减小，离观察精度越来越远不是统计有效,但是实践中发现有效 * 规则后修剪（3）把决策树转化成规则集的好处可以区分决策节点使用的不同上下文消除了根节点附近的属性测试和叶节点附近的属性测试的区别提高了可读性 * 规则后修剪（4） ID3被限制为取离散值的属性目标属性决策节点的属性简单删除上面第2个限制的方法通过动态地定义新的离散值属性来实现，即先把连续值属性的值域分割为离散的区间集合 * 合并连续值属性应该定义什么样的基于阈值的布尔属性选择产生最大信息增益的阈值按照连续属性排列样例，确定目标分类不同的相邻实例产生一组候选阈值，它们的值是相应的A值之间的中间值可以证明产生最大信息增益的c值位于这样的边界中（Fayyad1991）通过计算与每个候选阈值关联的信息增益评估这些候选值 * 合并连续值属性（2）例子，Temperature * 合并连续值属性（2）方法的扩展连续的属性分割成多个区间，而不是单一阈值的两个空间信息增益度量存在一个内在偏置，偏向具有较多值的属性其他度量比如增益比率、基于距离的度量增益比率分裂信息split Information * 属性选择的其他度量标准增益比率分裂信息项阻碍选择值为均匀分布的属性问题，当某个Si?S，分裂信息无定义，或无穷大解决方法：采用一些启发式规则，比如仅对增益高过平均值的属性应用增益比率测试 * 属性选择的其他度量标准（续）基于距离的度量定义了数据划分间的一种距离尺度计算每个属性产生的划分与理想划分间的距离选择最接近完美划分的属性证明了它不偏向有大量值的属性 M