第4章 2 C5.0 算法.pptVIP

下载本文档

10
0
约3.85千字
约 31页
2017-02-07 发布于湖北
举报
版权申诉

第4章 2 C5.0 算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Clementine 的决策树分类预测分类预测：通过向现有数据学习，使模型具备对未来新数据的分类预测能力。分类预测包含分类和预测两个方面：第一，分析新数据在分类型输出变量上的取值称为分类。第二，研究新数据在数值型输出变量上的取值称为预测。决策树算法：使用最广泛的分类预测算法之一。 C 5.0 C5.0 是Clementine的决策树模型中的算法最早(20世纪50年代)的算法是亨特CLS(Concept Learning System)提出，后经发展由J R Quinlan在1979年提出了著名的ID3算法，主要针对离散型属性数据 C4.5是ID3后来的改进算法，它在ID3基础上增加了： --对连续属性的离散化 C5.0是C4.5应用于大数据集上的分类算法，主要在执行效率和内存使用方面进行了改进 Clementine的决策树模型决策树(Decision Tree)模型，也称规则推理模型通过对训练样本的学习，建立分类规则依据分类规则，实现对新样本的分类属于有指导(监督)式的学习方法，有两类变量：目标变量(输出变量) 属性变量(输入变量) 决策树模型与一般统计分类模型的主要区别决策树的分类是基于逻辑的，一般统计分类模型是基于非逻辑的 Clementine的决策树模型常用的算法有CHAID、CART、 Quest 和C5.0。对每个决策都要求分成的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。决策树很擅长处理非数值型数据，这与神经网络只能处理数值型数据比起来，就免去了很多数据预处理工作。 C5.0原理介绍 C5.0是经典的决策树模型的算法之一，可生成多分支的决策树，目标变量为分类变量使用c5.0算法可以生成决策树（decision tree）或者规则集（rule sets）。C5.0模型根据能够带来最大信息增益（information gain）的字段拆分样本。第一次拆分确定的样本子集随后再次拆分，通常是根据另一个字段进行拆分，这一过程重复进行直到样本子集不能再被拆分为止。最后，重新检验最低层次的拆分，那些对模型值没有显著贡献的样本子集被剔除或者修剪。 C5.0的优点优点： C5.0模型在面对数据遗漏和输入字段很多的问题时非常稳健。 C5.0模型通常不需要很长的训练次数进行估计。 C5.0模型比一些其他类型的模型易于理解，模型推出的规则有非常直观的解释。 C5.0也提供强大的增强技术以提高分类的精度。 C 5.0 算法 C5.0算法选择分支变量的依据以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降 C5.0节点模型选项 C5.0节点模型选项交叉验证（Cross－validate）：如果选择了该选项，C5.0将使用一组基于训练数据子集建立的模型，来估计基于全部数据建立的模型的精确度。如果数据集过小，不能拆分成传统意义上的训练集和测试集，这将非常有用。或用于交叉验证的模型数目。模式（Mode）：对于简单的训练，绝大多数C5.0参数是自动设置。高级训练模式选项允许对训练参数更多的直接控制。 C5.0节点模型选项简单模式选项（simple）偏好（Favor）：在accuracy下，C5.0会生成尽可能精确的决策树。在某些情况下，这会导致过度拟和。选择Generality（一般化）项以使用不易受该问题影响的算法设置。期望噪声百分数（Expected noise （%））：指定训练集中的噪声或错误数据期望比率。 C5.0节点模型选项高级模式选项修剪纯度（pruning severity）：决定生成决策树或规则集被修剪的程度。提高纯度值将获得更小，更简洁的决策树。降低纯度值将获得更加精确的决策树。子分支最少记录数（Minimum records per child branch）：子群大小可以用于限制决策树任一分支的拆分数。只有当两个或以上的后序子分支包括来自训练集的记录不少于最小记录数，决策树才会继续拆分。默认值为2，提高该值将有助于避免噪声数据的过度训练。全局修剪（Use global pruning）：第一阶段：局部修建第二阶段：全局修剪排除属性（Winnow attributes）：如果选择了该选项，C5.0会在建立模型前检验预测字段的有用性。被发现与分析无关的预测字段将不参与建模过程。这一选项对有许多预测字段元的模型非常有用，并且有助于避免过度拟和。错误归类损失选项例子例子—数据例子—设置例子—设置例子—结果例子-- decision tree 例子-