第4章分类基本概念、决策树与模型评估.pptVIP

下载本文档

19
0
约 64页
2016-06-25 发布于贵州
举报
版权申诉

第4章分类基本概念、决策树与模型评估.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第4章分类基本概念、决策树与模型评估

比较两种分类法的性能令表示分类技术在第 j 次迭代产生的模型，每对模型和在相同的划分j 上进行检验。用e1j和e2j分别表示它们的错误率，它们在第j折上的错误率之差可以记作。如果k充分大，则服从于均值为、方差为的正态分布。观察差的总方差可以用下式进行估计：其中，是平均差。用t分布计算的置信区间为：例：假设两个分类技术产生的模型的准确率估计差的均值等于0.05，标准差等于0.002。如果使用30折交叉验证方法估计准确率，则在95%置信水平下，真实准确率为：统计显著查询t分布表 * 3、连续属性的划分 1.使用二元划分 2.划分点v选择 N个记录中所有属性值作为划分点 3.对每个划分进行类计数, A v 和 A ? v 4.计算每个候选点v的Gini指标，并从中选择具有最小值的候选划分点 5.时间复杂度为O(n2) 降低计算复杂性的方法: 1.将记录进行排序 2.从两个相邻的排过序的属性值之间选择中间值作为划分点 3.计算每个候选点的Gini值 4.时间复杂度为O（NlogN） 4、增益率熵和Gini指标等不纯性度量趋向有利于具有大量不同值的属性。性别男女车型家用运动豪华 C0:6 C1:4 C0:4 C1:6 C0:1 C1:3 C0:8 C1:0 C0:1 C1:7 （b）（a）测试条件“车型”要比测试条件“性别”要好，因为它产生了更纯的派生结点。测试条件“顾客ID”相比前两个产生更纯的划分，但是它却不是一个有预测性的属性，因为与每个划分相关联的记录太少，以致不能作出可靠的预测。 C0:1 C1:0 C0:1 C1:0 C0:0 C1:1 C0:0 C1:1 顾客ID v1 v10 v20 v11 （c） … … 第一种策略：限制测试条件只能是二元划分。第二种策略：修改评估划分的标准，把属性测试条件产生的输出数也考虑进去。例如：CART就是采用这样的策略。例如：决策树算法C4.5采用增益率（gain ratio）的划分标准来评估划分。决策树归纳特点的总结 1、决策树归纳是一种构建分类模型的非参数方法。 2、找到最佳的决策树是NP完全问题。 3、已开发的构建决策树技术不需要昂贵的计算代价，即使训练集非常大，也可以快速建立模型。 4、决策树相对容易解释，特别是小型的决策树。 5、决策树是学习离散值函数的典型代表。 6、决策树算法对于噪声的干扰具有相当好的鲁棒性。 7、冗余属性不会对决策树的准确率造成不利的影响。 8、由于大多数决策树算法都采用自顶向下的递归划分方法，因此沿着树向下，记录会越来越少。 9、子树可能在决策树中重复多次，这使得决策树过于复杂，并且可能更难解释。 10、目前为止，本章介绍的测试条件每次都只涉及一个属性。二维数据集的决策树及其边界示例使用仅涉及单个属性的测试条件不能有效划分的数据集的例子斜决策树（oblique decision tree）可以克服以上的局限，因为它允许测试条件涉及多个属性。上图中的数据集可以很容易地用斜决策树表示，该决策树只有一个结点，其测试条件为：缺点：尽管这种技术有更强的表达能力，并且能够产生更紧凑的决策树，但是为给定的结点找出最佳测试条件的计算可能是相当复杂的。 x + y 1 Class = + Class = 构造归纳（constructive induction）提供另一种将数据划分成齐次非矩形区域的方法，该方法创建复合属性，代表已有属性的算术或逻辑组合。新属性提供了更好的类区分能力，并在决策树归纳之前就增广到数据集中。与决策树不同，构造归纳不需要昂贵的花费，因为在构造决策树之前，它只需要一次性地确定属性的所有相关组合，相比之下，在扩展每个内部结点时，斜决策树都需要动态地确定正确的属性组合。然而构造归纳会产生冗余的属性，因为新创建的属性是已有属性的组合。 11、研究表明不纯性度量方法的选择对决策树算法的性能影响很小。一个好的分类模型必须具有低训练误差和低泛化误差。二维数据过分拟合的例子下图所示的二维数据集中的数据点属于两个类，分别标记为类“o”和类“+”，类“o”的数据点由三个高斯分布混合产生，而类“+”的数据点用一个均匀分布产生。数据集中，总共有1200个数据点是属于类“o”，1800个数据点属于类“+”，其中30%的点用于训练，剩下的70%用于检验。对训练集使用以Gini指标作为不纯性度量的决策树方法。具有两个类的数据集的例子当决策树很小时，训练误差和检验误差都很大，这种情况称作模型拟合不足（model underfit