- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4章分类基本概念、决策树与模型评估
比较两种分类法的性能 令 表示分类技术 在第 j 次迭代产生的模型,每对模型 和 在相同的划分j 上进行检验。用e1j和e2j分别表示它们的错误率,它们在第j折上的错误率之差可以记作 。如果k充分大,则 服从于均值为 、方差为 的正态分布。观察差的总方差可以用下式进行估计: 其中, 是平均差。用t分布计算 的置信区间为: 例:假设两个分类技术产生的模型的准确率估计差的均值等于0.05,标准差等于0.002。如果使用30折交叉验证方法估计准确率,则在95%置信水平下,真实准确率为: 统计显著 查询t分布表 * 3、连续属性的划分 1.使用二元划分 2.划分点v选择 N个记录中所有属性值作为划分点 3.对每个划分进行类计数, A v 和 A ? v 4.计算每个候选点v的Gini指标,并从中选择具有最小值的候选划分点 5.时间复杂度为O(n2) 降低计算复杂性的方法: 1.将记录进行排序 2.从两个相邻的排过序的属性值之间选择中间值作为划分点 3.计算每个候选点的Gini值 4.时间复杂度为O(NlogN) 4、增益率 熵和Gini指标等不纯性度量趋向有利于具有大量不同值的属性。 性别 男 女 车型 家用 运动 豪华 C0:6 C1:4 C0:4 C1:6 C0:1 C1:3 C0:8 C1:0 C0:1 C1:7 (b) (a) 测试条件“车型”要比测试条件“性别”要好,因为它产生了更纯的派生结点。 测试条件“顾客ID”相比前两个产生更纯的划分,但是它却不是一个有预测性的属性,因为与每个划分相关联的记录太少,以致不能作出可靠的预测。 C0:1 C1:0 C0:1 C1:0 C0:0 C1:1 C0:0 C1:1 顾客ID v1 v10 v20 v11 (c) … … 第一种策略:限制测试条件只能是二元划分。 第二种策略:修改评估划分的标准,把属性测试条件产生的输出数也考虑进去。 例如:CART就是采用这样的策略。 例如:决策树算法C4.5采用增益率(gain ratio)的划分标准来评估划分。 决策树归纳特点的总结 1、决策树归纳是一种构建分类模型的非参数方法。 2、找到最佳的决策树是NP完全问题。 3、已开发的构建决策树技术不需要昂贵的计算代价,即使训练集非常 大,也可以快速建立模型。 4、决策树相对容易解释,特别是小型的决策树。 5、决策树是学习离散值函数的典型代表。 6、决策树算法对于噪声的干扰具有相当好的鲁棒性。 7、冗余属性不会对决策树的准确率造成不利的影响。 8、由于大多数决策树算法都采用自顶向下的递归划分方法,因此沿着树向下,记录会越来越少。 9、子树可能在决策树中重复多次,这使得决策树过于复杂,并且可能更难解释。 10、目前为止,本章介绍的测试条件每次都只涉及一个属性。 二维数据集的决策树及其边界示例 使用仅涉及单个属性的测试条件不能有效划分的数据集的例子 斜决策树(oblique decision tree)可以克服以上的局限,因为它允许测试条件涉及多个属性。上图中的数据集可以很容易地用斜决策树表示,该决策树只有一个结点,其测试条件为: 缺点:尽管这种技术有更强的表达能力,并且能够产生更紧凑的决策树,但是为给定的结点找出最佳测试条件的计算可能是相当复杂的。 x + y 1 Class = + Class = 构造归纳(constructive induction) 提供另一种将数据划分成齐次非矩形区域的方法,该方法创建复合属性,代表已有属性的算术或逻辑组合。新属性提供了更好的类区分能力,并在决策树归纳之前就增广到数据集中。 与决策树不同,构造归纳不需要昂贵的花费,因为在构造决策树之前,它只需要一次性地确定属性的所有相关组合,相比之下,在扩展每个内部结点时,斜决策树都需要动态地确定正确的属性组合。然而构造归纳会产生冗余的属性,因为新创建的属性是已有属性的组合。 11、研究表明不纯性度量方法的选择对决策树算法的性能影响很小。 一个好的分类模型必须具有低训练误差和低泛化误差。 二维数据过分拟合的例子 下图所示的二维数据集中的数据点属于两个类,分别标记为类“o”和类“+”,类“o”的数据点由三个高斯分布混合产生,而类“+”的数据点用一个均匀分布产生。数据集中,总共有1200个数据点是属于类“o”,1800个数据点属于类“+”,其中30%的点用于训练,剩下的70%用于检验。对训练集使用以Gini指标作为不纯性度量的决策树方法。 具有两个类的数据集的例子 当决策树很小时,训练误差和检验误差都很大,这种情况称作模型拟合不足(model underfit
您可能关注的文档
最近下载
- 江西财经大学西方经济学复习重点.docx VIP
- 刑事被害人心理损害的范围 (1).pptx VIP
- 某集团2021年人才盘点项目方案(项目建议书).pptx VIP
- 党委书记讲党课+讲稿—深入学习贯彻党的二十届三中全会精神-聚焦四个持之以恒,驱动企业高质量发展.pptx VIP
- 分裂型人格障碍的案例分析.doc VIP
- GB51445-2021 锑冶炼厂工艺设计标准.pdf VIP
- DL T 868-2014 焊接工艺评定规程 .docx VIP
- 第十届全国走美杯三年级初赛竞赛数学试卷答案.docx VIP
- 学校膳食监督家长委员会成立大会上,校长发言:从餐桌开始,家校合力为孩子成长食堂 “加营养”.docx VIP
- 《拍手歌》优秀课件.ppt VIP
文档评论(0)