数据仓库与数据挖掘课件 第十章 模型选择与模型评估.ppt

数据仓库与数据挖掘课件 第十章 模型选择与模型评估.ppt

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘课件 第十章 模型选择与模型评估

第10章 模型选择与 模型评估 《数据挖掘与知识发现》(第2版) 吉林大学计算机科学与技术学院 李雄飞 模型选择与模型评估 生成若干数据模型后,需要依据模型对数据的解释能力或预测能力,确定一个最优的模型。本章介绍模型选择和模型评估方法。主要讨论启发式方法,数据重用技术,以及模型选择和验证的解析方法,具体包括: 模型的过拟合 没有天生优越的分类器 模型、模型选择和模型评估 自助法 Occam剃刀 最小描述长度准则 信息准则 比较分类器的方法 聚类评估 模型的过拟合 分类模型的误差有两类: 训练误差(training error):也称为再代入误差(resubstitution error),是训练样本上的误分类比例。 泛化误差(generalization error):是模型在未知样本上的期望误差。 一个好的分类模型应该同时具有低训练误差和低泛化误差。 如果分类模型A拟合训练数据较好,但与另一个拟合训练数据相对较差的分类模型B相比,模型A具有更高的泛化误差,则称模型A过拟合。 例,以二维数据为例解释过拟合。 在图10.1二维数据集合中,数据点属于两类: 标记为“o”的数据由三个独立的正态分布产生,1200个。 标记为“+”的数据由均匀分布产生。1800个。 随机选取30%用于训练决策树,其余70%用于测试。为说明过拟合现象,对完全生长的决策树进行不同程度的剪枝。图10.2显示了不同节点数的决策树的训练误差和测试误差。 模型的过拟合 模型拟合不足(model underfitting):训练误差和测试误差都较大。 决策树生长不充分 模型过拟合(model overfitting):训练误差继续降低,测试误差增大。 决策树的规模过于复杂 模型的过拟合 图10.3给出了两颗具有不同规模的决策树,节点少的决策树具有较高训练误差,但具有较低的测试误差,而节点多的决策树出现过拟合。 导致过拟合的因素: 存在噪声数据 缺少典型样本 没有天生优越的分类器 考虑两类问题: 设训练集D由模式xi以及与之相应的类别标签yi=?,?i=1,?,n,yi由待学习的未知目标函数F(x)给出,即yi =F(xi)。 多数情况下,F(x)都含有随机成分,相同的输入被分到不同的类别中,导致非零贝叶斯错误率。 令H表示假设集或待学习的可能参数集合。 h(x)?H是特定的假设,如,神经网络中的量化权值、泛函模型中的参数?或者树中的决策集合等等。 设P(h)表示算法训练后产生假设h的先验概率。 P(h?D)表示在数据集D上训练后产生假设h的概率。 对于确定性学习算法,P(h?D)在单一假设h外,处处为零。 最近邻和决策树 对于随机算法,P(h?D)可能是一个分布。 神经网络 令E表示0-1损失函数或其他损失函数的误差。 没有天生优越的分类器 评判学习算法的泛化性能:关于所有可能目标求和的误差期望值。 显然,固定训练集D上期望误差率,与以输入的概率P(x)为权、学习算法P(h?D)与真实后验P(F?D)“匹配”的情况的加权和有关。 如果没有关于P(F?D)的先验知识,不能检验任何特定的学习算法P(h?D),包括其泛化性能。 当真实函数是F(x),第k个候选学习算法的概率是Pk(h(x)?D)时,非训练集的期望误差率是: 没有天生优越的分类器 定理10.1:(没有免费的午餐,No free lunch,NFL)任给两个学习算法P1(h?D)和P2(h?D),下列命题正确,且与样本分布P(x)及训练点个数n无关: (1) 对所有目标函数F求平均,有?1[E?F,n]-?2[E?F,n]=0; (2) 任意固定的训练集D,对所有F求平均,有?1[E?F,D]-?2[E?F,D]=0; (3) 对所有先验P(F)求平均,有?1[E?n]-?2[E?n]=0; (4) 任意固定的训练集D,对所有先验P(F)求平均,有?1[E?D]-?2[E?D]=0. NFL定理表明: 使用哪种算法完成分类任务,取决于问题本质特征,而不是数据挖掘者对哪个算法更熟悉。 研究和试图说明某种算法具有天生的优越性是没有意义的。 当面对一个新的分类问题时: (1)应该关注事务的本质 先验信息、数据分布、训练样本数量、代价或奖励函数等。 (2)根据以上关于问题的“信息”,选择适当的分类算法。 没有天生优越的分类器 例10.1:二值数据的NFL 假设输入矢量由三个二值特征构成,给定目标函数F(x),如表10.1。 假设学习算法1认为每个模式除非被训练过,否则就属于类?1; 学习算法2

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档