18-模型的过分拟合.pptxVIP

  • 12
  • 0
  • 约2.39千字
  • 约 24页
  • 2024-05-31 发布于四川
  • 举报

第十八讲模型的过分拟合主讲:王彦数据挖掘模型过分拟合和拟合不足分类模型的误差大致分为两种:训练误差:是在训练记录上误分类样本比例泛化误差:是模型在未知记录上的期望误差一个好的分类模型不仅要能够很好拟合训练数据,而且对未知样本也要能准确分类。换句话说,一个好的分类模型必须具有低训练误差和低泛化误差。当训练数据拟合太好的模型,其泛化误差可能比具有较高训练误差的模型高,这种情况成为模型过分拟合模型过分拟合和拟合不足当决策树很小时,训练和检验误差都很大,这种情况称为模型拟合不足。出现拟合不足的原因是模型尚未学习到数据的真实结构。随着决策树中结点数的增加,模型的训练误差和检验误差都会随之下降。当树的规模变得太大时,即使训练误差还在继续降低,但是检验误差开始增大,导致模型过分拟合。模型过分拟合和拟合不足过分拟合导致过分拟合的原因导致过分拟合的原因噪声导致的过分拟合例子:哺乳动物的分类问题十个训练记录中有两个被错误标记:蝙蝠和鲸如果完全拟合训练数据,决策树1的训练误差为0,但它在检验数据上的误差达30%。人和海豚,针鼹误分为非哺乳动物相反,一个更简单的决策树2,具有较低的检验误差(10%),尽管它的训练误差较高,为20%决策树1过分拟合训练数据。因为属性测试条件4条腿具有欺骗性,它拟合误标记的训练纪录,导致对检验集中记录的误分类噪声导致的过分拟合(例子)噪声导致决策边界的改变缺乏代表性样本导致

文档评论(0)

1亿VIP精品文档

相关文档