- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模型评估与选择模型选择针对某个具体的任务,通常会有许多模型可供选择,即使是对同一个模型也会有多组参数可供采用,不同的参数配置往往会产生不同的结果。选择泛化误差最小的模型模型选择训练误差(经验误差)模型在训练集上的误差泛化误差训练好的模型用在新样本上的误差通常泛化误差无法直接获得,而训练误差又存在过拟合现象评估方法训练集数据集测试集D={} ?关键:怎么获得“测试集”(test set) ?测试集应该与训练集“互斥”评估方法训练集和测试集尽量保持数据分布的一致性。留出法训练集数据集交叉验证法测试集自助法(如:500个样本中正例和反例的比为2:3,则在训练集和测试集中正例和反例的比也要求为2:3),只需要采用随机分层抽样即可评估方法训练集和测试集尽量保持数据分布的一致性。留出法训练集数据集若干次随机划分、重复进行实验取平均值作为评估结果。交叉验证法测试集自助法为了减弱随机划分的影响,重复划分训练集和测试集,对得到的多次结果取平均作为最后的结果评估方法训练集和测试集尽量保持数据分布的一致性。留出法训练集数据集若干次随机划分、重复进行实验取平均值作为评估结果。交叉验证法测试集1/5~1/3样本作为测试集。自助法所有数据(分层采样)训练集测试集(100次随机划分)(1/5~1/3)模型选择数据集留出法训练集测试集交叉验证法自助法K个模型选择数据集留出法训练集交叉验证法测试结果1测试结果2自助法测试结果3K个结果的平均…………测试结果k例:10折交叉验证法K个模型选择数据集留出法训练集训练集交叉验证法自助法P次K个结果的平均……相当于做了pk次留出法…………例:10次10折交叉验证法模型选择留一法:K折交叉验证的特例, k=m留出法1个测试样本交叉验证法m-1个样本自助法优点:不受随机样本划分的影响,结果比较准确。缺点:数据集较大时,计算开销难以忍受。小结数据量足够时,选择留出法简单省时,在牺牲很小的准确度的情况下,换取计算的简便;01数据量较小时,我们应该选择交叉验证法,因为此时划分样本集将会使训练数据过少;02数据量特别少的时候,我们可以考虑留一法。03评估方法D’D留出法训练集数据集训练集D估计偏差交叉验证法测试集自助法D\D’评估方法D’D留出法训练集数据集训练集D估计偏差交叉验证法测试集以自助采样为基础自助法D\D’亦称“有放回采样” “可重复采样”评估方法D’D训练集数据集测试集约有 36.8% 的样本不出现训练集与原样本集同规模数据分布有所改变D\D’“包外估计”(out-of-bag estimation)THANKS
文档评论(0)