K折交叉验证在机器学习模型评估中应用.pptx

K折交叉验证在机器学习模型评估中应用.pptx

32.Scikfoldcv函数对机器学习模型进行10折交叉验证天桥下的卖艺者

我们在建立数据模型后通常希望在外部数据验证模型的检验能力。然而当没有外部数据可以验证的时候,交叉验证也不失为一种方法。交叉验验证(交叉验证,CV)则是一种评估模型泛化能力的方法,广泛应用中于数证据采挖掘和机器学习领域,在交叉验证通常将数据集分为两部分,一部分为训练集,用于建立预测模型;另一部分为测试集,用于测试该模型的泛化能力。

简单交叉验证:是我们临床论文中最常使用到的,从数据中随机选择中随机选择70%点的数据作为训练集建立模型,30%的数据当做外部数据来验证模型的预测能力。但其最终所得结果与集合划分比率密切相关,不同划分比率结果变异可能较大。该方法在总数据据集并不是非常大的情形下很难达到准确实评模型的目的。留一交叉验证是指:假设在总集合中共有有n个体,每次选取1个体作为测试试集,其余个体作为训练集。总共进行n次训练,取平均值是最终评价指标。留一交叉验证较为可靠靠,在每次模型训练中纳入几度乎所有个体,当总集合中个体数目轨迹的情势下计算时间较长。k折交叉验证可以看成是留一交叉验证的简化版,是将原始数据据随机平均分为k个子集(通常5-10个),每个子集做测试集的同时,其余k-1个子集合并作为训练,进行k次训练,取各评价指标(灵敏度、特异度、AUC等)的平均值。测试通过平均的评价指来降低训练集和测试集划分方式对预测结果的影响,有研究值表明k折评估准准确性高,当k为5或10时在评估准准后性和计算复杂性下综合性能最优。

10折交叉验证是指将原始数据集随机划分为样本数近乎相等的10个子集,轮流将其中的9个合并作为训练集,其余1个作为测试试集。算正确率等评价指标,最终终通过K次试验验后取评价指标的平均值来评估该模型的泛化能力。10折交叉证验证的基本步骤下:(1)原始数据集划分为10个样本量尽可均衡的子集;(2)使用第1个子集作为测试集,第2~9个子集合并作为训练集;(3)使用训练集对模型进行训练,计算多种评价指标在测试集下的结果;(4)重复2~3步流亜,轮将第2~10个子集作为测试集;(5)计算各评价指标的平均值作为最终结果。

代码+视频系列同步发公众号和B站,希望大家多多支持B站账号名称公众号名称

文档评论(0)

1亿VIP精品文档

相关文档