- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
#源代码#Leaningcurve模型效能评估及python下实现方法
Peaker、
在模型效能评估中我们通常要验证以下几个方面,首先是模型的
预测精度,最简单的是统计精度百分比,假阳性率,假率,敏感
性,特异性,标准误等统计指标。另外也可以通过交叉验证绘制ROC
曲线,通过曲线下面积AUC值来评价模型的预测精度。除了精度以外,
一个好的,有可移植性和可重复性的模型,我们要尽可能避免过度拟
合和低度拟合的情况发生。也就是说前期我们在训练集基础上做了大
量工作,例如特征提取和参数优化,很可能获得一个非常好的预测效
果,但是这一效果在更换训练集就失效了,即发生了过拟合或局
部优化。因此如何避免这样的情况发生呢?今天我们介绍除了
validationcurve以外的另一种验证方法——learningcurve
一个learningcurve展示当评估器训练样本数量发生变化时对应的
validationscore和trainscore。这个工具可以找出当我们增加训练数据
时,我们可以从中得益的多少,以及评估器本身是否能够承受variance
方差变异和bias有偏误差。如果validationscore和trainscore都收敛到
一个值,那么我们可能从训练集增加的过程中没有获益。
下面这个例子帮助我们理解naiveBayes模型的validationscore和
trainscore最后收敛到一个非常低的值。
从图中可见随着训练样本增加,trainscore和validationscore最后
收敛到一个值,图中约为1400,也就是说在此基础上继续增加训练样
本,模型可能不会继续受益很多,所以最优的训练样本数为1400.
我们可能不使用一个评估器或者是一个参数化的评估器来学
习更复杂的数据类型。如果在训练样本最大的时候,trainscore比
validationscore明显的高,增加的训练样本将会非常可能增加稳健
性。下面这个模型就可以看出SVM分类器在增加训练样本过程中获益。
从图中可以观察到,随着训练样本增加,validationscore逐渐增加,
说明SVM模型在增加训练样本过程中模型稳健性上有所获益。
Learningcurve的实现方法在python语言环境下非常简单,秩序从
sklearn包中调用learning_curve函数即可。
以上learningcurve绘图过程通过python语言实现
代码地址
本文吗?欢迎加入云生信跟大家一起进步~
文档评论(0)