- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第6章模型验证
学习目标掌握三种模型验证的方法及其实现理解过拟合与欠拟合的问题及其原因了解模型表现的几种指标及其计算方法
模型验证方法?
模型验证方法?
模型验证方法留一法的优点用到了几乎所有的数据对模型进行训练,理论上可以取得更好的训练效果不需要决定哪些数据作为训练集和验证集,减小了结果的随机性留一法的缺点因为需要对模型进行多次估计导致计算量跟着数据量成倍增加当数据量是100时,我们需要进行100次模型训练。当我们对大数据用复杂的模型进行训练时,这个过程可能会需要巨大的计算量
模型验证方法k折交叉验证的具体步骤将训练集分为??个子集(每个子集中有??/??个样本)重复以下步骤??次每次取一个不同的子集作为验证集验证集之外的???1个子集上进行训练在验证集上算出算出??个的平均值??的常用取值为10,5或3减小了留一法的计算量
模型验证与数据预处理数据预处理特征缩放:将特征转换为平均值为0,标准差为1的变量缺失值填补:用训练数据的平均值或中位数填补缺失数据验证集数据处理使用训练数据的平均值和标准差对验证集的数据进行缩放用训练数据的特征平均值或中位数填补验证数据的缺失值
模型验证与数据预处理为什么我们需要进行这些操作呢?假设我们的训练数据集中含有所有2010年以及之前的数据可以帮助我们来训练模型我们的目标是用训练好的模型来预测2010年之后的每股收益(即2011年及之后的数据为验证数据集)当我们身处2011年对2012年的每股收益进行预测时,理论上我们并不拥有2012至2020年间的任何数据因此,我们无法准确计算验证数据集的标准差或平均值如果我们使用验证集的标准差/平均值来进行特征缩放或填补缺失数据,那么很容易造成模型验证的结果夸大模型预测的表现
过拟合及欠拟合问题?
过拟合及欠拟合问题
过拟合及欠拟合问题过拟合问题对于有限的训练数据,通过增加特征数量来提高训练集的拟合程度判断方法:模型在训练数据上表现良好,但在验证集上表现不佳过拟合的主要原因训练数据中既含有大量信息,也有一些噪声如果我们的模型有大量的特征,并在较小的训练集上进行训练,那么在训练过程中,模型参数不但拟合数据中的的信息,也会拟合训练集中的噪声因为噪声项是随机变量,因此训练数据中的噪声与验证数据中的噪声会很不一样。所以可以拟合训练集噪声的模型并无法拟合训练集之外的数据。解决方法:增加训练数据量、减少模型复杂度、使用正则化
过拟合及欠拟合问题欠拟合问题使用简单模型对数据进行拟合时,训练集和验证集数据的拟合程度都很低欠拟合模型的偏差较大,表现较差判断方法训练集与验证集上的代价函数值非常接近解决方法增加模型复杂度、加入更多特征
过拟合及欠拟合问题
过拟合及欠拟合问题
模型验证指标?
模型验证指标混淆矩阵对于分类问题,我们可以直接检验模型对于每个样本的分类进行评判,然后再将所有样本进行综合。混淆矩阵中不同的行表示实际分类(正即为1,负为0)。不同列表示模型给出的分类。在混淆矩阵中左上角以及右下角的两个格表示模型给出正确分类的样本数量,而其他两个格中给出的是模型给出错误分类的数量。预测为正预测为负实际为正真正例(TP)假负例(FN)实际为负假正例(FP)真负例(TN)
模型验证指标?
模型验证指标F1分数是经常使用的给模型总体评价的一种指标在许多应用场景中,精确度和召回率之间的平衡非常重要。F1分数作为精确度和召回率的调和平均数,能够平衡这两个因素。对于同时关注假正例和假负例的数量的场景,这一点尤为重要。在类别不平衡的情况下,准确率可能会误导我们对模型表现的判断。例如,对于一个有95%的负例的数据集,模型仅需对所有样本都输出负例可能会达到95%的准确率。但在这种情况下,F1分数将为模型提供更有用的性能度量。F1分数结合了精确度和召回率,提供了一种容易理解的方式来评估模型的性能。
接收者操作特性曲线(ROC)ROC曲线显示二元分类器在不同判别阈值下的能力通过绘制真正例率(TPR)与假正例率(FPR)创建曲线下面积(AUC)AUC解释:AUC=0.5:模型无判别能力AUC0.5:模型具有一定判别能力AUC=1.0:模型具有完美判别能力AUC的重要性阈值不变性不平衡类别排序解释
接收者操作特性曲线(ROC)
接收者操作特性曲线(ROC)曲线下面积的重要性阈值不变性与准确率等其他指标不同,曲线下面积不依赖于分类的特定阈值。当最佳阈值未知或可能改变时,曲线下面积可能非常有参考价值。不平衡类别在处理不平衡类别的情况下,其中一个类别明显多于另一个类别时,曲线下面积可以给我们提供更为全面的信息。排序解释曲线下面积也可以告诉我们真实的正样本在模型中的排名是否比负样本更高。
模型验证代码:验
您可能关注的文档
- 《金融大数据分析》-课件 第1章 数据的管理与探索.pptx
- 《金融大数据分析》-课件 第 11 章 监督学习的小结.pptx
- 《金融大数据分析》-课件 第 12 章 主成分分析.pptx
- 《金融大数据分析》-课件 第 19 章.pptx
- 《金融大数据分析》-课件 第2章 数学以及统计学回顾.pptx
- 《金融大数据分析》-课件 第3章 线性回归.pptx
- 《金融大数据分析》-课件 第4章 逻辑回归.pptx
- 《金融大数据分析》-课件 第5章 其他基础监督学习方法.pptx
- 《金融大数据分析》-课件 第7章模型选择与正则.pptx
- 《金融大数据分析》-课件 第8章 决策树.pptx
- 专题02+时事热点(精讲课件)2025年中考地理二轮复习讲练测(安徽专用).pptx
- 专题10+经济建设 2025年中考道德与法治二轮复习讲练测(广东专用).pptx
- 专题02+西游记【名著概览】+-+2025年中考语文必读名著演练.pptx
- 专题七+认识国家(课件)-【省心备考】2025年中考地理一轮复习优质课件.pptx
- 第22课《礼记》二则——《大道之行也》(课件)-2024-2025学年八年级语文下册同步备课精品资源.pptx
- 跨学科实践15:制作“龙骨水车”(课件)-2024-2025学年八年级物理下学期项目化课程案例.pptx
- 第13课_辽宋夏金元时期的对外交流(课件)2024-2025学年七年级历史下册同步教学课件.pptx
- 选择题专项讲解——综合类(课件)2025年初中道德与法治中考选择题练习.pptx
- 第21课《庄子》二则——《北冥有鱼》(课件)-2024-2025学年八年级语文下册同步备课精品资源.pptx
- 7.3+感受澳大利亚(第二课时)-2025学年七年级地理下册同步精品课堂(晋教版2024).pptx
最近下载
- 第16讲 光的直线传播-2024年新八年级物理暑假提升自学课讲义(人教版2024)(解析版).docx VIP
- 国际商法教案.docx VIP
- 2025年鼎和财产保险股份有限公司人员招聘笔试备考试题及答案解析.docx
- 飞机发电机讲解.ppt
- 大数据与人工智能智慧树知到期末考试答案2024年.docx
- 2024年广东深圳市龙岗区总工会社会化工会工作者招聘笔试参考题库附带答案详解.pdf VIP
- 2024年贵州省中考适应性考试九年级数学试题和答案详解.docx
- 大学物理实验坐标纸.doc
- 小学低年级数学游戏教学的问题与对策研究——以开福区荷叶小学为例.docx VIP
- 直流电机PWM控制调速系统设计.doc VIP
文档评论(0)