- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习-第二张
胡鹏
第二章:模型评估与选择
大纲
经验误差与过拟合
评估方法
性能度量
比较检验
偏差与方差
阅读材料
经验误差与过拟合
错误率误差:
错误率: 错分样本的占比:
误差:样本真实输出与预测输出之间的差异
训练(经验)误差:训练集上
测试误差:测试集
泛化误差:除训练集外所有样本
由于事先并不知道新样本的特征,我们只能努力使经验误差最小化;
很多时候虽然能在训练集上做到分类错误率为零,但多数情况下这样的学习器并不好
经验误差与过拟合
过拟合:
学习器把训练样本学习的“太好”,将训练样本本身的特点 当做所有样本的一般性质,导致泛化性能下降
优化目标加正则项
early stop
欠拟合:
对训练样本的一般性质尚未学好
决策树:拓展分支
神经网络:增加训练轮数
经验误差与过拟合
过拟合:学习器把训练样本本身特点当做所有潜在样本都会具有的一般性质.
欠拟合:训练样本的一般性质尚未被学习器学好.
大纲
经验误差与过拟合
评估方法
性能度量
比较检验
偏差与方差
阅读材料
评估方法
现实任务中往往会对学习器的泛化性能、时间开销、存储开销、可解释性等方面的因素进行评估并做出选择
我们假设测试集是从样本真实分布中独立采样获得,将测试集上的“测试误差”作为泛化误差的近似,所以测试集要和训练集中的样本尽量互斥。
评估方法
留出法:
直接将数据集划分为两个互斥集合
训练/测试集划分要尽可能保持数据分布的一致性
一般若干次随机划分、重复实验取平均值
训练/测试样本比例通常为2:1~4:1
评估方法
交叉验证法:
将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,最终返回k个测试结果的均值,k最常用的取值是10.
评估方法
与留出法类似,将数据集D划分为k个子集同样存在多种划分方式,为了减小因样本划分不同而引入的差别,k折交叉验证通常随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的“10次10折交叉验证”
评估方法
自助法:
以自助采样法为基础,对数据集 有放回采样 次得到训练集
, 用做测试集。
大纲
经验误差与过拟合
评估方法
性能度量
比较检验
偏差与方差
阅读材料
性能度量
性能度量是衡量模型泛化能力的评价标准,反映了任务需求;使用不同的性能度量往往会导致不同的评判结果
性能度量
对于分类任务,错误率和精度是最常用的两种性能度量:
错误率:分错样本占样本总数的比例
精度:分对样本占样本总数的比率
分类错误率
精度
性能度量
信息检索、Web搜索等场景中经常需要衡量正例被预测出来的比率或者预测出来的正例中正确的比率,此时查准率和查全率比错误率和精度更适合。
统计真实标记和预测结果的组合可以得到“混淆矩阵”
查准率
查全率
性能度量
根据学习器的预测结果按正例可能性大小对样例进行排序,并逐个把样本作为正例进行预测,则可以得到查准率-查全率曲线,简称“P-R曲线”
平衡点是曲线上“查准率=查全率”时的取值,可用来用于度量P-R曲线有交叉的分类器性能高低
性能度量
比P-R曲线平衡点更用常用的是F1度量:
性能度量
类似P-R曲线,根据学习器的预测结果对样例排序,并逐个作为正例进行预测,以“假正例率”为横轴,“真正例率”为纵轴可得到ROC曲线,全称“受试者工作特征”.
性能度量
若某个学习器的ROC曲线被另一个学习器的曲线“包住”,则后者性能优于前者;否则如果曲线交叉,可以根据ROC曲线下面积大小进行比较,也即AUC值.
假设ROC曲线由
的点按序连接而形成 ,则:
AUC可估算为:
AUC衡量了样本预测的排序质量。
代价敏感错误率
现实任务中不同类型的错误所造成的后果很可能不同,为了权衡不同类型错误所造成的不同损失,可为错误赋予“非均等代价”。
代价曲线
在非均等代价下,ROC曲线不能直接反映出学习器的期望总体代价,而“代价曲线”可以。
代价曲线
代价曲线图的绘制:ROC曲线上每个点对应了代价曲线上的一条线段,设ROC曲线上点的坐标为(TPR,FPR),则可相应计算出FNR,然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,线段下的面积即表示了该条件下的期望总体代价;如此将ROC曲线上的每个点转化为代价平面上的一条线段,然后取所有线段的下界,围成的面积即为所有条件下学习器的期望总体代价。
大纲
经验误差与过拟合
评估方法
性能度量
比较检验
偏差与方差
阅读材料
性能评估
关于性能比较:
测试性能并不等于泛化性能
测试性能随着测试集的变化而变化
很多机器学习算法本身有一定的随机性
直接选取相应评估方法在相应度量下比大小的方法不可取!
假设检验为学习器性能比较提供了重要依据,基于其结果我们可以推断出若
您可能关注的文档
- 聊城市安全生产会关于.doc
- 国金量化多策略灵活配置混合型.pdf
- 股份代号1398.pdf
- 新药研究的开发思路 研究开发中心 解斌 2005年2月 .ppt
- 施 工 合 同 - 河钢集团石钢公司.doc
- 无锡市交警支队执法记录仪及视频管理平台.doc
- 无锡市直属公园景区管理工作考核细则.doc
- 日常管理考核办法.doc
- 春江潮水连海平 海上明月共潮生 滟滟随波千万 .ppt
- 脑知识的一大障碍。剖析常见电脑英语及缩写的基本含义,.doc
- 中国国家标准 GB/Z 158-2025增材制造 设计 功能梯度增材制造.pdf
- 《GB/Z 158-2025增材制造 设计 功能梯度增材制造》.pdf
- GB/Z 42749.6-2025信息技术 IT赋能服务业务过程外包(ITES-BPO)生存周期过程 第6部分:风险管理指南.pdf
- 中国国家标准 GB/Z 42749.6-2025信息技术 IT赋能服务业务过程外包(ITES-BPO)生存周期过程 第6部分:风险管理指南.pdf
- 《GB/Z 42749.6-2025信息技术 IT赋能服务业务过程外包(ITES-BPO)生存周期过程 第6部分:风险管理指南》.pdf
- GB/T 46686.1-2025标准知识图谱 第1部分:实现指南.pdf
- 中国国家标准 GB/T 46686.1-2025标准知识图谱 第1部分:实现指南.pdf
- 《GB/T 46686.1-2025标准知识图谱 第1部分:实现指南》.pdf
- GB/Z 140-2025用于电量测量和监测、电能质量监测、数据采集和分析的装置的网络安全.pdf
- 中国国家标准 GB/Z 140-2025用于电量测量和监测、电能质量监测、数据采集和分析的装置的网络安全.pdf
最近下载
- 夏普AR1818复印机维修代码.doc VIP
- PA620系列保护测控装置说明书1.32.pdf
- 浙江理工大学2019-2020学年《实验心理学》期末考试试卷(B卷)含参考答案.docx
- 胖东来商贸集团各项管理制度.docx VIP
- 2025年部编中考语文修改病句训练试题(含答案).pdf
- (高清版)DB13∕T 5316-2020 电动汽车充电站消防安全技术标准.pdf VIP
- 浙江理工大学2019-2020学年《实验心理学》期末考试试卷(A卷)含参考答案.docx
- 标准图集-22G813 钢筋混凝土灌注桩图集.pdf VIP
- 2024oem代加工合同范本 (3).doc VIP
- 建标报告-一等活塞式压力计标准装置.doc VIP
原创力文档


文档评论(0)