02.机器学习样本评估与选择.pdfVIP

下载本文档

0
0
约2.64千字
约 2页
2023-04-19 发布于上海
举报
版权申诉

02.机器学习样本评估与选择.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

02.机器学习样本评估与选择 02.机器学习样本评估与选择经验误差与过拟合精度=1-错误率=1-错误样本数/总样本数学习器的实际预测输出与样本的真实输出之间的差异称为“误差”（error），学习器在训练集上的误差称为“训练误差”（training error）或“经验误差”（empirical error），在新样本上的误差称为“泛化误差”（generalizationerror）.显然，我们希望得到泛化误差⼩的学习器。模型选择（modelselection）问题：理想的解决⽅案当然是对候选模型的泛化误差进⾏评估，然后选择泛化误差最⼩的那个模型。过拟合（Overfitting）：学习器将训练样本学的太好，将样本⾃⾝的⼀些特点当作了所有潜在样本都会具有的⼀般性质，导致泛化性能下降。过拟合⽆法避免只能缓解⽋拟合（Underfitting）：学习器学习能⼒低下造成评估⽅法通常，我们可通过实验测试来对学习器的泛化误差进⾏评估并进⽽做出选择.为此，需使⽤⼀个“测试集”（testing set）来测试学习器对新样本的判别能⼒，然后以测试集上的“测试误差”（testing error）作为泛化误差的近似.通常我们假设测试样本也是从样本真实分布中独⽴同分布采样⽽得，但需注意的是，测试集应该尽可能与训练集互斥，即**测试样本尽量不在训练集中出现、未在训练过程中使⽤过。测试集和训练集划分⽅法 1. 留出法(hold-out) 直接将数据集D划分为两个互斥的集合 1. 保持数据分布的⼀致性，保持⽤于学习的数据集与⽤于测试的数据集的分布特征⼀致（例如：分层采样） 2. 多次重复划分 3. 测试集不能太⼤，也不能太⼩（⼀般 1/5～ 1/3） 2. 交叉验证法（cross validation）先将数据集 D 划分为k个⼤⼩相似的互斥⼦集,然后每次⽤k-1个⼦集的并集作为训练集，余下的那个⼦集作为测试集；这样就可获得k 组训练/测试集，从⽽可进⾏k次训练和测试，最终返回的是这 k 个测试结果的均值。为强调k的取值重要性，通常把交叉验证法称为“k折交叉验证”（k-fold crossvalidation）。k最常⽤的取值是 10，此时称为 10 折交叉验证；其他常⽤的k值有 5、20 等。 1. 留出法总归是使⽤了⼀部分数据，没有测试全部数据，因此 k 折交叉验证就是解决这个问题。 2. 假设将数据集分成 k = 10 份，第⼀次使⽤ D10 作为测试集，第⼆次使⽤ D9 作为测试集，直⾄每个都当过测试集，然后将k个结果求平均，就是最终结果。 3. ⾃助法（bootstrap ） 1. 基于”⾃助采样“的⽅法，也称：“有放回采样”、 “可重复采样” 2. 对数据集进⾏有放回采样，并且采样出的集合与原样本集同规模，但是数据分布有所改变调参与最终模型现实中常⽤的做法：对每个参数选定⼀个范围和变化步长，例如在[0，0.2] 范围内以 0.05 为步长，则实际要评估的候选参数值有5个，最终是从这5个候选值中产⽣选定值.这是在计算开销和性能估计之间进⾏折中的结果，通过这个折中，学习过程才变得可⾏。参数调得好不好往往对最终模型性能有关键性影响. 性能度量回归任务最常⽤的性能度量是“均⽅误差”（mean squared error）分类任务中常⽤的性能度量： 1. 错误度与精度（accuracy）错误率是分类错误的样本数占样本总数的⽐例精度则是分类正确的样本数占样本总数的⽐例 2. 查准率（precision）与查全率（recall）查准率：在所预测类别中，预测正确的⽐例，分母是预测类别的样本数。例如：挑出的西⽠中，有多少⽐例是好⽠查全率：在真实类别中，预测正确的⽐例，分母是真实类别的样本数。例如：所有好⽠中有多少⽐例被挑了出来对于⼆分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例（true positive）、假正例（false positive）、真反例（true negative）、假反例（false negative）四种情形，令TP、FP、TN、FN分别表⽰其对应的样例数，则显然有 TP+FP+TN+FN=样例总数。分类结果的“混淆矩阵”（confusion matrix）如下：