周志华版《机器学习》第二章 课后习题参考解答.pdfVIP

周志华版《机器学习》第二章 课后习题参考解答.pdf

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

周志华版《机器学习》第二章课后习题

参考解答

2.1留出法划分方式估算

解题思路

留出法需满足训练集与测试集类别分布一致(分层抽样),避免因类别偏差影响评估结果。核

心是计算“正例中选训练集样本数”与“反例中选训练集样本数”的组合数乘积。

详细解答

1.确定样本分配数量

1000500500

总样本:个(正例,反例)

训练集占比70%:正例需选500\times70\%350个,反例需选500\times70\%350个

测试集占比30%:正例剩余150个,反例剩余150个

2.计算组合数

从500个正例中选350个的方式数为组合数C_{500}^{350},从500个反例中选350个的方

式数也为C_{500}^{350}。

由于正例与反例的选择相互独立,总划分方式数为:

\text{总方式数}C_{500}^{350}\timesC_{500}^{350}

\left(C_{500}^{150}\right)^2

(注:组合数性质C_n^kC_n^{n-k},故C_{500}^{350}C_{500}^{150})

1.结论

实际计算中无需展开具体数值,核心是通过分层抽样保证类别分布,避免简单随机抽样导致的

训练集测试集类别失衡。/

2.210折交叉验证与留一法的错误率评估

解题思路

根据题意,学习器的预测规则为:

•若训练集中正例数反例数:预测为正例

•若训练集中反例数正例数:预测为反例

•若数量相等:随机猜测(错误率50%)

需分别分析10折交叉验证和留一法下的训练集类别分布,进而计算错误率。

详细解答

1.数据集基础信息

总样本:100个(正例50,反例50)

2.10折交叉验证法

◦划分方式:将100个样本均匀分为10组,每组10个样本(按分层抽样,每组含5正

5

例、反例)。

◦训练集构成:每次用9组(90个样本)训练,含9\times545正例、45反例,正

例数反例数。

◦预测规则:随机猜测,错误率为50%。

◦结论:10折交叉验证的错误率评估结果为50%。

1.LOO

留一法()

◦划分方式:每次留1个样本作为测试集,剩余99个作为训练集。

◦训练集类别分布分析:

▪若测试集为正例:训练集含49正例、50反例(反例数正例数),学习器预测

为反例→测试正例被误判,错误。

▪5049

若测试集为反例:训练集含正例、反例(正例数反例数),学习器预测

为正例→测试反例被误判,错误。

◦100100/100100\%

错误率计算:次测试全部错误,错误率为。

◦结论:留一法的错误率评估结果为100%。

2.3AUC与BEP的关系分析

解题思路

•AUC(ROC曲线下面积):衡量学习器在所有可能阈值下的整体性能,反映“区分正/负

例的能力”。

•BEPPR

(平衡点):(查准率)(查全率)时的性能点,仅反映某一特定阈值下的性

能。

需通过“不同ROC曲线的AUC与BEP对比”说明二者无必然正相关。

详细解答

A的AUC比B高,不能推出A的BEP也比B高,原因如下:

1.AUC与BEP的评价角度差异

◦AUC是ROC曲线的全局积分,涵盖所有阈值下的FPR(假正例率)与TPR(真正例

率)组合,反映整体区分能力。

◦BEP是P-R曲线中的一个特定点(PR),仅依赖该阈值下的TP、FP、FN数量,

受局部性能影响更大。

1.反例说明

假设:

◦学习器A的ROC曲线:在高FPR区域(如FPR0.6)TPR增长快,低FPR区域

文档评论(0)

几多 + 关注
实名认证
文档贡献者

问君能有几多愁,恰是一江春水向东流。

1亿VIP精品文档

相关文档