周志华版《机器学习》第二章课后习题参考解答.pdfVIP

下载本文档

2
0
约1.26万字
约 11页
2025-09-19 发布于广东
举报
版权申诉

周志华版《机器学习》第二章课后习题参考解答.pdf

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

周志华版《机器学习》第二章课后习题

参考解答

2.1留出法划分方式估算

解题思路

留出法需满足训练集与测试集类别分布一致（分层抽样），避免因类别偏差影响评估结果。核

心是计算“正例中选训练集样本数”与“反例中选训练集样本数”的组合数乘积。

详细解答

1.确定样本分配数量

1000500500

总样本：个（正例，反例）

训练集占比70%：正例需选500\times70\%350个，反例需选500\times70\%350个

测试集占比30%：正例剩余150个，反例剩余150个

2.计算组合数

从500个正例中选350个的方式数为组合数C_{500}^{350}，从500个反例中选350个的方

式数也为C_{500}^{350}。

由于正例与反例的选择相互独立，总划分方式数为：

\text{æ»æ¹å¼æ°}C_{500}^{350}\timesC_{500}^{350}

\left(C_{500}^{150}\right)^2

（注：组合数性质C_n^kC_n^{n-k}，故C_{500}^{350}C_{500}^{150}）

1.结论

实际计算中无需展开具体数值，核心是通过分层抽样保证类别分布，避免简单随机抽样导致的

训练集测试集类别失衡。/

2.210折交叉验证与留一法的错误率评估

解题思路

根据题意，学习器的预测规则为：

•若训练集中正例数反例数：预测为正例

•若训练集中反例数正例数：预测为反例

•若数量相等：随机猜测（错误率50%）

需分别分析10折交叉验证和留一法下的训练集类别分布，进而计算错误率。

详细解答

1.数据集基础信息

总样本：100个（正例50，反例50）

2.10折交叉验证法

◦划分方式：将100个样本均匀分为10组，每组10个样本（按分层抽样，每组含5正

例、反例）。

◦训练集构成：每次用9组（90个样本）训练，含9\times545正例、45反例，正

例数反例数。

◦预测规则：随机猜测，错误率为50%。

◦结论：10折交叉验证的错误率评估结果为50%。

1.LOO

留一法（）

◦划分方式：每次留1个样本作为测试集，剩余99个作为训练集。

◦训练集类别分布分析：

▪若测试集为正例：训练集含49正例、50反例（反例数正例数），学习器预测

为反例→测试正例被误判，错误。

▪5049

若测试集为反例：训练集含正例、反例（正例数反例数），学习器预测

为正例→测试反例被误判，错误。

◦100100/100100\%

错误率计算：次测试全部错误，错误率为。

◦结论：留一法的错误率评估结果为100%。

2.3AUC与BEP的关系分析

解题思路

•AUC（ROC曲线下面积）：衡量学习器在所有可能阈值下的整体性能，反映“区分正/负

例的能力”。

•BEPPR

（平衡点）：（查准率）（查全率）时的性能点，仅反映某一特定阈值下的性

能。

需通过“不同ROC曲线的AUC与BEP对比”说明二者无必然正相关。

详细解答

A的AUC比B高，不能推出A的BEP也比B高，原因如下：

1.AUC与BEP的评价角度差异

◦AUC是ROC曲线的全局积分，涵盖所有阈值下的FPR（假正例率）与TPR（真正例

率）组合，反映整体区分能力。

◦BEP是P-R曲线中的一个特定点（PR），仅依赖该阈值下的TP、FP、FN数量，

受局部性能影响更大。

1.反例说明

假设：

◦学习器A的ROC曲线：在高FPR区域（如FPR0.6）TPR增长快，低FPR区域

您可能关注的文档

文档评论（0）

几多 + 关注: 实名认证

文档贡献者

问君能有几多愁，恰是一江春水向东流。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

周志华版《机器学习》第二章课后习题参考解答.pdfVIP