机器学习课后习题答案.pdfVIP

下载本文档

105
0
约5.91千字
约 20页
2021-10-05 发布于广东
举报
版权申诉

机器学习课后习题答案.pdf

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习（周志华）参考答案第一章绪论（略）第二章模型评估与选择 1.数据集包含1000 个样本，其中500 个正例，500 个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。一个组合问题，从500500 正反例中分别选出150150 正反例用于留出法评估，所以可能取 150 2 法应该是( ) 。 500 2.数据集包含100 个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用 10 折交叉验证法和留一法分别对错误率进行评估所得的结果。 10 折交叉检验：由于每次训练样本中正反例数目一样，所以讲结果判断为正反例的概率也是一样的，所以错误率的期望是5050%。留一法：如果留下的是正例，训练样本中反例的数目比正例多一个，所以留出的样本会被判断是反例；同理，留出的是反例，则会被判断成正例，所以错误率是100%。 3.若学习器A 的F1 值比学习器B 高，试析A 的BEP 值是否也比B 高。 4.试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。查全率: 真实正例被预测为正例的比例真正例率: 真实正例被预测为正例的比例显然查全率与真正例率是相等的。查准率:预测为正例的实例中真实正例的比例假正例率: 真实反例被预测为正例的比例两者并没有直接的数值关系。 9.试述卡方检验过程。第三章线性模型 2.试证明，对于参数w ，对率回归（logistics 回归）的目标函数（式1）是非凸的，但其对数似然函数（式2）是凸的。如果一个多元函数是凸的，那么它的Hessian 矩阵是半正定的。 3.编程实现对率回归，并给出西瓜数据集3.0α上的结果 /icefire_tyh/article/details 4.选择两个UCI 数据集，比较10 折交叉验证法和留一法所估计出的对率回归的错误率。 /icefire_tyh/article/details 5.编程实现线性判别分析，并给出西瓜数据集3.0α上的结果。 /icefire_tyh/article/details 6. LDA 仅在线性可分数据上能获得理想结果，试设计一个改进方法，使其能较好地用于非线性可分数据。在当前维度线性不可分，可以使用适当的映射方法，使其在更高一维上可分，典型的方法有 KLDA，可以很好的划分数据。 9.使用 OvR 和 MvM 将多分类任务分解为二分类任务求解时，试述为何无需专门针对类别不平衡性进行处理。书中提到，对于OvROvR，MvMMvM 来说，由于对每个类进行了相同的处理，其拆解出的二分类任务中类别不平衡的影响会相互抵消，因此通常不需要专门处理。以ECOCECOC 编码为例，每个生成的二分类器会将所有样本分成较为均衡的二类，使类别不平衡的影响减小。当然拆解后仍然可能出现明显的类别不平衡现象，比如一个超级大类和一群小类。第四章决策树 4.1.试证明对于不含冲突数据（即特征向量完全相同但标记不同）的训练集，必存在与训练集一致（即训练误差为0）的决策树。因为决策树是通过属性来划分，相同属性的样本最终肯定会进入相同的叶节点。一个叶节点只有一个分类，如果样本属性相同而分类不同，必然产生训练误差。反之，决策树只会在当前样本集合是同一类或者所有属性相同时才会停止划分，最终得到训练误差为0 的决策树。 4.2.试析使用“最小训练误差”作为决策树划分选择的缺陷。从机器学习最开始就讲起，最小训练误差并不可靠，由于过度学习样本特性最终导致严重的过拟合，而没有泛化能力。 4.3.试编程实现基于信息熵进行划分选择的决策树算法，并为表4.3 中数据生成一棵决策树。 /icefire_tyh/article/details 重写的不剪枝的决策树 /icefire_tyh/article/details 即ID3 算法 4.4.试编程实现基于基尼指数进行划分选择的决策树算法，并为表4.2 中数据生成预剪枝、后剪枝决策树，并与未剪枝决策树进行比较。 /icefire_tyh/article/details 即CART 算法 4.5.试编程实现基于对率回归进行划分选择的决策树算法，并为表4.3 中数据生成一棵决策