- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 模型评估与选择
1.数据集包含1000 个样本,其中500 个正例,500 个反例,将其划分为包含70%样本的训
练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
一个组合问题,从500500 正反例中分别选出150150 正反例用于留出法评估,所以可能取
150 2
法应该是( ) 。
500
2.数据集包含100 个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测
为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用 10 折交叉验证法
和留一法分别对错误率进行评估所得的结果。
10 折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也
是一样的,所以错误率的期望是5050%。
留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判
断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。
3.若学习器A 的F1 值比学习器B 高,试析A 的BEP 值是否也比B 高。
4.试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
查全率: 真实正例被预测为正例的比例
真正例率: 真实正例被预测为正例的比例
显然查全率与真正例率是相等的。
查准率:预测为正例的实例中真实正例的比例
假正例率: 真实反例被预测为正例的比例
两者并没有直接的数值关系。
9.试述卡方检验过程。
第三章 线性模型
2.试证明,对于参数w ,对率回归(logistics 回归)的目标函数(式1)是非凸的,但其对
数似然函数(式2)是凸的。
如果一个多元函数是凸的,那么它的Hessian 矩阵是半正定的。
3.编程实现对率回归,并给出西瓜数据集3.0α上的结果
/icefire_tyh/article/details
4.选择两个UCI 数据集,比较10 折交叉验证法和留一法所估计出的对率回归的错误率。
/icefire_tyh/article/details
5.编程实现线性判别分析,并给出西瓜数据集3.0α上的结果。
/icefire_tyh/article/details
6. LDA 仅在线性可分数据上能获得理想结果,试设计一个改进方法,使其能较好地用于非
线性可分数据。
在当前维度线性不可分,可以使用适当的映射方法,使其在更高一维上可分,典型的方法有
KLDA,可以很好的划分数据。
9.使用 OvR 和 MvM 将多分类任务分解为二分类任务求解时,试述为何无需专门针对类别
不平衡性进行处理。
书中提到,对于OvROvR,MvMMvM 来说,由于对每个类进行了相同的处理,其拆解出的
二分类任务中类别不平衡的影响会相互抵消,因此通常不需要专门处理。以ECOCECOC 编
码为例,每个生成的二分类器会将所有样本分成较为均衡的二类,使类别不平衡的影响减小。
当然拆解后仍然可能出现明显的类别不平衡现象,比如一个超级大类和一群小类。
第四章 决策树
4.1.试证明对于不含冲突数据(即特征向量完全相同但标记不同)的训练集,必存在与训练
集一致(即训练误差为0)的决策树。
因为决策树是通过属性来划分,相同属性的样本最终肯定会进入相同的叶节点。一个叶节点
只有一个分类,如果样本属性相同而分类不同,必然产生训练误差。反之,决策树只会在当
前样本集合是同一类或者所有属性相同时才会停止划分,最终得到训练误差为0 的决策树。
4.2.试析使用“最小训练误差”作为决策树划分选择的缺陷。
从机器学习最开始就讲起,最小训练误差并不可靠,由于过度学习样本特性最终导致严重的
过拟合,而没有泛化能力。
4.3.试编程实现基于信息熵进行划分选择的决策树算法,并为表4.3 中数据生成一棵决策树。
/icefire_tyh/article/details
重写的不剪枝的决策树
/icefire_tyh/article/details
即ID3 算法
4.4.试编程实现基于基尼指数进行划分选择的决策树算法,并为表4.2 中数据生成预剪枝、
后剪枝决策树,并与未剪枝决策树进行比较。
/icefire_tyh/article/details
即CART 算法
4.5.试编程实现基于对率回归进行划分选择的决策树算法,并为表4.3 中数据生成一棵决策
树。
/icefire_tyh/article/details
思路:参考书p90-91 的多变量决策
您可能关注的文档
- 视唱150条最新版.docx
- 高中英语新教材必修二Unit4 When Hamlet meets Peking Opera.pptx
- 吸痰操作流程PPT课件.pptx
- 预防电信诈骗主题班会PPT课件.ppt
- 部编版五年级下册《秋夜将晓出篱门迎凉有感》最新ppt课件.pptx
- 电大机械制图作业1--4答案.doc
- 《变色龙》经典课件.ppt
- 学会扫地、拖地-小学劳动技能-PPT课件.ppt
- 信创安全行业市场解读分析-V2.1版.pptx
- 袁隆平经典版最新版课件.ppt
- 六年级数学下册教学课件《解比例》.pptx
- 8.21.5 鸟类的生殖与发育(课件)八年级生物下册课件(苏教版).pptx
- 钠离子电池项目智能制造方案(范文参考).docx
- 2023-2024学年吉林省吉林市舒兰市七年级(上)期末语文试卷.docx
- 2024年吉林省吉林市丰满区亚桥实验学校中考数学三模试卷.docx
- 2023-2024学年吉林省辽源市东辽县七年级(上)期末英语试卷.docx
- 2023-2024学年吉林四平九年级数学第一学期期末水平检测试卷.docx
- 2023-2024学年吉林市蛟河市三校联考九年级(上)期末英语试卷.docx
- 2023-2024学年吉林松原九年级英语上册考场实战试卷.docx
- 电解液新材料项目智能制造方案.docx
最近下载
- 功能性食品开发与应用:多不饱和脂肪酸.ppt VIP
- 危险化学品目录带危险性类别.pdf
- 看图猜成语1(52图).pptx VIP
- QC成果-提高幕墙预埋件安装验收一次合格率.pdf VIP
- 河北农业大学2021-2022学年第1学期《高等数学(上)》期末考试试卷(A卷)及标准答案.pdf
- 湘教版五年级科学上册期末试卷【附答案】.pdf VIP
- 2024-2025年商用烘焙设备市场现状调研及前景趋势预测报告 .pdf VIP
- 2023年海南师范大学软件工程专业《操作系统》科目期末试卷B(有答案).docx VIP
- 耿素云, 屈婉玲.离散数学课后答案_清华.pdf
- 连续油管基本知识讲座资料.ppt
文档评论(0)