《机器学习-Python实践》试卷5.docx

下载文档

0
0
约2.56千字
约 7页
2024-10-23 发布于山东
举报
版权申诉
保障服务

《机器学习-Python实践》试卷5.docx

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第PAGE1页，共NUMPAGES1页

一、单项选择题（本大题共10小题，每题3分，共30分）试卷（2021

试卷

（2021-2022学年第1学期）

考试科目机器学习-Python实践（A卷）

适用专业班级（年级）得分

命题人：审阅人：

班级学号姓名考试科目

装订线

1、点击率预测是一个正负样本不平衡问题（例如99%的没有点击，只有1%点击）。假如在这个非平衡的数据集上建立一个模型，得到训练样本的正确率是99%，则下列说法正确的是？（）

A.模型正确率很高，不需要优化模型了

B.模型正确率并不高，应该建立更好的模型

C.无法对模型做出好坏评价

D.以上说法都不对

2、如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的？（）

A.增加树的深度

B.增加学习率

C.减小树的深度

D.减少树的数量

3、我们想要训练一个ML模型，样本数量有100万个，特征维度是5000，面对如此大数据，如何有效地训练模型？（）

A.对训练集随机采样，在随机采样的数据上建立模型

B.尝试使用在线机器学习算法

C.使用PCA算法减少特征维度

D.以上都对

4、机器学习中做特征选择时，可能用到的方法有？（多选）（）

a.卡方b.信息增益c.平均互信息d.期待交叉熵

5、如何在监督式学习中使用聚类算法（多选）？（）

A.首先，可以创建聚类，然后分别在不同的集群上应用监督式学习算法

B.在应用监督式学习算法之前，可以将其类别ID作为特征空间中的一个额外的特征

C.在应用监督式学习之前，不能创建聚类

D.在应用监督式学习算法之前，不能将其类别ID作为特征空间中的一个额外的特征

6、下面哪句话是正确的？（）

A.机器学习模型的精准度越高，则模型的性能越好

B.增加模型的复杂度，总能减小测试样本误差

C.增加模型的复杂度，总能减小训练样本误差

D.以上说法都不对

7、如果使用线性回归模型，下列说法正确的是？（）

A.检查异常值是很重要的，因为线性回归对离群效应很敏感

B.线性回归分析要求所有变量特征都必须具有正态分布

C.线性回归假设数据中基本没有多重共线性

D.以上说法都不对

8、以下关于Bagging特点的描述不正确的是（）

A．Bagging是一个很低效的集成学习算法

B．Bagging复杂度与基学习器同阶

C．由于每一个样本被选中的概率相同，因此bagging并不侧重于训练数据集中的任何特定实例。

D．对于噪声数据，bagging不太受过分拟合的影响。

9、下面哪个选项中哪一项属于确定性算法？（）

A．随机森林

B．PCA

C．Kmeans

D．GBDT

10、下列属于无监督学习的是（）

A、k-means

B、SVM

C、最大熵

D、CRF

二、判断题（本大题共10小题，每题1分，共10分）

1、FP——将负类预测为正类数。（）

2、交叉熵损失函数的好处是可以克服方差代价函数更新权重过慢的问题。（）

3、逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。（）

4、决策树容易发生欠拟合。（）

5、决策树容易发生过拟合。（）

6、SVM无法做多分类。（）

7、SVM自带正则项。（）

8、先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器。（）

9、Boosting是一个迭代的过程，通过改变训练样本的分布，使得基分类器聚焦在那些很难分的样本上。（）

10、Boosting结合了很多弱学习器来形成一个强学习器，单个模型表现不佳，但它们在数据集的某些部分表现很好。（）

三、填空（本大题共10小题，每题3分，共30分）

1、回归问题对数值型连续随机变量进行预测和建模的监督学习算法。回归往往会通过计算来确定模型的精确性。

2、评判分类效果好

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《机器学习-Python实践》试卷5.docx