《机器学习》期末学习题库.pdfVIP

下载本文档

0
0
约6.03千字
约 11页
2026-01-18 发布于江西
举报

《机器学习》期末学习题库.pdf

《机器学习》期末学习题库

1.对应GradientBoostingtree算法，以下说法正确的是:1.当增

加最小样本分裂个数，我们可以抵制过拟合2.当增加最小样本分裂个

数，会导致过拟合3.当我们减少训练单个学习器的样本个数，我们可

以降低variance4.当我们减少训练单个学习器的样本个数，我们可

以降低bias

A、2和4

B、2和3

C、1和3

D、1和4

答案：C

解析：最小样本分裂个数是用来控制“过拟合”参数。太高的值

会导致“欠拟合”，这个参数应该用交叉验证来调节。第二点是靠

bias和variance概念的。

2.以下哪个图是KNN算法的训练边界

A、B

B、A

C、D

D、C

E、都不是

答案：B

解析：KNN即K近邻算法，其基本思想是先选择和测试数据距

离最近的K个已知类别的训练数据，然后将多数样本的类别作为测

试数据的类别。KNN不需要训练模型参数，它实际上是利训练数据

集对特征向量空间进行划分，并将其作为分类的“模型”，K值的选

择、距离度量、分类决策规则（一般为多数表决）是KNN的三个基

本要素。KNN算法的训练边界一定不是直线，另外这个算法是看周

围最近的k个样本的类别从而确定分类，所以边界一定是坑坑洼洼的。

3.如果一个训练好的模型在测试集上有100%的准确率，这是不

是意味着在一个新的数据集上，也会有同样好的表现？

A、是的，这说明这个模型的范化能力已经足以支持新的数据集

合了

B、不对，依然后其他因素模型没有考虑到，比如噪音数据

答案：B

解析：没有一个模型是可以总是适应新数据的。我们不可能可到

100%准确率。

4.下面的交叉验证方法i.有放回的Bootstrap方法ii.留一个测试

样本的交叉验证iii.5折交叉验证iv.重复两次的5折教程验证当样本

是1000时，下面执行时间的顺序，正确的是

A、iiiiiiiv

B、iiiviiii

C、iviiiiii

D、iiiiiivi

答案：B

解析：Boostrap方法是传统地随机抽样，验证一次的验证方法，

只需要训练1次模型，所以时间最少。留一个测试样本的交叉验证，

需要n次训练过程（n是样本个数），这里，要训练1000个模型。

5折交叉验证需要训练5个模型。重复2次的5折交叉验证，需要

训练10个模型。所有B是正确的

5.变量选择是用来选择最好的判别器子集，如果要考虑模型效率，

我们应该做哪些变量选择的考虑？1.多个变量其实有相同的用处2.

变量对于模型的解释有多大作用3.特征携带的信息4.交叉验证

A、1和4

B、1,2和3

C、1,3和4

D、以上所有

答案：C

解析：注意，这题的题眼是考虑模型效率，所以不要考虑选项

6.对于线性回归模型，增加一个特征变量，以下可能正确的

是:1.R-Squared和AdjustedR-squared都是递增的2.R-Squared

是常量的，AdjustedR-squared是递增的3.R-Squared是递减的，

AdjustedR-squared也是递减的4.R-Squared是递减的，Adjusted

R-squared是递增的

A、1和2

B、1和3

C、2和4

D、以上都不是

答案：A

7.对于下面三个模型的训练情况，下面说法正确的是:

1.第一张图的训练错误与其余两张图相比，是最大的2.最后一张

图的训练效果最好，因为训练错误最小3.第二张图比第一和第三张图

鲁棒性更强，是三个里面表现最好的模型4.第三张图相对前两张图过

拟合了5.三个图表现一样，因为我们还没有测试数据集

A、1和3

B、2和3

C、1,3和4

D、5

答案：C

解析：第一张图训练的模型对数据的拟合效果太差，训练误差最

大，属于欠拟合，1对；第二张图训练的模型对数据的拟合效果较好，

鲁棒性最强，模型表现最好，3对；第三张图训练的模型对数据的拟

合效果最好，训练误差最小，但是属于过拟合，在测试集上的误差会

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

《机器学习》期末学习题库.pdfVIP