《机器学习》期末学习题库.pdfVIP

  • 0
  • 0
  • 约6.03千字
  • 约 11页
  • 2026-01-18 发布于江西
  • 举报

《机器学习》期末学习题库

1.对应GradientBoostingtree算法,以下说法正确的是:1.当增

加最小样本分裂个数,我们可以抵制过拟合2.当增加最小样本分裂个

数,会导致过拟合3.当我们减少训练单个学习器的样本个数,我们可

以降低variance4.当我们减少训练单个学习器的样本个数,我们可

以降低bias

A、2和4

B、2和3

C、1和3

D、1和4

答案:C

解析:最小样本分裂个数是用来控制“过拟合”参数。太高的值

会导致“欠拟合”,这个参数应该用交叉验证来调节。第二点是靠

bias和variance概念的。

2.以下哪个图是KNN算法的训练边界

A、B

B、A

C、D

D、C

E、都不是

答案:B

解析:KNN即K近邻算法,其基本思想是先选择和测试数据距

离最近的K个已知类别的训练数据,然后将多数样本的类别作为测

试数据的类别。KNN不需要训练模型参数,它实际上是利训练数据

集对特征向量空间进行划分,并将其作为分类的“模型”,K值的选

择、距离度量、分类决策规则(一般为多数表决)是KNN的三个基

本要素。KNN算法的训练边界一定不是直线,另外这个算法是看周

围最近的k个样本的类别从而确定分类,所以边界一定是坑坑洼洼的。

3.如果一个训练好的模型在测试集上有100%的准确率,这是不

是意味着在一个新的数据集上,也会有同样好的表现?

A、是的,这说明这个模型的范化能力已经足以支持新的数据集

合了

B、不对,依然后其他因素模型没有考虑到,比如噪音数据

答案:B

解析:没有一个模型是可以总是适应新数据的。我们不可能可到

100%准确率。

4.下面的交叉验证方法i.有放回的Bootstrap方法ii.留一个测试

样本的交叉验证iii.5折交叉验证iv.重复两次的5折教程验证当样本

是1000时,下面执行时间的顺序,正确的是

A、iiiiiiiv

B、iiiviiii

C、iviiiiii

D、iiiiiivi

答案:B

解析:Boostrap方法是传统地随机抽样,验证一次的验证方法,

只需要训练1次模型,所以时间最少。留一个测试样本的交叉验证,

需要n次训练过程(n是样本个数),这里,要训练1000个模型。

5折交叉验证需要训练5个模型。重复2次的5折交叉验证,需要

训练10个模型。所有B是正确的

5.变量选择是用来选择最好的判别器子集,如果要考虑模型效率,

我们应该做哪些变量选择的考虑?1.多个变量其实有相同的用处2.

变量对于模型的解释有多大作用3.特征携带的信息4.交叉验证

A、1和4

B、1,2和3

C、1,3和4

D、以上所有

答案:C

解析:注意,这题的题眼是考虑模型效率,所以不要考虑选项

2.

6.对于线性回归模型,增加一个特征变量,以下可能正确的

是:1.R-Squared和AdjustedR-squared都是递增的2.R-Squared

是常量的,AdjustedR-squared是递增的3.R-Squared是递减的,

AdjustedR-squared也是递减的4.R-Squared是递减的,Adjusted

R-squared是递增的

A、1和2

B、1和3

C、2和4

D、以上都不是

答案:A

7.对于下面三个模型的训练情况,下面说法正确的是:

1.第一张图的训练错误与其余两张图相比,是最大的2.最后一张

图的训练效果最好,因为训练错误最小3.第二张图比第一和第三张图

鲁棒性更强,是三个里面表现最好的模型4.第三张图相对前两张图过

拟合了5.三个图表现一样,因为我们还没有测试数据集

A、1和3

B、2和3

C、1,3和4

D、5

答案:C

解析:第一张图训练的模型对数据的拟合效果太差,训练误差最

大,属于欠拟合,1对;第二张图训练的模型对数据的拟合效果较好,

鲁棒性最强,模型表现最好,3对;第三张图训练的模型对数据的拟

合效果最好,训练误差最小,但是属于过拟合,在测试集上的误差会

文档评论(0)

1亿VIP精品文档

相关文档