大数据理论考试(试卷编号151) .pdfVIP

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据理论考试(试卷编号151)

1.[单选题]SVM在下列哪种情况下表现糟糕:()。

A)线性可分数据

B)清洗过的数据

C)含噪声数据与重叠数据

答案:C

解析:SVM含噪声数据与重叠数据点下表现糟糕。

2.[单选题]表达式int(101,2)的值为()。

A)5

B)6

C)10

D)3

答案:A

解析:二进制101等于5

3.[单选题]假如使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在

,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是

()。

A)训练样本准确率一定会降低

B)训练样本准确率一定增加或保持不变

C)测试样本准确率一定会降低

D)测试样本准确率一定增加或保持不

答案:B

解析:在模型中增加更多特征一般会增加训练样本的准确率,减小偏差。但测试样本准确率不一定增

加,除非增加的特征是有效特征。

4.[单选题]np.exp(x).round(5)的结果是2.71828,x的值是()。

A)0

B)1

C)2

D)2.71828

答案:B

解析:e的1次方。

5.[单选题]关于Python的全局变量和局部变量,以下选项中描述错误的是()。

A)局部变量指在函数内部使用的变量,当函数退出时,变量依然存在,下次函数调用可以继续使用

B)使用global保留字声明简单数据类型变量后,该变量作为全局变量使用

C)简单数据类型变量无论是否与全局变量重名,仅在函数内部创建和使用,函数退出后变量被释放

D)全局变量指在函数之外定义的变量,一般没有缩进,在程序执行全过程有效

答案:A

解析:局部变量指在函数内部使用的变量,当函数退出时,变量即不存在。

6.[单选题]()是人们从(多条)信息中发现的共性规律、模式、模型、理论和方法等。

A)信息

B)知识

C)理解

D)智慧

答案:B

解析:知识上人们从数据、信息中发现的,在数据/信息中存在的共性规律、认识、经验与常识。通

常根据能否清晰地表述和有效的转移,将知识分为两种:显性知识(ExplicitKnowledge)和隐性知

识(TacitKnowledge)。

7.[单选题]下列哪个神经网络结构会发生权重共享(__)。

A)卷积神经网络

B)循环神经网络

C)全连接神经网络

D)选项A和

答案:D

解析:CNN与RNN网络会发生权重共享。

8.[单选题]下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素()。

A)多项式的阶数

B)是否通过矩阵求逆或梯度下降学习权重

C)使用常数项

D)使用正则化

答案:A

解析:选取合适的多项式阶数对于回归的拟合程度会产生重要的影响。多项式阶数越高,越容易产生

过拟合现象。

9.[单选题]下列关于特征编码的叙述中,不正确的是()。

A)特征编码是将非数值型特征转换成数值型特征的方法;

B)数字编码与特征的排序无关;

C)One-Hot编码中,原始特征有n种取值,转换后就会产生n列新特征;

D)哑变量编码解决了One-Hot编码中存在线性关系的问题;

答案:B

解析:数字编码与特征的排序有关,先出现的优先排序。

10.[单选题]若建立一个5000个特征,100万数据的机器学习模型,则应该怎么有效地应对这样的大数

据训练()。

A)随机抽取一些样本,在这些少量样本之上训练

B)可以试用在线机器学习算法

C)应用P算法降维,减少特征数

D)以上答案都正

答案:D

解析:样本数过多,或者特征数过多,而不能单机完成训练,可以用小批量样本训练,或者在线累计

式训练,或者主成分PCA降维方式减少特征数量再进行训练。

11.[单选题]结构化数组不能使用以下哪种数据类型创建()。

A)元组列表

B)字符串

C)字典

D)整数

答案:D

解析:结构化数组类型创建有四种不同的规范形式:元组列表、逗号分割的数据类型规范字符串、字

段参数组字典、字段名称字典,不包含整数。

12.[单选题]文档是待处理的数据对象,它由一组词组成,这些词在文档中不计顺序的额,例如一篇

论文、一个网页都可以看做一个文档;这样的表示方式称为()。

A)语句

B)词袋

C)词海

D)词

答案:B

解析:词袋模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现

方式不考虑文法以及词的顺序。

13.[单选题]以下哪一个不是长短时记忆神经网络三个门中中的一个门()

A)输入门

B)输出门

C)遗忘门

D)进化门

答案:D

文档评论(0)

175****9697 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档