大数据开发基础习题库(2025年第6部分).pdfVIP

下载本文档

1
0
约6.97万字
约 77页
2025-05-05 发布于重庆
举报
版权申诉

大数据开发基础习题库(2025年第6部分).pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据开发基础习题库(2025年第6部分)

(该部分共500题)

1.[单选题]下列哪个不是RDD的缓存方法（）

A)persist()

B)cache()

C)memory()

答案:C

解析:

2.[单选题]()算法假设聚类结构能通过样本分布的紧密程度确定

A)原型聚类

B)密度聚类

C)层次聚类

答案:B

解析:

3.[单选题]下列关于舍恩伯格对大数据特点的说法中，错误的是（）。

A)数据规模大

B)数据类型多样

C)数据处理速度快

D)数据价值密度高

答案:D

解析:

4.[单选题]()是表现数据分布对称性的指标。

A)斜率

B)偏斜度

C)偏度

D)偏离度

答案:B

解析:偏斜度是对统计数据分布偏斜方向及程度的度量。在偏态分布中,当偏斜度为正值时,分布正偏,即众数位于算术平

均数的左侧;当偏斜度为负值时,分布负偏,即众数位于算术平均数的右侧。

5.[单选题](__)不是描述统计的基本类型。

A)集中趋势分析

B)无关分析

C)相关分析

D)离中趋势分析

答案:B

解析:

6.[单选题]()属于Spark框架中的可扩展机器学习库。

A)MLib

B)GraphX

C)Streaming

D)SparkSQL

1/77

答案:A

解析:MLib是可扩展机器学习库。

7.[单选题]DRDS的读策略中不包含：（）

A)主库读

B)均衡

C)自定义

D)主库写

答案:D

解析:

8.[单选题]关于Spark中SparkSQL描述不准确的是？

A)SparkSQL使用场景包括毫秒级实时查询

B)SQL语句通过SparkSQL模块解析为DAG，交给SparkCore执行

C)通过Sparksession提交SQL语句,任务像Spark应用一样，提交到集群中分布式运行。

D)SparksQL是Spark用来处理结构化数据的一个模块,可以在spark应用中接使用SQL语句对数据进行操作。

答案:A

解析:

9.[单选题]关于Pandas中数据排序，下列说法正确的是（）

A)即可以按照行索引排序，也可以按照列索引排序

B)sort_index()方法表示按照值进行排序

C)sort_values()方法表示按照索引进行排序

D)默认情况下，sort_index()方法按照降序排列

答案:A

解析:

10.[单选题]以下说法中:①一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的;②如果增加模型复杂

度，那么模型的测试错误率总是会降低;③如果增加模型复杂度，那么模型的训练错误率总是会降低，正确的是()

A)1

B)2

C)3

D)1,3

答案:C

解析:

11.[单选题]假设属性的取值范围是-957~924，当属性的值为426时，采用小数定标规范化方法对应的转换结果是：()

A)0.421

B)0.433

C)0.426

D)0.489

答案:C

解析:二、多选题

12.[单选题]Flume中的JDBCChanne1内置数据库是哪个?

A)Derby

B)Oracle

C)sqlServer

D)MySql

答案:A

解析:

2/77

13.[单选题]启动hadoop所有进程的命令是（）。

A)start-dfs.sh

B)start-all.sh

C)start-hadoop.sh

D)start-hdfs.sh

答案:B

解析:

14.[单选题]长短时记忆神经网络被设计用来解决的问题是()

A)传统RNN存在的梯皮消失

您可能关注的文档

文档评论（0）

wangyuande + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据开发基础习题库(2025年第6部分).pdfVIP