大数据开发基础习题库(2025年第6部分).pdfVIP

大数据开发基础习题库(2025年第6部分).pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据开发基础习题库(2025年第6部分)

(该部分共500题)

1.[单选题]下列哪个不是RDD的缓存方法()

A)persist()

B)cache()

C)memory()

答案:C

解析:

2.[单选题]()算法假设聚类结构能通过样本分布的紧密程度确定

A)原型聚类

B)密度聚类

C)层次聚类

答案:B

解析:

3.[单选题]下列关于舍恩伯格对大数据特点的说法中,错误的是()。

A)数据规模大

B)数据类型多样

C)数据处理速度快

D)数据价值密度高

答案:D

解析:

4.[单选题]()是表现数据分布对称性的指标。

A)斜率

B)偏斜度

C)偏度

D)偏离度

答案:B

解析:偏斜度是对统计数据分布偏斜方向及程度的度量。在偏态分布中,当偏斜度为正值时,分布正偏,即众数位于算术平

均数的左侧;当偏斜度为负值时,分布负偏,即众数位于算术平均数的右侧。

5.[单选题](__)不是描述统计的基本类型。

A)集中趋势分析

B)无关分析

C)相关分析

D)离中趋势分析

答案:B

解析:

6.[单选题]()属于Spark框架中的可扩展机器学习库。

A)MLib

B)GraphX

C)Streaming

D)SparkSQL

1/77

答案:A

解析:MLib是可扩展机器学习库。

7.[单选题]DRDS的读策略中不包含:()

A)主库读

B)均衡

C)自定义

D)主库写

答案:D

解析:

8.[单选题]关于Spark中SparkSQL描述不准确的是?

A)SparkSQL使用场景包括毫秒级实时查询

B)SQL语句通过SparkSQL模块解析为DAG,交给SparkCore执行

C)通过Sparksession提交SQL语句,任务像Spark应用一样,提交到集群中分布式运行。

D)SparksQL是Spark用来处理结构化数据的一个模块,可以在spark应用中接使用SQL语句对数据进行操作。

答案:A

解析:

9.[单选题]关于Pandas中数据排序,下列说法正确的是()

A)即可以按照行索引排序,也可以按照列索引排序

B)sort_index()方法表示按照值进行排序

C)sort_values()方法表示按照索引进行排序

D)默认情况下,sort_index()方法按照降序排列

答案:A

解析:

10.[单选题]以下说法中:①一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的;②如果增加模型复杂

度,那么模型的测试错误率总是会降低;③如果增加模型复杂度,那么模型的训练错误率总是会降低,正确的是()

A)1

B)2

C)3

D)1,3

答案:C

解析:

11.[单选题]假设属性的取值范围是-957~924,当属性的值为426时,采用小数定标规范化方法对应的转换结果是:()

A)0.421

B)0.433

C)0.426

D)0.489

答案:C

解析:二、多选题

12.[单选题]Flume中的JDBCChanne1内置数据库是哪个?

A)Derby

B)Oracle

C)sqlServer

D)MySql

答案:A

解析:

2/77

13.[单选题]启动hadoop所有进程的命令是()。

A)start-dfs.sh

B)start-all.sh

C)start-hadoop.sh

D)start-hdfs.sh

答案:B

解析:

14.[单选题]长短时记忆神经网络被设计用来解决的问题是()

A)传统RNN存在的梯皮消失

文档评论(0)

wangyuande + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档