大数据开发基础习题库(2025年第14部分).pdfVIP

大数据开发基础习题库(2025年第14部分).pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据开发基础习题库(2025年第14部分)

(该部分共500题)

1.[单选题]HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input

split大小为?

A)64MB

B)75MB

C)一个map读取64MB,另外一个map读取11MB

答案:B

解析:问inputsplit输入拆分的话:gzip算法不支持split,lzo压缩/解压支持split(需要建索引,文件修改后需要重

新建索引)

2.[单选题]假设有n组数据集,每组数据集中,x的平均值都是9,x的方差都是11,y的平均值都是7.50,x与y的相关系数都是

0.816,拟合的线性回归方程都是y=3.00+0.500x。那么这n组数据集()。

A)一样

B)不一样

C)无法确定是否一样

答案:C

解析:只比较平均值、方差、相关系数和回归方程,无法确定数据集是否相同,还需比较Anscombesquartet。

3.[单选题]HBase中数据存储的文件格式是下面哪-项?

A)SequenceFile

B)Hfile

C)TextFile

D)HLog

答案:B

解析:

4.[单选题]以下描述不正确的是(__)。

A)干净数据是相对于“脏数据”的一种提法

B)整齐数据是相对于“乱数据”的一种提法

C)存在缺失值的数据是乱数据

D)数据质量有问题是脏数据

答案:C

解析:

5.[单选题]我国首家大数据交易所是:()

A)貴阳大数据交易所

B)上海数据交易中心

C)华东江苏大数据交易中心

D)浙江大数据交易中心

答案:A

解析:

6.[单选题]执行以下代码段cars=[bmw,audi,toyota,subaru]cars.sort()print(cars)时,输出为()。

A)[audi,bmw,subaru,toyota]

B)[toyota,subaru,bmw,audi]

1/78

C)[bmw,audi,toyota,subaru]

D)[bmw,toyota,audi,subaru]

答案:A

解析:

7.[单选题]下列关于图像平滑的叙述错误的是()。

A)可以减少噪声

B)可以使图像变得均匀

C)图像的细节部分可以不保持原有特征

D)可以采用基于卷积的滤波方法

答案:C

解析:图像平滑的过程中,图像的细节部分保持原有特征。

8.[单选题]下列选项中,不是Python语言特点的是()。

A)简洁

B)开源

C)面向过程

D)可移植

答案:C

解析:

9.[单选题]创建一个3x3的数组,下列代码中错误的是()。

A)np.arange(0,9).reshape(3,3)

B)np.eye(3)

C)np.random.random([3,3,3])

D)np.mat(123;456;789)

答案:C

解析:

10.[单选题]大数据正快速发展为对数量巨大.来源分散.格式多样的数据进行采集.存储和关联分析,从中发现新知识

.创造新价值.提升新能力的()。

A)新一代信息技术

B)新一代服务业态

C)新一代技术平台

D)新一代信息技术和服务业态

答案:D

解析:

11.[单选题]()是用来解决海量大数据文件存储问题的,是目前应用最广泛的分布式文件系统。

A)HDFS

B)HBase

C)HIve

D)Kafka

答案:A

解析:

12.[单选题]用来插入数据的命令是(),用于更新的命令是()

A)INSERT,UPDATE

B)CREATE,INSERTINTO

C)DELETE,UPDATE

D)UPDATE,INSERT

文档评论(0)

wangyuande + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档