2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1221).docxVIP

2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1221).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据工程师职业资格认证考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下关于HDFS(Hadoop分布式文件系统)的描述中,正确的是?

A.NameNode负责存储数据块副本

B.DataNode存储文件元数据信息

C.单个文件默认块大小为128MB(Hadoop2.x)

D.不支持追加写操作

答案:C

解析:HDFS中NameNode管理元数据(如文件目录、块位置),DataNode存储实际数据块(A、B错误);Hadoop2.x默认块大小为128MB(C正确);HDFS2.x及以上版本支持追加写操作(D错误)。

Spark中RDD(弹性分布式数据集)的特性不包括?

A.不可变(Immutable)

B.分区(Partitioned)

C.惰性计算(LazyEvaluation)

D.自动持久化(Auto-Persist)

答案:D

解析:RDD具有不可变性、分区性和惰性计算特性(A、B、C正确);RDD默认不持久化,需通过persist()或cache()手动设置(D错误)。

Kafka中“消费者组(ConsumerGroup)”的核心作用是?

A.保证消息按顺序消费

B.实现消息的广播和负载均衡

C.存储消息的元数据

D.管理生产者的连接

答案:B

解析:消费者组通过将分区分配给组内消费者,实现消息负载均衡(同一组内消费者共同消费分区);不同组间可独立消费同一主题,实现广播(B正确)。消息顺序仅在单个分区内保证(A错误);元数据由ZooKeeper或Kafka自身管理(C错误);生产者连接由客户端管理(D错误)。

以下属于列式存储数据库的是?

A.MySQL

B.HBase

C.Redis

D.MongoDB

答案:B

解析:HBase基于HDFS,采用列式存储(B正确);MySQL是关系型(行式)、Redis是键值型、MongoDB是文档型(A、C、D错误)。

数据仓库(DataWarehouse)的核心特征是?

A.支持高并发事务操作

B.面向主题(Subject-Oriented)

C.实时更新数据

D.存储原始未加工数据

答案:B

解析:数据仓库面向主题组织数据(B正确);支持分析而非事务(A错误);数据定期批量更新(C错误);存储经过清洗、整合的历史数据(D错误)。

Flink中“窗口(Window)”的主要作用是?

A.控制流数据的传输速率

B.将无限流划分为有限的处理单元

C.管理状态的生命周期

D.实现流与批的统一处理

答案:B

解析:窗口机制将无限流按时间或事件数划分为有限的可计算窗口(B正确);传输速率由反压机制控制(A错误);状态管理由状态后端负责(C错误);流批统一通过DataSet和DataStreamAPI实现(D错误)。

以下不属于数据清洗(DataCleaning)范畴的是?

A.处理缺失值(MissingValues)

B.纠正重复记录(Duplicates)

C.转换数据格式(如日期格式统一)

D.构建数据立方体(DataCube)

答案:D

解析:数据清洗包括缺失值处理、去重、格式转换等(A、B、C正确);数据立方体是OLAP的建模方法(D错误)。

分布式系统中“CAP定理”指的是?

A.一致性(Consistency)、可用性(Availability)、分区容错性(PartitionTolerance)

B.一致性、原子性(Atomicity)、持久性(Persistence)

C.容量(Capacity)、可扩展性(Scalability)、性能(Performance)

D.认证(Authentication)、授权(Authorization)、审计(Audit)

答案:A

解析:CAP定理定义了分布式系统中一致性、可用性、分区容错性三者无法同时满足(A正确);B是ACID特性(数据库事务),C是系统设计目标,D是安全三要素(B、C、D错误)。

以下Hive(Hadoop数据仓库工具)的说法中,错误的是?

A.基于HQL(HiveQueryLanguage)

B.支持实时查询

C.元数据存储在关系型数据库(如MySQL)

D.底层计算引擎可切换为Spark

答案:B

解析:Hive将HQL转换为MapReduce(或Spark)任务,属于批处理,不支持实时查询(B错误);其他选项均正确(A、C、D正确)。

数据挖掘(DataMining)中“关联规则挖掘”的经典算法是?

A.K-means

B.Apriori

C.SVM(支持向量机)

D.决策树

答案:B

解析:Apriori是关联规则挖掘的经典算法(B正确);K-means是聚类算法,SVM是分类算法

文档评论(0)

MenG + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档