2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1124).docxVIP

2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1124).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据工程师职业资格认证考试试卷

一、单项选择题(共10题,每题1分,共10分)

大数据的核心特征“4V”不包括以下哪项?

A.Volume(大量)

B.Velocity(高速)

C.Veracity(真实性)

D.Variety(多样)

答案:C

解析:大数据的经典“4V”特征为Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)。Veracity(真实性)是部分扩展定义中提及的补充特征,但不属于核心“4V”。

HDFS默认的块大小是?

A.32MB

B.64MB

C.128MB

D.256MB

答案:C

解析:HDFS设计用于存储大文件,默认块大小为128MB(Hadoop2.x及以上版本),较大的块大小可减少NameNode元数据存储压力,并提升数据传输效率。

Spark中RDD的persist()方法默认的持久化级别是?

A.MEMORY_ONLY

B.MEMORY_AND_DISK

C.MEMORY_ONLY_SER

D.DISK_ONLY

答案:A

解析:persist()默认使用MEMORY_ONLY级别,即仅将RDD存储在内存中,不进行序列化;若内存不足则部分分区会被丢弃,需重新计算。

Flink中用于处理乱序事件的时间类型是?

A.处理时间(ProcessingTime)

B.事件时间(EventTime)

C.摄入时间(IngestionTime)

D.窗口时间(WindowTime)

答案:B

解析:事件时间(EventTime)基于数据本身携带的时间戳,是处理乱序数据的核心机制;处理时间基于算子处理数据的系统时间,无法应对乱序场景。

Hive中推荐使用的列式存储格式是?

A.TextFile

B.SequenceFile

C.ORC

D.Avro

答案:C

解析:ORC(OptimizedRowColumnar)是Hive优化的列式存储格式,支持高效压缩、索引和谓词下推,相比TextFile等行式存储能显著提升查询性能。

Kafka中消费者组(ConsumerGroup)的核心作用是?

A.保证消息有序性

B.实现负载均衡

C.提高生产者吞吐量

D.管理主题分区

答案:B

解析:消费者组通过将主题分区分配给组内不同消费者,实现消息的并行消费,从而达到负载均衡的目的;同一分区内消息对组内消费者是独占的。

以下哪种分布式计算框架更适合迭代计算场景?

A.MapReduce

B.Spark

C.Storm

D.Flink

答案:B

解析:Spark基于内存计算的RDD模型,支持数据在内存中多次迭代使用,相比MapReduce(每次计算需读写磁盘)更适合机器学习等迭代场景。

数据仓库分层中,用于存储明细数据的层是?

A.ODS(原始数据层)

B.DWD(明细数据层)

C.DWS(汇总数据层)

D.ADS(应用数据层)

答案:B

解析:DWD(DataWarehouseDetail)层存储经过清洗、规范化的明细数据,是数据仓库的核心层;ODS层为原始数据的直接镜像,未做深度处理。

HBase属于以下哪种NoSQL数据库类型?

A.键值存储(Key-Value)

B.列族存储(Column-Family)

C.文档存储(Document)

D.图存储(Graph)

答案:B

解析:HBase基于GoogleBigtable设计,采用列族(ColumnFamily)存储模型,适合存储海量稀疏数据(如日志、时序数据)。

机器学习中,对特征进行“归一化”处理的主要目的是?

A.减少特征数量

B.消除特征量纲差异

C.提高模型泛化能力

D.增强特征可解释性

答案:B

解析:归一化(如Min-MaxScaling)通过将特征值缩放到[0,1]区间,消除不同特征因量纲(如米和千克)导致的数值差异,避免模型对大数值特征过度敏感。

二、多项选择题(共10题,每题2分,共20分)

以下属于Hadoop核心生态组件的有?

A.HDFS

B.YARN

C.MapReduce

D.Hive

答案:ABCD

解析:Hadoop核心生态包括存储层(HDFS)、资源管理层(YARN)、计算框架(MapReduce),以及上层工具(Hive)。HBase、Spark等属于扩展组件。

Spark的部署模式包括?

A.Standalone

B.YARN

C.Mesos

D.Kubernetes

答案:ABCD

解析:Spark支持Standalone(独立集群)、YARN(Hadoop资源管理)、Mesos(通用资源管理)和Kubernetes(容器编排)四种部署模式。

数据清洗的主要

文档评论(0)

eureka + 关注
实名认证
文档贡献者

中国证券投资基金业从业证书、计算机二级持证人

好好学习,天天向上

领域认证该用户于2025年03月25日上传了中国证券投资基金业从业证书、计算机二级

1亿VIP精品文档

相关文档