2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1101）.docxVIP

下载本文档

1
0
约7.22千字
约 11页
2025-11-03 发布于上海
举报
版权申诉

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1101）.docx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据工程师职业资格认证考试试卷

一、单项选择题（共10题，每题1分，共10分）

HDFS默认数据块大小为？

A.32MB

B.64MB

C.128MB

D.256MB

答案：C

解析：Hadoop2.x及以上版本中，HDFS默认数据块大小为128MB（早期1.x版本为64MB）。设计大块大小的目的是减少NameNode元数据内存占用，提升大文件读写效率。选项A、B为旧版本或非默认值，D为常见自定义配置值，均非默认。

SparkRDD的核心特性不包括？

A.不可变性

B.自动持久化

C.可分区

D.惰性计算

答案：B

解析：RDD（弹性分布式数据集）的核心特性包括：不可变性（创建后不可修改，仅通过转换生成新RDD）、可分区（分布式存储的基础）、惰性计算（转换操作仅记录逻辑，行动操作触发计算）。自动持久化并非RDD固有特性，需显式调用cache()或persist()实现。

Flink中处理事件时间乱序数据的核心机制是？

A.窗口触发

B.水印（Watermark）

C.状态后端

D.检查点（Checkpoint）

答案：B

解析：水印机制通过设定“事件时间已到达某一时刻”的标识，告知Flink系统不再接收该时间点之前的数据，从而允许系统处理乱序数据并触发窗口计算。窗口触发是结果输出的动作，状态后端管理状态存储，检查点用于容错，均非处理乱序的核心。

Kafka生产者中，acks=all表示？

A.无需等待Broker确认

B.仅等待Leader确认

C.等待Leader和所有ISR副本确认

D.等待任意一个副本确认

答案：C

解析：Kafka的acks参数控制消息确认机制：acks=0（无需确认）、acks=1（Leader确认）、acks=all（Leader和所有同步副本（ISR）确认）。选项C正确，其他选项对应不同acks值。

HBase的RowKey设计原则中，错误的是？

A.长度越短越好

B.散列化以避免热点

C.按业务逻辑排序

D.包含时间戳以支持历史查询

答案：A

解析：HBaseRowKey需平衡长度与信息完整性，过短可能导致冲突，通常建议不超过16字节（而非“越短越好”）。其他选项均为正确原则：散列化（如加盐）避免Region热点，排序性支持范围查询，时间戳可按时间维度检索。

数据仓库（DW）的核心特性不包括？

A.面向事务

B.面向主题

C.集成性

D.时变性

答案：A

解析：数据仓库的核心特性是面向主题（按业务主题组织数据）、集成性（多源数据清洗整合）、稳定性（读多写少，支持历史数据）、时变性（包含时间维度）。面向事务是OLTP数据库的特性。

分布式计算框架中，容错机制的实现不依赖？

A.检查点（Checkpoint）

B.日志重放

C.数据多副本

D.动态扩缩容

答案：D

解析：容错机制通过检查点（存储计算状态）、日志重放（重新执行任务）、数据多副本（如HDFS的3副本）实现。动态扩缩容是弹性计算能力，与容错无直接关联。

数据湖（DataLake）与数据仓库（DW）的关键区别是？

A.数据存储量

B.数据结构化程度

C.数据时效性

D.数据安全性

答案：B

解析：数据湖支持结构化、半结构化、非结构化数据（“存而不治”），数据仓库仅存储结构化数据（“先建模后存储”）。其他选项（存储量、时效性、安全性）非核心差异。

机器学习特征工程中，“将用户访问频率从‘高/中/低’转换为数值1/2/3”属于？

A.特征提取

B.特征选择

C.特征构造

D.特征编码

答案：D

解析：特征编码是将类别型特征转换为数值型的过程（如独热编码、标签编码）。特征提取（从原始数据抽取新特征）、特征选择（筛选关键特征）、特征构造（组合现有特征生成新特征）均不符合题意。

实时计算框架的典型延迟指标是？

A.分钟级

B.秒级

C.小时级

D.天级

答案：B

解析：实时计算要求低延迟（通常秒级或毫秒级），批处理为分钟级或小时级。秒级是流处理框架（如Flink）的典型延迟指标。

二、多项选择题（共10题，每题2分，共20分）

以下属于Hadoop生态核心组件的有？

A.HDFS

B.Spark

C.YARN

D.MapReduce

答案：ACD

解析：Hadoop核心组件包括HDFS（分布式存储）、YARN（资源管理）、MapReduce（批处理计算）。Spark是独立的计算框架，属于大数据生态但非Hadoop原生组件。

Spark的核心模块包括？

A.SparkCore

B.SparkSQL

C.SparkStreaming

D.SparkMLlib

答案：ABCD

解析：Spark生态包含Core（基础API）、SQL（结构化数据处

您可能关注的文档

文档评论（0）

eureka + 关注: 实名认证

文档贡献者

中国证券投资基金业从业证书、计算机二级持证人

好好学习，天天向上

咨询Ta 进入空间

领域认证该用户于2025年03月25日上传了中国证券投资基金业从业证书、计算机二级

1亿VIP精品文档

更多 >

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1101）.docxVIP