2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1101).docxVIP

2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1101).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据工程师职业资格认证考试试卷

一、单项选择题(共10题,每题1分,共10分)

HDFS默认数据块大小为?

A.32MB

B.64MB

C.128MB

D.256MB

答案:C

解析:Hadoop2.x及以上版本中,HDFS默认数据块大小为128MB(早期1.x版本为64MB)。设计大块大小的目的是减少NameNode元数据内存占用,提升大文件读写效率。选项A、B为旧版本或非默认值,D为常见自定义配置值,均非默认。

SparkRDD的核心特性不包括?

A.不可变性

B.自动持久化

C.可分区

D.惰性计算

答案:B

解析:RDD(弹性分布式数据集)的核心特性包括:不可变性(创建后不可修改,仅通过转换生成新RDD)、可分区(分布式存储的基础)、惰性计算(转换操作仅记录逻辑,行动操作触发计算)。自动持久化并非RDD固有特性,需显式调用cache()或persist()实现。

Flink中处理事件时间乱序数据的核心机制是?

A.窗口触发

B.水印(Watermark)

C.状态后端

D.检查点(Checkpoint)

答案:B

解析:水印机制通过设定“事件时间已到达某一时刻”的标识,告知Flink系统不再接收该时间点之前的数据,从而允许系统处理乱序数据并触发窗口计算。窗口触发是结果输出的动作,状态后端管理状态存储,检查点用于容错,均非处理乱序的核心。

Kafka生产者中,acks=all表示?

A.无需等待Broker确认

B.仅等待Leader确认

C.等待Leader和所有ISR副本确认

D.等待任意一个副本确认

答案:C

解析:Kafka的acks参数控制消息确认机制:acks=0(无需确认)、acks=1(Leader确认)、acks=all(Leader和所有同步副本(ISR)确认)。选项C正确,其他选项对应不同acks值。

HBase的RowKey设计原则中,错误的是?

A.长度越短越好

B.散列化以避免热点

C.按业务逻辑排序

D.包含时间戳以支持历史查询

答案:A

解析:HBaseRowKey需平衡长度与信息完整性,过短可能导致冲突,通常建议不超过16字节(而非“越短越好”)。其他选项均为正确原则:散列化(如加盐)避免Region热点,排序性支持范围查询,时间戳可按时间维度检索。

数据仓库(DW)的核心特性不包括?

A.面向事务

B.面向主题

C.集成性

D.时变性

答案:A

解析:数据仓库的核心特性是面向主题(按业务主题组织数据)、集成性(多源数据清洗整合)、稳定性(读多写少,支持历史数据)、时变性(包含时间维度)。面向事务是OLTP数据库的特性。

分布式计算框架中,容错机制的实现不依赖?

A.检查点(Checkpoint)

B.日志重放

C.数据多副本

D.动态扩缩容

答案:D

解析:容错机制通过检查点(存储计算状态)、日志重放(重新执行任务)、数据多副本(如HDFS的3副本)实现。动态扩缩容是弹性计算能力,与容错无直接关联。

数据湖(DataLake)与数据仓库(DW)的关键区别是?

A.数据存储量

B.数据结构化程度

C.数据时效性

D.数据安全性

答案:B

解析:数据湖支持结构化、半结构化、非结构化数据(“存而不治”),数据仓库仅存储结构化数据(“先建模后存储”)。其他选项(存储量、时效性、安全性)非核心差异。

机器学习特征工程中,“将用户访问频率从‘高/中/低’转换为数值1/2/3”属于?

A.特征提取

B.特征选择

C.特征构造

D.特征编码

答案:D

解析:特征编码是将类别型特征转换为数值型的过程(如独热编码、标签编码)。特征提取(从原始数据抽取新特征)、特征选择(筛选关键特征)、特征构造(组合现有特征生成新特征)均不符合题意。

实时计算框架的典型延迟指标是?

A.分钟级

B.秒级

C.小时级

D.天级

答案:B

解析:实时计算要求低延迟(通常秒级或毫秒级),批处理为分钟级或小时级。秒级是流处理框架(如Flink)的典型延迟指标。

二、多项选择题(共10题,每题2分,共20分)

以下属于Hadoop生态核心组件的有?

A.HDFS

B.Spark

C.YARN

D.MapReduce

答案:ACD

解析:Hadoop核心组件包括HDFS(分布式存储)、YARN(资源管理)、MapReduce(批处理计算)。Spark是独立的计算框架,属于大数据生态但非Hadoop原生组件。

Spark的核心模块包括?

A.SparkCore

B.SparkSQL

C.SparkStreaming

D.SparkMLlib

答案:ABCD

解析:Spark生态包含Core(基础API)、SQL(结构化数据处

您可能关注的文档

文档评论(0)

eureka + 关注
实名认证
文档贡献者

中国证券投资基金业从业证书、计算机二级持证人

好好学习,天天向上

领域认证该用户于2025年03月25日上传了中国证券投资基金业从业证书、计算机二级

1亿VIP精品文档

相关文档