2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1105).docxVIP

2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1105).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据工程师职业资格认证考试试卷

一、单项选择题(共10题,每题1分,共10分)

Hadoop分布式文件系统(HDFS)的默认块大小是?

A.64MB

B.128MB

C.256MB

D.512MB

答案:B

解析:HDFS设计默认块大小为128MB(Hadoop2.x及以上版本),目的是减少NameNode内存占用(元数据存储块位置信息),同时适配大文件处理场景(如日志、音视频)。选项A是Hadoop1.x的默认块大小;C、D为常见自定义配置值,非默认。

以下哪个工具属于实时流处理框架?

A.Hive

B.SparkSQL

C.Flink

D.Presto

答案:C

解析:Flink是专为流处理优化的分布式计算框架,支持事件时间(EventTime)和精准一次(Exactly-Once)语义。Hive(A)是基于Hadoop的数据仓库工具,主要用于批处理;SparkSQL(B)是Spark的SQL模块,支持批处理和微批流处理(非原生流);Presto(D)是分布式SQL查询引擎,用于交互式分析。

在HBase中,RowKey的存储顺序是?

A.字典序升序

B.哈希散列

C.时间戳降序

D.随机分布

答案:A

解析:HBase基于HDFS存储,数据按RowKey的字典序升序排列存储在Region中。这种设计便于范围查询(如Scan操作),但需注意RowKey的设计避免热点问题(如时间戳作为前缀可能导致写集中)。B是分布式系统常用的分片策略(如Redis);C是部分时序数据库的设计;D不符合HBase的存储逻辑。

以下哪个指标不属于Kafka生产者的关键性能参数?

A.BatchSize

B.Linger.ms

C.Request.Timeout.ms

D.Replication.Factor

答案:D

解析:Replication.Factor(副本因子)是Kafka主题级别的配置参数,用于控制数据冗余,不属于生产者端参数。BatchSize(A)控制批量发送的消息大小;Linger.ms(B)控制批量发送的等待时间;Request.Timeout.ms(C)控制生产者等待Broker确认的超时时间,均为生产者关键参数。

Spark中,以下哪个操作属于行动(Action)?

A.map()

B.filter()

C.reduce()

D.flatMap()

答案:C

解析:行动操作(Action)触发计算并返回结果或写入存储,reduce()会聚合RDD元素并返回最终值。map()(A)、filter()(B)、flatMap()(D)均为转换操作(Transformation),仅定义计算逻辑,不会立即执行。

数据清洗中处理缺失值的常用方法不包括?

A.删除缺失值所在行

B.用均值/中位数填充

C.用KNN算法预测填充

D.直接保留缺失值用于建模

答案:D

解析:缺失值会导致模型训练错误(如梯度计算异常),因此需处理。A(删除)适用于缺失比例低的场景;B(统计值填充)适用于数值型数据;C(KNN填充)利用相似样本预测,适用于高维数据。D会导致模型报错或偏差,不属于合理方法。

在分布式系统中,CAP定理的“C”指?

A.一致性(Consistency)

B.可用性(Availability)

C.分区容错性(PartitionTolerance)

D.完整性(Completeness)

答案:A

解析:CAP定理指出分布式系统无法同时满足一致性(C)、可用性(A)、分区容错性(P)三者,最多满足两个。B是系统持续提供服务的能力;C是系统在网络分区时仍能运行的能力;D非CAP定理术语。

以下哪个数据库属于列式存储?

A.MySQL

B.Cassandra

C.HBase

D.ClickHouse

答案:D

解析:ClickHouse是专为分析设计的列式数据库,按列存储数据,适合高并发读和复杂聚合查询。MySQL(A)是行式关系型数据库;Cassandra(B)是分布式宽列存储数据库;HBase(C)是基于列族的NoSQL数据库,非严格列式存储。

数据湖(DataLake)与数据仓库(DataWarehouse)的核心差异在于?

A.存储介质(磁盘vs内存)

B.数据结构(结构化vs非结构化)

C.访问速度(实时vs离线)

D.管理方式(集中式vs分布式)

答案:B

解析:数据湖存储原始、多格式数据(结构化、半结构化、非结构化),采用“读时模式”(Schema-on-Read);数据仓库存储已清洗、结构化数据,采用“写时模式”(Schema-on-Write)。A(存储介质)、C(访问速度)、D(管理方式)均非核心差异。

以下哪个工具用于H

您可能关注的文档

文档评论(0)

level来福儿 + 关注
实名认证
文档贡献者

二级计算机、经济专业技术资格证持证人

好好学习

领域认证该用户于2025年09月05日上传了二级计算机、经济专业技术资格证

1亿VIP精品文档

相关文档