- 0
- 0
- 约8.7千字
- 约 11页
- 2026-02-01 发布于上海
- 举报
大数据工程师职业资格考试试卷
一、单项选择题(共10题,每题1分,共10分)
HDFS默认的块大小是以下哪一项?
A.64MB
B.128MB
C.256MB
D.512MB
答案:B
解析:HDFS设计为处理大文件,默认块大小为128MB(Hadoop2.x及以上版本),该设置可减少NameNode的元数据管理压力,同时适配磁盘传输效率。选项A是Hadoop1.x的默认块大小,C、D为常见自定义配置值,非默认。
Spark中RDD的“惰性计算”特性指的是?
A.所有操作立即执行
B.转换操作立即执行,行动操作延迟执行
C.转换操作延迟执行,行动操作触发计算
D.所有操作均延迟执行
答案:C
解析:RDD的转换操作(如map、filter)会构建计算图但不立即执行,仅当行动操作(如count、collect)被调用时,才会触发从初始RDD到目标RDD的全链路计算。选项A错误,B混淆了转换与行动的执行顺序,D忽略了行动操作的触发作用。
以下哪项不是Flink支持的时间类型?
A.事件时间(EventTime)
B.处理时间(ProcessingTime)
C.摄入时间(IngestionTime)
D.系统时间(SystemTime)
答案:D
解析:Flink定义了三种时间语义:事件时间(数据生成的实际时间)、处理时间(数据被处理的时间)、摄入时间(数据进入Flink系统的时间)。系统时间是操作系统的实时时间,不属于Flink的时间类型。
Hive的元数据默认存储在以下哪个数据库中?
A.MySQL
B.Derby
C.PostgreSQL
D.Oracle
答案:B
解析:Hive元数据默认使用内嵌的Derby数据库存储(单用户模式),生产环境中通常替换为MySQL或PostgreSQL以支持多用户并发。选项A、C、D为常见外部元数据库,非默认。
Kafka中消费者组(ConsumerGroup)的核心作用是?
A.提高消息发送吞吐量
B.实现消息的广播与负载均衡
C.保证消息的顺序性
D.管理生产者连接
答案:B
解析:消费者组通过将主题的分区分配给组内消费者,实现消息的负载均衡(同一分区的消息仅由组内一个消费者处理);不同消费者组订阅同一主题时,可实现消息的广播(每个组独立消费全量消息)。选项A是生产者的特性,C需依赖单分区+单消费者,D与生产者无关。
数据倾斜(DataSkew)最可能导致的问题是?
A.计算资源浪费
B.数据丢失
C.网络带宽不足
D.数据重复
答案:A
解析:数据倾斜指部分Key的记录数远多于其他Key,导致对应任务节点计算耗时过长,其他节点空闲,造成资源浪费。数据丢失(B)通常由存储故障引起,网络带宽(C)是集群固有属性,数据重复(D)与去重逻辑相关,均非数据倾斜直接后果。
以下哪项是数据仓库(DataWarehouse)的核心特性?
A.支持实时事务处理
B.面向主题(Subject-Oriented)
C.数据易失性(Volatile)
D.支持高频增删改
答案:B
解析:数据仓库的四大特性为面向主题、集成性、非易失性、时变性。面向事务(A)、易失性(C)、高频增删改(D)是OLTP数据库的特性。
OLAP(联机分析处理)与OLTP(联机事务处理)的主要区别是?
A.OLAP侧重历史数据分析,OLTP侧重实时交易
B.OLAP使用关系型数据库,OLTP使用NoSQL
C.OLAP数据量小,OLTP数据量大
D.OLAP支持高频写操作,OLTP支持复杂查询
答案:A
解析:OLAP(如数据仓库)用于复杂分析(多表关联、聚合),处理历史数据;OLTP(如业务数据库)用于日常交易(增删改查),处理实时数据。选项B错误,两者均可使用关系型数据库;C、D描述反了。
分布式系统中CAP定理的“C”指的是?
A.一致性(Consistency)
B.可用性(Availability)
C.分区容错性(PartitionTolerance)
D.正确性(Correctness)
答案:A
解析:CAP定理中,C(Consistency)指所有节点在同一时间看到相同的数据;A(Availability)指每个请求都能收到非错误响应;P(PartitionTolerance)指系统在网络分区时仍能运行。
机器学习中“特征工程”的主要目的是?
A.减少模型训练时间
B.提升模型对原始数据的表达能力
C.降低数据存储成本
D.避免过拟合
答案:B
解析:特征工程通过特征提取、选择、构造等操作,将原始数据转化为模型可高效利用的特征,核心目的是提升模型对业务问题的表达能力。减少训练时间(A)是模型优化的目标,降低存储成本
您可能关注的文档
- 2025年国际物流师考试题库(附答案和详细解析)(1226).docx
- 2025年注册电气设备评估师考试题库(附答案和详细解析)(1227).docx
- 2025年注册统计师考试题库(附答案和详细解析)(1231).docx
- 2026年亚马逊云科技认证考试题库(附答案和详细解析)(0105).docx
- 2026年企业合规师考试题库(附答案和详细解析)(0102).docx
- 2026年强化学习工程师考试题库(附答案和详细解析)(0105).docx
- 2026年数字营销师(CDMP)考试题库(附答案和详细解析)(0109).docx
- 2026年智慧城市设计师考试题库(附答案和详细解析)(0110).docx
- 2026年智能交通系统工程师考试题库(附答案和详细解析)(0110).docx
- Kotlin编程题库及答案.doc
- 人教版九年级英语Unit 4曾害怕课件3a-4c.pdf
- 雅思口语考题回顾:朗阁海外考试研究中心2019年10月10日Part 1考题总结.pdf
- 2026届高三地理一轮复习课件小专题河流袭夺.pptx
- 【名师原创】复习专题5 三角函数 作者:合肥市第八中学 蒲荣飞名师工作室.docx
- 高中数学一轮复习 微专题2 抽象函数.docx
- 高中数学——复习专题4 空间向量与立体几何.docx
- 高中数学一轮复习 微专题3 空间几何体中的截面、轨迹问题.docx
- 高中数学一轮复习 微专题4 空间几何体的最值、范围问题.docx
- 导流洞施工质量通病防治手册.docx
- 江苏省徐州市第一中学、徐市第三中学等五校2026届高三上学期12月月考历史试题含答案.docx
原创力文档

文档评论(0)