- 0
- 0
- 约8.07千字
- 约 11页
- 2026-02-15 发布于上海
- 举报
大数据工程师职业资格考试试卷
一、单项选择题(共10题,每题1分,共10分)
HDFS默认的块大小是以下哪一项?
A.32MB
B.64MB
C.128MB
D.256MB
答案:C
解析:HDFS设计时为了减少NameNode内存占用(存储块元数据)和支持大文件高效处理,默认块大小设置为128MB(Hadoop2.x及以上版本)。选项A是早期Hadoop1.x的默认值(64MB),B为干扰项,D不符合官方设定。
以下哪项不是SparkRDD的特性?
A.不可变(Immutable)
B.支持血统(Lineage)
C.自动容错
D.直接存储结构化数据
答案:D
解析:RDD是弹性分布式数据集,特性包括不可变性、通过血统(Lineage)实现容错、基于内存的计算,但RDD本身不直接存储结构化数据(结构化数据处理由DataFrame/Dataset负责)。D选项混淆了RDD与DataFrame的功能。
Kafka中用于标识消息在分区中位置的是?
A.Offset
B.Partition
C.Topic
D.ConsumerGroup
答案:A
解析:Offset是消息在分区中的唯一顺序号,用于消费者记录消费位置;Partition是主题的分片;Topic是消息分类标识;ConsumerGroup是消费者的逻辑分组。因此正确答案为A。
以下哪项属于NoSQL数据库的典型应用场景?
A.银行核心交易系统(需强事务)
B.社交平台用户动态实时存储(高并发写)
C.企业ERP系统(复杂SQL查询)
D.财务报表统计(精确聚合计算)
答案:B
解析:NoSQL数据库(如HBase、Cassandra)适合高并发写、海量数据存储场景;而强事务、复杂SQL、精确聚合是关系型数据库(如MySQL)的优势。B选项符合NoSQL特性。
Flink中用于处理乱序事件的核心机制是?
A.窗口(Window)
B.水位线(Watermark)
C.状态(State)
D.检查点(Checkpoint)
答案:B
解析:水位线(Watermark)是Flink处理乱序事件的关键机制,通过设定延迟时间戳阈值,告知系统“当前时间之前的事件已全部到达”。窗口用于数据分组,状态用于存储中间结果,检查点用于容错,因此选B。
数据仓库(DW)与数据库(DB)的核心区别是?
A.数据模型:DW是OLTP,DB是OLAP
B.数据时效:DW存储实时数据,DB存储历史数据
C.设计目标:DW支持分析决策,DB支持事务处理
D.查询类型:DW使用简单查询,DB使用复杂查询
答案:C
解析:数据仓库(DW)面向分析(OLAP),支持复杂查询和历史数据统计;数据库(DB)面向事务(OLTP),支持高频读写和实时交易。C选项正确描述了设计目标的差异。
以下哪项是Hive的核心功能?
A.实时流数据处理
B.分布式文件存储
C.基于SQL的大数据分析
D.内存计算框架
答案:C
解析:Hive是基于Hadoop的大数据分析工具,提供HiveQL(类SQL)接口,将SQL转换为MapReduce任务执行。实时处理由Flink/SparkStreaming完成,存储由HDFS负责,内存计算是Spark的特性,因此选C。
以下哪个指标用于衡量数据质量的“完整性”?
A.字段缺失率
B.数据重复率
C.数值合理性(如年龄0)
D.数据更新频率
答案:A
解析:数据完整性指数据是否存在缺失(如字段为空),用缺失率衡量;重复率是一致性指标,合理性是准确性指标,更新频率是时效性指标。因此选A。
机器学习中,“过拟合”的典型表现是?
A.训练集和测试集准确率都低
B.训练集准确率高,测试集准确率低
C.训练集准确率低,测试集准确率高
D.训练集和测试集准确率都高
答案:B
解析:过拟合指模型在训练数据上表现很好(高准确率),但对新数据(测试集)泛化能力差(低准确率)。A是欠拟合表现,D是理想状态,因此选B。
以下哪项是ZooKeeper的核心功能?
A.分布式协调服务
B.分布式计算框架
C.分布式消息队列
D.分布式数据库
答案:A
解析:ZooKeeper是分布式协调服务,用于实现集群管理(如Master选举、配置同步)、分布式锁等。计算框架是Spark/Hadoop,消息队列是Kafka,数据库是HBase,因此选A。
二、多项选择题(共10题,每题2分,共20分)
以下属于HBase特性的有?(至少2个正确选项)
A.列式存储
B.支持ACID事务(全表)
C.高并发写
D.稀疏表(允许列缺失)
答案:ACD
解析:HBase是列式存储数据库,支持高并发写入(基于LSM树),表结构稀疏(行内列
原创力文档

文档评论(0)