- 1
- 0
- 约9.45千字
- 约 13页
- 2026-02-14 发布于江苏
- 举报
大数据工程师职业资格考试试卷
一、单项选择题(共10题,每题1分,共10分)
HDFS默认的块大小是以下哪一项?
A.64MB
B.128MB
C.256MB
D.512MB
答案:B
解析:HDFS设计时为了降低元数据管理开销并优化大文件存储,默认块大小设置为128MB(Hadoop2.x及以上版本)。64MB是早期Hadoop1.x的默认值,256MB和512MB为可选配置参数,非默认值。
以下哪个组件是HBase的存储模型核心?
A.列族(ColumnFamily)
B.行键(RowKey)
C.时间戳(Timestamp)
D.单元格(Cell)
答案:A
解析:HBase采用列式存储,数据按列族组织,列族是物理存储的基本单位(所有列族成员数据存储在一起)。行键是逻辑主键,时间戳用于版本控制,单元格是具体数据单元,但核心存储模型由列族定义。
SparkRDD的特性不包括以下哪项?
A.不可变性(Immutable)
B.惰性计算(LazyEvaluation)
C.自动容错(AutomaticFaultTolerance)
D.实时流处理(Real-timeStreaming)
答案:D
解析:RDD是Spark的核心抽象,特性包括不可变(每次转换生成新RDD)、惰性计算(仅行动操作触发计算)、通过血统(Lineage)实现自动容错。实时流处理是SparkStreaming(基于RDD微批处理)或StructuredStreaming的功能,非RDD本身特性。
Kafka生产者的“acks=all”配置表示?
A.无需等待Broker确认
B.仅等待Leader确认
C.等待所有ISR副本确认
D.等待主从副本确认
答案:C
解析:Kafka生产者确认机制中,acks=all要求消息被写入所有同步副本(In-SyncReplicas,ISR)后返回确认,提供最强一致性保障。acks=0无需确认,acks=1仅Leader确认,acks=all是最高可靠性配置。
数据清洗的主要任务不包括?
A.处理缺失值(MissingValues)
B.纠正错误值(ErrorValues)
C.标准化数据格式(DataFormatting)
D.生成新特征(FeatureEngineering)
答案:D
解析:数据清洗是数据预处理阶段,主要任务是提升数据质量(缺失值填充、错误值修正、格式统一)。生成新特征属于特征工程,是建模前的高级处理步骤,不属于基础清洗任务。
Flink中“事件时间(EventTime)”的定义是?
A.数据被Flink处理的时间
B.数据在数据源产生的时间
C.数据到达Flink的时间
D.窗口触发计算的时间
答案:B
解析:Flink支持三种时间语义:事件时间(数据实际产生时间,由数据源记录的时间戳决定)、摄入时间(数据进入Flink的时间)、处理时间(算子处理数据的时间)。事件时间是最符合业务逻辑的时间语义,常用于需要按实际发生顺序处理的场景。
分布式系统中CAP定理的“C”指?
A.一致性(Consistency)
B.可用性(Availability)
C.分区容错性(PartitionTolerance)
D.完整性(Completeness)
答案:A
解析:CAP定理指出分布式系统无法同时满足一致性(所有节点同一时刻看到相同数据)、可用性(每次请求都能获得非错误响应)、分区容错性(系统在网络分区时仍能运行),只能三选二。
Hive的元数据默认存储在以下哪个数据库?
A.MySQL
B.Derby
C.PostgreSQL
D.Oracle
答案:B
解析:Hive元数据存储数据库支持MySQL、Derby等,默认使用内嵌的Derby数据库(仅适合测试环境)。生产环境通常配置为MySQL以支持多用户并发。
数据仓库的分层架构中,“DWB”通常指?
A.操作数据层(OperationalDataStore)
B.明细数据层(DetailWarehouseLayer)
C.汇总数据层(WarehouseBaseLayer)
D.数据集市层(DataMart)
答案:C
解析:典型数据仓库分层为ODS(原始数据层)、DWD(明细数据层)、DWB(汇总数据层,基于DWD做轻度聚合)、DM(数据集市层,面向业务主题)。DWB是“WarehouseBaseLayer”的缩写。
以下哪项是实时计算的典型场景?
A.每日用户活跃数统计
B.实时推荐系统
C.月度销售报表
D.历史数据归档
答案:B
解析:实时计算要求低延迟(通常毫秒级),适用于需要即时响应的场景(如实时推荐、实时风控
您可能关注的文档
- 教育统计分析题库及答案.doc
- 《食品安全法》预包装食品标签要求.docx
- 2026年澳大利亚注册会计师(CPAAustralia)考试题库(附答案和详细解析)(0129).docx
- 2026年保险从业资格考试考试题库(附答案和详细解析)(0117).docx
- 2026年监理工程师考试题库(附答案和详细解析)(0112).docx
- 2026年商业分析师考试题库(附答案和详细解析)(0108).docx
- 2026年数据资产管理员考试题库(附答案和详细解析)(0117).docx
- 2026年无人机驾驶员执照考试题库(附答案和详细解析)(0113).docx
- 2026年注册地质工程师考试题库(附答案和详细解析)(0129).docx
- 2026年注册园林工程师考试题库(附答案和详细解析)(0109).docx
- 2026年注册振动工程师考试题库(附答案和详细解析)(0115).docx
- CPA会计科目“长期股权投资”章节高频考点梳理.docx
- 波动率套利策略在50ETF期权中的隐含波动率差.docx
- 餐饮品牌连锁加盟策划.docx
最近下载
- 上海万达广场购物中心营运现场管理 房地产.pdf VIP
- 2021版万达广场建造标准.pdf VIP
- Haier海尔215升直冷定频三门冰箱 BCD-215SDKCD说明书用户手册.pdf
- 最新的Apple供应商行为准则4.9版本.pdf
- 2025年烟台市生物实验技能真题全集十二套经典试题解析汇编.doc VIP
- 备战2026年高考(2021-2025)高考化学真题分类汇编(山东专用)专题11工艺流程综合题(学生版+解析)(1).docx VIP
- 《就业指导》中职生就业指导PPT完整全套教学课件.pptx VIP
- 山东省五年(2021-2025)高考化学真题分类汇编:专题11 工艺流程综合题(原卷版).pdf VIP
- 彩钢板围挡施工方案.docx VIP
- 彩钢板围挡施工方案实用文档.docx VIP
原创力文档

文档评论(0)