- 1
- 0
- 约9.41千字
- 约 12页
- 2026-03-13 发布于上海
- 举报
大数据工程师职业资格考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是HDFS(Hadoop分布式文件系统)的核心设计目标?
A.支持低延迟的实时数据访问
B.存储海量非结构化/半结构化数据
C.高效处理小文件(100MB)
D.提供强一致性的事务支持
答案:B
解析:HDFS的核心设计目标是存储和处理海量数据(通常为GB/TB级),尤其适合非结构化/半结构化数据(如日志、文本)。错误选项:A错误,HDFS是批量处理系统,不追求低延迟;C错误,HDFS的块大小(默认128MB)导致小文件会占用过多NameNode内存,不适合存储小文件;D错误,HDFS仅保证“一次写入多次读取”的一致性,不支持事务。
以下哪个工具属于离线批处理计算框架?
A.ApacheFlink
B.ApacheSparkStreaming
C.ApacheMapReduce
D.ApacheKafka
答案:C
解析:MapReduce是经典的离线批处理框架,适用于大规模数据的分布式计算。错误选项:A(Flink是流处理框架)、B(SparkStreaming是微批处理流计算)、D(Kafka是消息队列)均不符合。
数据清洗中“处理缺失值”的常用方法不包括?
A.删除缺失值所在行
B.用均值/中位数填充
C.用回归模型预测填充
D.直接保留缺失值用于后续分析
答案:D
解析:缺失值需处理后才能用于分析,否则可能导致模型偏差或计算错误。错误选项:A、B、C均为常见处理方法(删除、统计值填充、模型预测填充)。
以下哪种存储系统适合实时查询高并发的键值对数据?
A.HDFS
B.HBase
C.Hive
D.SparkSQL
答案:B
解析:HBase是基于HDFS的列存储数据库,支持高并发的实时读写,适合键值对场景(如用户信息快速查询)。错误选项:A(HDFS是文件存储,不支持实时查询)、C(Hive是数据仓库,适合离线分析)、D(SparkSQL是计算引擎,非存储系统)。
流处理中“事件时间(EventTime)”指的是?
A.数据被处理系统接收的时间
B.数据在数据源产生的时间
C.数据被写入存储系统的时间
D.数据触发窗口计算的时间
答案:B
解析:事件时间(EventTime)是数据实际发生的时间(如用户点击行为的时间戳),是流处理中处理乱序数据的关键。错误选项:A是摄入时间(IngestionTime),C是存储时间,D是处理时间(ProcessingTime)。
YARN(Hadoop资源管理)中,负责为应用程序分配资源的组件是?
A.ResourceManager
B.NodeManager
C.ApplicationMaster
D.DataNode
答案:A
解析:ResourceManager是全局资源管理器,负责集群资源的统一分配和调度。错误选项:B(NodeManager管理单个节点资源)、C(ApplicationMaster管理单个应用的资源请求)、D(HDFS数据节点)。
数据仓库(DataWarehouse)的核心特性不包括?
A.面向主题
B.实时更新
C.集成性
D.历史数据存储
答案:B
解析:数据仓库主要用于分析,数据通常是批量加载(如每日/小时更新),而非实时更新(实时性是数据湖或OLTP系统的特性)。错误选项:A、C、D均为数据仓库的核心特性(面向主题组织、多源数据集成、存储历史数据)。
以下哪项属于大数据安全中的“数据脱敏”技术?
A.网络防火墙部署
B.对用户身份证号进行部分隐藏(如4403****1234)
C.数据加密传输(SSL/TLS)
D.限制数据库访问权限
答案:B
解析:数据脱敏是对敏感数据进行变形处理(如掩码、替换),使其失去隐私价值但保留使用价值。错误选项:A(网络安全)、C(传输安全)、D(访问控制)均属于其他安全措施。
以下哪个工具是大数据机器学习平台?
A.ApacheAirflow
B.ApacheZeppelin
C.ApacheMahout
D.ApacheSqoop
答案:C
解析:Mahout是Apache的机器学习库,支持分布式环境下的分类、聚类等算法。错误选项:A(工作流调度)、B(数据可视化与分析)、D(数据迁移工具)。
数据治理的核心目标是?
A.提高数据处理速度
B.确保数据的准确性、完整性和可用性
C.增加数据存储容量
D.优化计算资源利用率
答案:B
解析:数据治理通过制度、流程和技术手段,保障数据质量(准确、完整)和可管理性(可用、可追溯)。错误选项:A(计算效率)、C(存储能力)、D(资源优化)均为大数据工程的局部目标。
二、多项选
您可能关注的文档
- 2026年信息安全保障人员认证(CISAW)考试题库(附答案和详细解析)(0117).docx
- 2026年注册环保工程师考试题库(附答案和详细解析)(0128).docx
- 2026年灾难应对心理师考试题库(附答案和详细解析)(0120).docx
- 2026年老年照护师考试题库(附答案和详细解析)(0124).docx
- 2026年量化金融证书(CQF)考试题库(附答案和详细解析)(0128).docx
- 2026年零信任安全架构师考试题库(附答案和详细解析)(0109).docx
- 5G基站的能耗优化方案.docx
- CFA一级的伦理道德(GIPS).docx
- logistic回归与probit回归的结果差异.docx
- 《商标法》驰名商标的跨类保护.docx
- 2026天津市教育招生考试院第二批公开招聘9人备考题库附答案详解.docx
- 2026年上海杉达学院单招职业技能考试题库及答案详解一套.docx
- 2026天津师范大学第二批招聘 (辅导员、专业技术辅助岗位)27人备考试题附答案详解.docx
- 2026国药控股青海有限公司招聘9人备考试题附答案详解.docx
- 10 升国旗小学语文人教2017课标版(部编)5【省比赛一等奖】名师精品优质课.ppt
- 10 第十讲 责任保险.ppt
- 11 第十一讲 信用 保证 保险.ppt
- 12 雪地里的小画家小学语文人教2017【省比赛一等奖】名师精品优质课.ppt
- 10伊斯兰建筑外建史.ppt
- 11 ie üe er2(部编) 人教2017课标版(部编)【市比赛一等奖】名师精品优质课.ppt
最近下载
- 党支部组织生活会个人对照检查材料.doc VIP
- 基于改进YOLOv8模型的生活垃圾检测.docx VIP
- 从“选育用管”全链条培养探索提高人才质量的有效途径——以湘潭烟草为例-来源:现代企业文化·中旬刊(第2021008期)-中国工人出版社.pdf VIP
- Unit2语法一般现在时课件外研版英语七年级上册.pptx VIP
- 慢病特色科室建设方案.docx VIP
- 12河北安装定额说明和计算规则.docx VIP
- 剪刀式升降车安全技术交底.docx VIP
- GB50428-2015 油田采出水处理设计规范.docx VIP
- 学会反思道德与法治六年级下册.pptx VIP
- 6章 脉宽调制(PWM)技术.ppt VIP
原创力文档

文档评论(0)