- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是数据仓库(DataWarehouse)的核心特点?
A.支持实时数据写入
B.面向主题的结构化数据存储
C.存储非结构化数据为主
D.支持高并发的在线事务处理(OLTP)
答案:B
解析:数据仓库的核心特点是面向主题、集成的、非易失的、随时间变化的数据集合,主要用于支持决策分析(OLAP)。A错误,实时写入是实时数据库的特点;C错误,非结构化数据存储是数据湖的典型场景;D错误,OLTP是关系型数据库的核心功能。
在Hadoop生态中,Hive的主要功能是?
A.分布式文件存储
B.分布式计算框架
C.基于SQL的数据仓库工具
D.实时流处理引擎
答案:C
解析:Hive是基于Hadoop的数仓工具,提供类SQL的HiveQL语言,将SQL转换为MapReduce任务执行。A对应HDFS,B对应MapReduce,D对应Flink或Storm。
数据清洗中“处理缺失值”的常用方法不包括?
A.删除包含缺失值的记录
B.用字段均值填充缺失值
C.用相邻记录值插值填充
D.直接保留缺失值用于后续建模
答案:D
解析:缺失值会影响模型准确性,需处理(删除、填充、插值等)。D错误,直接保留可能导致计算错误或模型偏差。
以下哪种存储系统适合存储海量半结构化日志数据?
A.MySQL
B.HBase
C.Redis
D.Oracle
答案:B
解析:HBase是基于HDFS的列式分布式数据库,适合存储海量、稀疏的半结构化数据(如日志)。A/D是关系型数据库,适合结构化事务数据;C是内存键值存储,适合缓存。
以下属于流处理框架的是?
A.HadoopMapReduce
B.SparkCore
C.Flink
D.Hive
答案:C
解析:Flink是典型的流处理框架,支持事件时间、状态管理和低延迟处理。A/B是批处理框架,D是数仓工具。
数据湖(DataLake)与数据仓库的主要区别是?
A.数据湖仅存储结构化数据
B.数据湖在存储阶段不进行模式定义
C.数据仓库支持非结构化数据存储
D.数据湖的分析性能更高
答案:B
解析:数据湖采用“读时模式”(Schema-on-Read),存储原始数据(结构化、半结构化、非结构化)后再定义模式;数据仓库采用“写时模式”(Schema-on-Write)。A/C错误,数据湖支持多类型数据;D错误,数仓优化后分析性能通常更高。
以下哪种索引类型适用于HBase?
A.B+树索引
B.全局二级索引
C.行键(RowKey)索引
D.全文索引
答案:C
解析:HBase通过行键(RowKey)直接定位数据,不支持全局二级索引(需借助协处理器实现)。A是关系型数据库索引,B需额外开发,D是Elasticsearch的典型索引。
ETL过程中“转换(Transform)”的核心目标是?
A.将数据从源系统加载到目标系统
B.确保数据格式符合目标系统要求
C.从多个源系统抽取数据
D.清理数据中的错误和重复值
答案:B
解析:转换阶段负责数据格式调整、业务规则应用(如计算新字段)、标准化等,使数据符合目标系统需求。A是加载(Load),C是抽取(Extract),D是清洗(属于转换的一部分)。
分布式计算中“数据倾斜”的主要表现是?
A.计算节点内存普遍不足
B.部分任务执行时间远长于其他任务
C.网络带宽占用率过高
D.所有任务均超时失败
答案:B
解析:数据倾斜指某一Key的分布异常集中,导致对应任务处理的数据量远大于其他任务,表现为任务执行时间显著差异。A/C是资源问题,D是系统性错误。
以下哪项不属于大数据机器学习平台的核心功能?
A.数据特征工程
B.模型训练与调优
C.实时数据采集
D.模型部署与监控
答案:C
解析:实时数据采集属于数据集成或流处理范畴,机器学习平台核心功能包括特征工程、模型训练、部署监控等。
二、多项选择题(共10题,每题2分,共20分)
以下属于Hadoop生态核心组件的有?
A.HDFS
B.Flink
C.YARN
D.Hive
答案:ACD
解析:Hadoop核心组件包括HDFS(存储)、YARN(资源管理)、MapReduce(计算),Hive是上层应用。Flink是独立流处理框架,不属于Hadoop原生生态。
数据清洗的主要方法包括?
A.处理缺失值
B.纠正数据格式错误
C.合并重复记录
D.数据标准化(如单位统一)
答案:ABCD
解析:数据清洗涵盖缺失值处理、格式纠正、去重、标准化等步骤,目标是提高数据质量。
分布式文件系统(如HDFS)的特性包括?
A.高容错性(副
您可能关注的文档
- 2025年一级建造师考试题库(附答案和详细解析)(1209).docx
- 2025年健康评估师考试题库(附答案和详细解析)(1129).docx
- 2025年元宇宙应用开发师考试题库(附答案和详细解析)(1218).docx
- 2025年地方公务员考试题库(附答案和详细解析)(1215).docx
- 2025年应急救援指挥师考试题库(附答案和详细解析)(1216).docx
- 2025年智慧医疗技术员考试题库(附答案和详细解析)(1127).docx
- 2025年智能对话系统工程师考试题库(附答案和详细解析)(1211).docx
- 2025年注册会计师(CPA)考试题库(附答案和详细解析)(1211).docx
- 2025年注册焊接工程师考试题库(附答案和详细解析)(1211).docx
- 2025年青少年心理成长导师考试题库(附答案和详细解析)(1211).docx
最近下载
- 征信报告模板-带水印版.docx VIP
- 双眼视异常分析案例分析2020.pptx VIP
- zippo年册日版图鉴大全1.pdf VIP
- 电力行业系统 解决方案 【智慧】火电厂综合安防 解决方案.pdf VIP
- 标准图集-20S515-钢筋混凝土及砖砌排水检查井.pdf VIP
- 临床化学检验血液标本采集与处理知识测试题.docx
- 培训课件:社交媒体营销的实战技巧.pptx VIP
- 湖南省长郡教育集团2023-2024九年级上学期期中英语试卷(含答案).docx VIP
- 2021年湖南省长沙市雅礼教育集团九年级中考一模联考英语试卷(word版,含答案).docx VIP
- 2022年湖南省长沙市雅礼集团联考九年级上学期期末化学试卷(含答案).docx VIP
原创力文档


文档评论(0)