- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是Hadoop分布式文件系统(HDFS)的核心设计目标?
A.支持随机小文件的高速读写
B.处理海量数据的可靠存储与访问
C.提供关系型数据库的事务支持
D.实现内存计算的低延迟特性
答案:B
解析:HDFS设计目标是为海量数据提供高容错、可扩展的分布式存储,适合大文件的流式读写(排除A);不支持事务(排除C);内存计算是Spark的特性(排除D)。
以下哪种技术常用于解决Spark中的数据倾斜问题?
A.增加RDD分区数
B.对倾斜键添加随机前缀
C.关闭Shuffle操作
D.减少Executor内存
答案:B
解析:数据倾斜的核心是部分key分布不均,添加随机前缀可分散数据(B正确);增加分区数可能加剧倾斜(排除A);Shuffle是必要操作无法关闭(排除C);减少内存会导致OOM(排除D)。
实时计算框架Flink与Storm的主要区别在于?
A.Flink支持事件时间(EventTime)处理,Storm仅支持处理时间(ProcessingTime)
B.Flink基于微批处理,Storm基于流处理
C.Flink不支持状态管理,Storm支持
D.Flink只能处理离线数据,Storm处理实时数据
答案:A
解析:Flink是真正的流处理框架,支持事件时间和水印机制(A正确);Storm是纯流处理,Flink非微批(排除B);两者均支持状态管理(排除C);Flink同时支持实时和离线(排除D)。
数据仓库(DataWarehouse)的典型特征不包括?
A.面向主题(Subject-Oriented)
B.实时性(Real-Time)
C.集成性(Integrated)
D.时变性(Time-Variant)
答案:B
解析:数据仓库侧重分析,数据按周期更新(非实时),实时性是数据湖或实时数据库的特性(B错误);其余选项均为数据仓库核心特征。
以下哪项属于NoSQL数据库中的列族存储(ColumnFamily)类型?
A.Redis
B.HBase
C.MongoDB
D.Cassandra(注:Cassandra实际为宽列存储,此处简化为列族)
答案:B
解析:HBase是典型的列族存储数据库(B正确);Redis是键值存储(排除A);MongoDB是文档存储(排除C);Cassandra是宽列存储(接近列族但归类不同,此处按题目设定选B)。
ETL过程中“转换(Transform)”的核心任务是?
A.从多个数据源抽取数据
B.清洗无效数据并统一格式
C.将数据加载到目标系统
D.监控数据传输过程
答案:B
解析:ETL中Extract是抽取(A),Transform是转换(清洗、标准化、关联等,B正确),Load是加载(C),监控属于运维(D)。
数据湖(DataLake)与传统数据仓库的最根本区别是?
A.存储的数据类型(结构化vs非结构化)
B.存储介质(磁盘vs内存)
C.访问权限(开放vs受限)
D.处理方式(批处理vs流处理)
答案:A
解析:数据湖存储原始的结构化、半结构化、非结构化数据(A正确);数据仓库仅存储结构化的清洗后数据;其余选项均非根本区别。
分布式计算中,“一致性哈希(ConsistentHashing)”主要解决的问题是?
A.节点扩容时减少数据迁移量
B.提高计算任务的并行度
C.保证事务的原子性
D.降低网络传输延迟
答案:A
解析:一致性哈希通过环形哈希空间设计,节点增减时仅影响相邻节点,大幅减少数据迁移(A正确);其余选项与一致性哈希无关。
以下哪项是机器学习中“特征工程(FeatureEngineering)”的核心目标?
A.训练更复杂的模型
B.从原始数据中提取有效信息
C.减少训练数据量
D.加速模型推理速度
答案:B
解析:特征工程通过数据清洗、转换、选择等操作,将原始数据转化为模型可理解的有效特征(B正确);其余选项是间接结果而非核心目标。
以下哪个工具常用于大数据场景下的日志收集?
A.Flume
B.Hive
C.Spark
D.Kafka
答案:A
解析:Flume是专门的日志收集工具(A正确);Hive是数据仓库工具(排除B);Spark是计算框架(排除C);Kafka是消息队列(排除D)。
二、多项选择题(共10题,每题2分,共20分)
Hadoop生态中,以下哪些组件属于资源管理与调度工具?()
A.YARN
B.ZooKeeper
C.ApacheMesos
D.Oozie
答案:ACD
解析:YARN是Hadoop原生资源管理器(A正确);Mesos是通用资
您可能关注的文档
- 140平爆改成7个独卫单间.docx
- 2025年临床医学检验技术资格考试题库(附答案和详细解析)(1226).docx
- 2025年侍酒师考试题库(附答案和详细解析)(1221).docx
- 2025年品牌管理师考试题库(附答案和详细解析)(1226).docx
- 2025年法律职业资格考试(法考)考试题库(附答案和详细解析)(1227).docx
- 2025年注册会计师(CPA)考试题库(附答案和详细解析)(1213).docx
- 2025年注册公用设备工程师考试题库(附答案和详细解析)(1203).docx
- 2025年注册化工工程师考试题库(附答案和详细解析)(1228).docx
- 2025年注册设备监理师考试题库(附答案和详细解析)(1228).docx
- 2025年注册财富管理师(CWM)考试题库(附答案和详细解析)(1215).docx
- 2025年碳金融分析师考试题库(附答案和详细解析)(1231).docx
- 2025年英国特许证券与投资协会会员(CISI)考试题库(附答案和详细解析)(1211).docx
- 2025年计算机技术与软件专业技术资格(软考)考试题库(附答案和详细解析)(1214).docx
- 2025年跨境电商运营师考试题库(附答案和详细解析)(1230).docx
最近下载
- 中 山 大 学 软 件 学 院 2 0 0 9 级 软 件 工 程 专 业 (2010 学年春季学期)《 数据库系统原理》 期末 考试 试卷(B).docx VIP
- 深度解析(2026)《YDT 3867-2024 电信领域重要数据识别指南》.pptx VIP
- 2025年医疗器械基本知识培训(带目录).pdf VIP
- 2024年院内师资培训考核有答案.docx
- 职业技能标准&木雕工24.pdf VIP
- 中石油内控管理手册——风险评估分册.pdf VIP
- 电力电子技术课程设计报告书.docx VIP
- 年产1150吨鲜花饼厂工艺设计.docx
- 美术鉴赏——拉斐尔.pptx VIP
- 中 山 大 学 软 件 学 院 2 0 0 9 级 软 件 工 程 专 业 (2010 学年春季学期)《 SE - 3 0 4 数据库系统原理》 期 末考 试 试卷(B).docx VIP
原创力文档


文档评论(0)