- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是Hadoop分布式文件系统(HDFS)的核心设计目标?
A.支持小文件高效存储
B.提供低延迟数据访问
C.运行于廉价通用硬件上
D.支持事务性读写操作
答案:C
解析:HDFS的核心设计目标是在廉价通用硬件上提供高容错性的海量数据存储(C正确)。HDFS不适合小文件存储(A错误),其设计侧重高吞吐量而非低延迟(B错误),不支持事务性读写(D错误)。
Spark中RDD(弹性分布式数据集)的核心特性是?
A.不可变、可分区、支持容错
B.可变、单副本、内存计算
C.强一致性、实时更新
D.仅支持磁盘存储
答案:A
解析:RDD是Spark的核心抽象,具有不可变性(避免并发问题)、可分区(支持分布式计算)、通过血统(Lineage)实现容错(A正确)。RDD不可变(B错误),其一致性由操作类型决定(C错误),支持内存/磁盘存储(D错误)。
以下哪种数据库适合存储实时写入的海量时序数据(如传感器日志)?
A.MySQL(关系型数据库)
B.HBase(列式数据库)
C.Redis(键值数据库)
D.MongoDB(文档数据库)
答案:B
解析:HBase基于HDFS构建,支持海量数据的高并发写入和列式存储,适合时序数据的快速插入与按列查询(B正确)。MySQL适合事务型场景(A错误),Redis适合缓存(C错误),MongoDB适合非结构化文档(D错误)。
数据清洗中“处理缺失值”的常用方法不包括?
A.删除含缺失值的记录
B.用均值/中位数填充
C.用随机数填充
D.基于模型预测填充
答案:C
解析:数据清洗中缺失值处理需保持数据逻辑合理性,随机数填充可能破坏数据分布(C错误)。常用方法包括删除记录(A)、统计值填充(B)、模型预测(D)。
以下哪项是Kafka消息队列的核心设计目标?
A.保证消息严格有序
B.支持事务性消息
C.高吞吐量、低延迟
D.强一致性存储
答案:C
解析:Kafka的核心设计目标是处理实时数据流的高吞吐量(每秒百万级消息)和低延迟(毫秒级)(C正确)。其顺序性仅在分区内保证(A错误),早期版本不支持事务(B错误),采用最终一致性(D错误)。
数据仓库(DataWarehouse)的典型特征是?
A.面向事务处理
B.数据实时更新
C.面向主题建模
D.支持行级增删改
答案:C
解析:数据仓库是面向主题、集成、非易失、随时间变化的数据集合(C正确)。OLTP数据库面向事务处理(A错误),数据仓库通常批量更新(B错误),不支持频繁行级修改(D错误)。
以下哪个工具用于Hadoop集群的资源管理与任务调度?
A.Hive
B.YARN
C.Pig
D.Zookeeper
答案:B
解析:YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理系统,负责集群资源分配和任务调度(B正确)。Hive是数据仓库工具(A错误),Pig是脚本处理语言(C错误),Zookeeper是分布式协调服务(D错误)。
以下哪种分布式计算框架适合迭代式机器学习任务?
A.MapReduce
B.Spark
C.Storm
D.Flink
答案:B
解析:Spark基于内存计算,通过RDD的缓存机制优化迭代计算(如梯度下降),比MapReduce(磁盘IO多)更高效(B正确)。Storm/Flink是流处理框架(C/D错误)。
数据湖(DataLake)与数据仓库的主要区别是?
A.数据湖存储结构化数据,数据仓库存储非结构化数据
B.数据湖在存储时定义模式(Schema-on-Write),数据仓库在分析时定义模式(Schema-on-Read)
C.数据湖支持原始数据存储,数据仓库需预处理为清洗后的数据
D.数据湖仅用于实时分析,数据仓库仅用于离线分析
答案:C
解析:数据湖存储原始的、多格式的数据(如CSV、JSON、图片),在分析时定义模式(Schema-on-Read);数据仓库存储清洗后的结构化数据,存储时定义模式(Schema-on-Write)(C正确)。A、B、D均描述错误。
以下哪项是分布式系统CAP定理中的“C”所代表的特性?
A.一致性(Consistency)
B.可用性(Availability)
C.分区容错性(PartitionTolerance)
D.完整性(Completeness)
答案:A
解析:CAP定理中,C指一致性(所有节点在同一时间看到相同的数据),A指可用性(每个请求都能收到非错误响应),P指分区容错性(系统在网络分区时仍能运行)(A正确)。
二、多项选择题(共10题,
您可能关注的文档
- 量化策略高频交易容错机制设计.docx
- 《水经注》中的魏晋地理认知体系.docx
- 《消费者权益保护法》赔偿适用.docx
- 2025年残障服务协调员考试题库(附答案和详细解析)(1128).docx
- 2025年国际物流师考试题库(附答案和详细解析)(1130).docx
- 2025年基金从业资格考试考试题库(附答案和详细解析)(1125).docx
- 2025年价格鉴证师考试题库(附答案和详细解析)(1129).docx
- 2025年健康管理师考试题库(附答案和详细解析)(1130).docx
- 2025年跨境物流管理师考试题库(附答案和详细解析)(1207).docx
- 2025年劳动关系协调师考试题库(附答案和详细解析)(1209).docx
最近下载
- 天然药物化学实验习题.docx VIP
- 天然药物化学考试题及答案.docx VIP
- T_ZJPA 001—2021_制药工业环境微生物数据库构建技术规范.pdf VIP
- 中小学第15课 第二次世界大战(课件)教育教学资料整理.pptx VIP
- 台达IED-G使用手册.pdf VIP
- 实施指南《GB_T42755 - 2023人工智能面向机器学习的数据标注规程》实施指南.docx VIP
- 酒店员工劳动合同范本及签订指南.docx VIP
- 2025广西公需科目考试题库和答案(覆盖99%考题)广西“一区两地一园一通道+人工智能时代的机遇.docx VIP
- 东北财经大学2023-2024学年《马克思主义基本原理概论》期末考试试卷(A卷)含参考答案.docx
- T100鼎新技术手册.docx VIP
原创力文档


文档评论(0)