- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下关于HDFS(Hadoop分布式文件系统)的描述中,正确的是?
A.NameNode负责存储数据块副本
B.DataNode存储文件元数据信息
C.单个文件默认块大小为128MB(Hadoop2.x)
D.不支持追加写操作
答案:C
解析:HDFS中NameNode管理元数据(如文件目录、块位置),DataNode存储实际数据块(A、B错误);Hadoop2.x默认块大小为128MB(C正确);HDFS2.x及以上版本支持追加写操作(D错误)。
Spark中RDD(弹性分布式数据集)的特性不包括?
A.不可变(Immutable)
B.分区(Partitioned)
C.惰性计算(LazyEvaluation)
D.自动持久化(Auto-Persist)
答案:D
解析:RDD具有不可变性、分区性和惰性计算特性(A、B、C正确);RDD默认不持久化,需通过persist()或cache()手动设置(D错误)。
Kafka中“消费者组(ConsumerGroup)”的核心作用是?
A.保证消息按顺序消费
B.实现消息的广播和负载均衡
C.存储消息的元数据
D.管理生产者的连接
答案:B
解析:消费者组通过将分区分配给组内消费者,实现消息负载均衡(同一组内消费者共同消费分区);不同组间可独立消费同一主题,实现广播(B正确)。消息顺序仅在单个分区内保证(A错误);元数据由ZooKeeper或Kafka自身管理(C错误);生产者连接由客户端管理(D错误)。
以下属于列式存储数据库的是?
A.MySQL
B.HBase
C.Redis
D.MongoDB
答案:B
解析:HBase基于HDFS,采用列式存储(B正确);MySQL是关系型(行式)、Redis是键值型、MongoDB是文档型(A、C、D错误)。
数据仓库(DataWarehouse)的核心特征是?
A.支持高并发事务操作
B.面向主题(Subject-Oriented)
C.实时更新数据
D.存储原始未加工数据
答案:B
解析:数据仓库面向主题组织数据(B正确);支持分析而非事务(A错误);数据定期批量更新(C错误);存储经过清洗、整合的历史数据(D错误)。
Flink中“窗口(Window)”的主要作用是?
A.控制流数据的传输速率
B.将无限流划分为有限的处理单元
C.管理状态的生命周期
D.实现流与批的统一处理
答案:B
解析:窗口机制将无限流按时间或事件数划分为有限的可计算窗口(B正确);传输速率由反压机制控制(A错误);状态管理由状态后端负责(C错误);流批统一通过DataSet和DataStreamAPI实现(D错误)。
以下不属于数据清洗(DataCleaning)范畴的是?
A.处理缺失值(MissingValues)
B.纠正重复记录(Duplicates)
C.转换数据格式(如日期格式统一)
D.构建数据立方体(DataCube)
答案:D
解析:数据清洗包括缺失值处理、去重、格式转换等(A、B、C正确);数据立方体是OLAP的建模方法(D错误)。
分布式系统中“CAP定理”指的是?
A.一致性(Consistency)、可用性(Availability)、分区容错性(PartitionTolerance)
B.一致性、原子性(Atomicity)、持久性(Persistence)
C.容量(Capacity)、可扩展性(Scalability)、性能(Performance)
D.认证(Authentication)、授权(Authorization)、审计(Audit)
答案:A
解析:CAP定理定义了分布式系统中一致性、可用性、分区容错性三者无法同时满足(A正确);B是ACID特性(数据库事务),C是系统设计目标,D是安全三要素(B、C、D错误)。
以下Hive(Hadoop数据仓库工具)的说法中,错误的是?
A.基于HQL(HiveQueryLanguage)
B.支持实时查询
C.元数据存储在关系型数据库(如MySQL)
D.底层计算引擎可切换为Spark
答案:B
解析:Hive将HQL转换为MapReduce(或Spark)任务,属于批处理,不支持实时查询(B错误);其他选项均正确(A、C、D正确)。
数据挖掘(DataMining)中“关联规则挖掘”的经典算法是?
A.K-means
B.Apriori
C.SVM(支持向量机)
D.决策树
答案:B
解析:Apriori是关联规则挖掘的经典算法(B正确);K-means是聚类算法,SVM是分类算法
您可能关注的文档
- #交换新年第一缕光#.docx
- 2025年儿童发展指导师考试题库(附答案和详细解析)(1230).docx
- 2025年注册勘察设计工程师考试题库(附答案和详细解析)(1226).docx
- 2025年通信专业技术人员职业资格考试题库(附答案和详细解析)(1231).docx
- 2025知乎年度高分榜.docx
- 2026年宠物健康护理员考试题库(附答案和详细解析)(0104).docx
- 2026年注册交互设计师考试题库(附答案和详细解析)(0102).docx
- 2026年注册交通工程师考试题库(附答案和详细解析)(0108).docx
- 2026年注册机械工程师考试题库(附答案和详细解析)(0106).docx
- 2026年注册结构工程师考试题库(附答案和详细解析)(0103).docx
最近下载
- 公司消防课件PPT.pptx
- 2024年郴州市临武县事业单位招聘真题.docx VIP
- 2023年郴州市临武县事业单位真题及答案.docx VIP
- 郴州市临武县事业单位真题2023.docx VIP
- 临武县事业单位考试真题2022.pdf VIP
- 2024-2025 学年第一学期宝安区小学质量监测用卷 四年级数学.docx VIP
- 2024年郴州市临武县事业单位招聘考试真题.pdf VIP
- 南京市玄武区2021~2022学年九年级上学期期末考试物理试卷(校正版).pdf VIP
- 手动绞肉机设计说明书.doc VIP
- 2022年江苏省南京市玄武区九年级上学期期末物理试卷(含答案).docx VIP
原创力文档


文档评论(0)