- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
大数据的核心特征“4V”不包括以下哪项?
A.Volume(大量)
B.Velocity(高速)
C.Veracity(真实性)
D.Variety(多样)
答案:C
解析:大数据的经典“4V”特征为Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)。Veracity(真实性)是部分扩展定义中提及的补充特征,但不属于核心“4V”。
HDFS默认的块大小是?
A.32MB
B.64MB
C.128MB
D.256MB
答案:C
解析:HDFS设计用于存储大文件,默认块大小为128MB(Hadoop2.x及以上版本),较大的块大小可减少NameNode元数据存储压力,并提升数据传输效率。
Spark中RDD的persist()方法默认的持久化级别是?
A.MEMORY_ONLY
B.MEMORY_AND_DISK
C.MEMORY_ONLY_SER
D.DISK_ONLY
答案:A
解析:persist()默认使用MEMORY_ONLY级别,即仅将RDD存储在内存中,不进行序列化;若内存不足则部分分区会被丢弃,需重新计算。
Flink中用于处理乱序事件的时间类型是?
A.处理时间(ProcessingTime)
B.事件时间(EventTime)
C.摄入时间(IngestionTime)
D.窗口时间(WindowTime)
答案:B
解析:事件时间(EventTime)基于数据本身携带的时间戳,是处理乱序数据的核心机制;处理时间基于算子处理数据的系统时间,无法应对乱序场景。
Hive中推荐使用的列式存储格式是?
A.TextFile
B.SequenceFile
C.ORC
D.Avro
答案:C
解析:ORC(OptimizedRowColumnar)是Hive优化的列式存储格式,支持高效压缩、索引和谓词下推,相比TextFile等行式存储能显著提升查询性能。
Kafka中消费者组(ConsumerGroup)的核心作用是?
A.保证消息有序性
B.实现负载均衡
C.提高生产者吞吐量
D.管理主题分区
答案:B
解析:消费者组通过将主题分区分配给组内不同消费者,实现消息的并行消费,从而达到负载均衡的目的;同一分区内消息对组内消费者是独占的。
以下哪种分布式计算框架更适合迭代计算场景?
A.MapReduce
B.Spark
C.Storm
D.Flink
答案:B
解析:Spark基于内存计算的RDD模型,支持数据在内存中多次迭代使用,相比MapReduce(每次计算需读写磁盘)更适合机器学习等迭代场景。
数据仓库分层中,用于存储明细数据的层是?
A.ODS(原始数据层)
B.DWD(明细数据层)
C.DWS(汇总数据层)
D.ADS(应用数据层)
答案:B
解析:DWD(DataWarehouseDetail)层存储经过清洗、规范化的明细数据,是数据仓库的核心层;ODS层为原始数据的直接镜像,未做深度处理。
HBase属于以下哪种NoSQL数据库类型?
A.键值存储(Key-Value)
B.列族存储(Column-Family)
C.文档存储(Document)
D.图存储(Graph)
答案:B
解析:HBase基于GoogleBigtable设计,采用列族(ColumnFamily)存储模型,适合存储海量稀疏数据(如日志、时序数据)。
机器学习中,对特征进行“归一化”处理的主要目的是?
A.减少特征数量
B.消除特征量纲差异
C.提高模型泛化能力
D.增强特征可解释性
答案:B
解析:归一化(如Min-MaxScaling)通过将特征值缩放到[0,1]区间,消除不同特征因量纲(如米和千克)导致的数值差异,避免模型对大数值特征过度敏感。
二、多项选择题(共10题,每题2分,共20分)
以下属于Hadoop核心生态组件的有?
A.HDFS
B.YARN
C.MapReduce
D.Hive
答案:ABCD
解析:Hadoop核心生态包括存储层(HDFS)、资源管理层(YARN)、计算框架(MapReduce),以及上层工具(Hive)。HBase、Spark等属于扩展组件。
Spark的部署模式包括?
A.Standalone
B.YARN
C.Mesos
D.Kubernetes
答案:ABCD
解析:Spark支持Standalone(独立集群)、YARN(Hadoop资源管理)、Mesos(通用资源管理)和Kubernetes(容器编排)四种部署模式。
数据清洗的主要
您可能关注的文档
- 2025年BIM工程师资格认证考试题库(附答案和详细解析)(1127).docx
- 2025年一级建造师考试题库(附答案和详细解析)(1127).docx
- 2025年中药调剂师考试题库(附答案和详细解析)(1121).docx
- 2025年临床医学检验技术资格考试题库(附答案和详细解析)(1127).docx
- 2025年企业数字化战略师考试题库(附答案和详细解析)(1123).docx
- 2025年强化学习工程师考试题库(附答案和详细解析)(1120).docx
- 2025年摄影师职业资格考试题库(附答案和详细解析)(1127).docx
- 2025年注册交通工程师考试题库(附答案和详细解析)(1127).docx
- 2025年注册信息安全经理(CISM)考试题库(附答案和详细解析)(1127).docx
- 2025年注册信息架构师考试题库(附答案和详细解析)(1124).docx
最近下载
- 2022年定西市第一人民医院医护人员招聘考试试题及答案解析.docx VIP
- 2018江苏高考数学试卷及解析.pdf VIP
- 大学生职业生涯规划PPT.pptx VIP
- 重庆市巴蜀2024-2025学年高一上学期期中物理试题含答案.docx VIP
- 22J611-4 金属结构大门.docx VIP
- 成考教育理论成人高考(专升本)2025年复习试题及答案指导.docx VIP
- 直接引语变间接引语练习.docx VIP
- 2022年定西市人民医院医护人员招聘考试题库及答案解析.docx VIP
- 直接引语变间接引语练习.doc VIP
- 中国髓鞘少突胶质细胞糖蛋白抗体相关疾病诊断与治疗指南(2025版).pdf VIP
原创力文档


文档评论(0)