- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
HDFS默认数据块大小为?
A.32MB
B.64MB
C.128MB
D.256MB
答案:C
解析:Hadoop2.x及以上版本中,HDFS默认数据块大小为128MB(早期1.x版本为64MB)。设计大块大小的目的是减少NameNode元数据内存占用,提升大文件读写效率。选项A、B为旧版本或非默认值,D为常见自定义配置值,均非默认。
SparkRDD的核心特性不包括?
A.不可变性
B.自动持久化
C.可分区
D.惰性计算
答案:B
解析:RDD(弹性分布式数据集)的核心特性包括:不可变性(创建后不可修改,仅通过转换生成新RDD)、可分区(分布式存储的基础)、惰性计算(转换操作仅记录逻辑,行动操作触发计算)。自动持久化并非RDD固有特性,需显式调用cache()或persist()实现。
Flink中处理事件时间乱序数据的核心机制是?
A.窗口触发
B.水印(Watermark)
C.状态后端
D.检查点(Checkpoint)
答案:B
解析:水印机制通过设定“事件时间已到达某一时刻”的标识,告知Flink系统不再接收该时间点之前的数据,从而允许系统处理乱序数据并触发窗口计算。窗口触发是结果输出的动作,状态后端管理状态存储,检查点用于容错,均非处理乱序的核心。
Kafka生产者中,acks=all表示?
A.无需等待Broker确认
B.仅等待Leader确认
C.等待Leader和所有ISR副本确认
D.等待任意一个副本确认
答案:C
解析:Kafka的acks参数控制消息确认机制:acks=0(无需确认)、acks=1(Leader确认)、acks=all(Leader和所有同步副本(ISR)确认)。选项C正确,其他选项对应不同acks值。
HBase的RowKey设计原则中,错误的是?
A.长度越短越好
B.散列化以避免热点
C.按业务逻辑排序
D.包含时间戳以支持历史查询
答案:A
解析:HBaseRowKey需平衡长度与信息完整性,过短可能导致冲突,通常建议不超过16字节(而非“越短越好”)。其他选项均为正确原则:散列化(如加盐)避免Region热点,排序性支持范围查询,时间戳可按时间维度检索。
数据仓库(DW)的核心特性不包括?
A.面向事务
B.面向主题
C.集成性
D.时变性
答案:A
解析:数据仓库的核心特性是面向主题(按业务主题组织数据)、集成性(多源数据清洗整合)、稳定性(读多写少,支持历史数据)、时变性(包含时间维度)。面向事务是OLTP数据库的特性。
分布式计算框架中,容错机制的实现不依赖?
A.检查点(Checkpoint)
B.日志重放
C.数据多副本
D.动态扩缩容
答案:D
解析:容错机制通过检查点(存储计算状态)、日志重放(重新执行任务)、数据多副本(如HDFS的3副本)实现。动态扩缩容是弹性计算能力,与容错无直接关联。
数据湖(DataLake)与数据仓库(DW)的关键区别是?
A.数据存储量
B.数据结构化程度
C.数据时效性
D.数据安全性
答案:B
解析:数据湖支持结构化、半结构化、非结构化数据(“存而不治”),数据仓库仅存储结构化数据(“先建模后存储”)。其他选项(存储量、时效性、安全性)非核心差异。
机器学习特征工程中,“将用户访问频率从‘高/中/低’转换为数值1/2/3”属于?
A.特征提取
B.特征选择
C.特征构造
D.特征编码
答案:D
解析:特征编码是将类别型特征转换为数值型的过程(如独热编码、标签编码)。特征提取(从原始数据抽取新特征)、特征选择(筛选关键特征)、特征构造(组合现有特征生成新特征)均不符合题意。
实时计算框架的典型延迟指标是?
A.分钟级
B.秒级
C.小时级
D.天级
答案:B
解析:实时计算要求低延迟(通常秒级或毫秒级),批处理为分钟级或小时级。秒级是流处理框架(如Flink)的典型延迟指标。
二、多项选择题(共10题,每题2分,共20分)
以下属于Hadoop生态核心组件的有?
A.HDFS
B.Spark
C.YARN
D.MapReduce
答案:ACD
解析:Hadoop核心组件包括HDFS(分布式存储)、YARN(资源管理)、MapReduce(批处理计算)。Spark是独立的计算框架,属于大数据生态但非Hadoop原生组件。
Spark的核心模块包括?
A.SparkCore
B.SparkSQL
C.SparkStreaming
D.SparkMLlib
答案:ABCD
解析:Spark生态包含Core(基础API)、SQL(结构化数据处
您可能关注的文档
- 2025年注册空调工程师考试题库(附答案和详细解析)(1026).docx
- 2025年谷歌云认证考试题库(附答案和详细解析)(1028).docx
- 2025年中医养生保健师考试题库(附答案和详细解析)(1027).docx
- 2025年注册职业卫生评估师考试题库(附答案和详细解析)(1029).docx
- 2025年房地产估价师考试题库(附答案和详细解析)(1030).docx
- 2025年注册策划师考试题库(附答案和详细解析)(1029).docx
- 2025年数据隐私合规师(DPO)考试题库(附答案和详细解析)(1029).docx
- 2025年计算机技术与软件专业技术资格(软考)考试题库(附答案和详细解析)(1029).docx
- 2025年3D打印工程师考试题库(附答案和详细解析)(1101).docx
- 2025年注册土木工程师考试题库(附答案和详细解析)(1030).docx
- 2025至2030隧道设备行业发展研究与产业战略规划分析评估报告.docx
- 2026中国电动角磨机行业现状规模与投资盈利预测报告.docx
- 2025至2030田园综合体行业兼并重组机会研究及决策咨询报告.docx
- 2025至2030酒店清洁用品行业调研及市场前景预测评估报告.docx
- 2025至2030数码电子行业市场发展现状及并购重组策略与投融资报告.docx
- 2026-2030中国ip协议电话市场发展动态与投资规划预测研究报告.docx
- 2025-2030中国夹布输水胶管市场供求风险及投资运行态势剖析研究报告版.docx
- 2025至2030MiniLED显示面板行业竞争态势及产能规划分析报告.docx
- 2026中国会议室摄像系统行业盈利动态与投资前景预测报告.docx
- 2025至2030台湾汽车行业市场发展分析及有效策略与实施路径评估报告.docx
最近下载
- DB13T 1065-2009 小麦粉生制品.docx VIP
- TCRHA 089-2024 成人床旁心电监测护理规程.pdf VIP
- 《公路泡沫轻质土应用技术规范》DB51T 3286-2025(四川标准).pdf
- 保密管理手册.doc VIP
- Danfoss丹佛斯T90变量轴向柱塞泵,产品样本 用户指南.pdf
- 农业生态与可持续耕作制度知到智慧树期末考试答案题库2025年华南农业大学.docx VIP
- ISO 15189-2022中文版翻译全文.pdf VIP
- 人教PEP版(新教材)四年级上册英语Unit 4《Helping in the community》B Read and write教学课件.pptx
- 管件尺寸表.doc VIP
- T_SSCE0001-2021:轴力自动补偿钢支撑技术规程.pdf VIP
原创力文档


文档评论(0)