- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下关于HDFS默认块大小的描述,正确的是()
A.64MB
B.128MB
C.256MB
D.512MB
答案:B
解析:HDFS设计时为了减少NameNode内存占用并优化大文件存储,默认块大小为128MB(Hadoop2.x及以上版本)。64MB是早期Hadoop1.x的默认值,256MB和512MB为可配置的扩展选项,并非默认值。
以下不属于Spark核心组件的是()
A.SparkCore
B.SparkSQL
C.SparkStreaming
D.SparkGraphX
答案:无(注:本题为示例调整,正确应为“以下不属于”的选项。实际命题中需确保唯一正确选项。)
(修正示例)正确题目:以下不属于Hadoop生态系统的组件是()
A.Hive
B.Flink
C.HBase
D.ZooKeeper
答案:B
解析:Hadoop生态系统包括HDFS(存储)、YARN(资源管理)、MapReduce(计算)及衍生组件如Hive(数据仓库)、HBase(列式存储)、ZooKeeper(协调服务)。Flink是独立的流处理框架,不属于Hadoop原生生态。
实时数据流处理场景中,最适合的计算框架是()
A.HadoopMapReduce
B.SparkCore
C.Flink
D.Hive
答案:C
解析:Flink是专为流处理设计的框架,支持毫秒级延迟和精确一次处理语义,适合实时数据流场景。MapReduce和SparkCore以批处理为主,Hive是基于Hadoop的数据仓库工具,侧重离线分析。
数据清洗中处理“缺失值”的常用方法不包括()
A.删除缺失记录
B.用均值填充
C.用随机数填充
D.回归预测填充
答案:C
解析:数据清洗中缺失值处理需保持数据逻辑一致性,随机数填充可能破坏数据分布,因此不常用。常用方法包括删除记录(数据量充足时)、均值/中位数填充(数值型)、回归预测(利用其他变量预测缺失值)。
以下关于Kafka分区(Partition)的描述,错误的是()
A.分区用于实现数据的水平扩展
B.同一分区内的数据按写入顺序有序
C.分区数越多,消费者并行度越高
D.分区数可以动态减少
答案:D
解析:Kafka分区数支持动态增加(通过kafka-topics--alter命令),但无法减少(删除分区会导致数据丢失且无内置迁移机制)。分区的核心作用是通过多副本和多消费者组实现高吞吐与并行处理。
机器学习平台中,用于特征工程的常用工具是()
A.TensorFlow
B.SparkMLlib
C.HBase
D.Kafka
答案:B
解析:SparkMLlib是Spark的机器学习库,提供特征提取(如TF-IDF)、转换(如标准化)、选择等工具,适合大规模数据的特征工程。TensorFlow是深度学习框架,HBase是存储,Kafka是消息队列。
数据仓库(DataWarehouse)的核心特性是()
A.支持实时写入
B.面向事务处理
C.面向主题、集成、稳定、时变
D.支持高并发查询
答案:C
解析:数据仓库的四大特性是面向主题(围绕业务主题组织数据)、集成(多源数据整合)、稳定(非易失,主要读操作)、时变(包含时间维度)。实时写入和高并发是OLTP系统特性,面向事务处理是数据库的特点。
以下不属于分布式计算框架设计目标的是()
A.高可靠性
B.强一致性
C.可扩展性
D.容错性
答案:B
解析:分布式系统中,强一致性(如单节点数据库的ACID)难以在大规模集群中实现(CAP定理限制),因此分布式计算框架通常追求最终一致性。高可靠性、可扩展性、容错性是核心设计目标。
数据安全中“脱敏处理”的主要目的是()
A.提升数据存储效率
B.防止敏感信息泄露
C.优化数据查询性能
D.减少数据存储成本
答案:B
解析:脱敏处理(如对身份证号打码、手机号隐藏中间四位)是为了在不影响数据可用性的前提下,保护个人隐私或企业敏感信息,属于数据安全的核心措施。
元数据(Metadata)管理的核心作用是()
A.存储原始业务数据
B.描述数据的来源、结构和含义
C.加速数据计算过程
D.实现数据实时同步
答案:B
解析:元数据是“关于数据的数据”,用于记录数据的来源(如ETL任务)、结构(如表字段类型)、业务含义(如“用户ID”的定义),是数据治理和血缘分析的基础。原始数据存储由HDFS等存储系统完成。
二、多项选择题(共10题,每题2分,共20分)
以下属于HBase特性的有()
A.列式存储
B.支持AC
您可能关注的文档
- 2025年中药调剂师考试题库(附答案和详细解析)(1231).docx
- 2025年翻译资格证(NAATI)考试题库(附答案和详细解析)(1219).docx
- 2025年验光师考试题库(附答案和详细解析)(1223).docx
- 2025年执业药师资格考试考试题库(附答案和详细解析)(1220).docx
- 信用违约互换(CDS)的定价模型改进及风险对冲.docx
- 2026年游戏行业年终计划方案.pptx
- 2026年家政行业年终总结汇报范文.pptx
- 2026年伤口护理效果评价培训课件.pptx
- 2026年眼科医疗年终分析汇报.pptx
- 2026年农产品业务总结PPT.pptx
- 主题课程整理大班上.doc
- 2026人教版小学语文三年级上册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学语文四年级下册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学二年级上册数学期末综合试卷精选3套(含答案解析).docx
- 2026人教版小学语文四年级上册期末综合试卷3套(含答案解析).docx
- 2026人教版小学二年级下册数学期末综合试卷3套(打印版含答案解析).docx
- 2026年地理信息行业年终总结汇报PPT.pptx
- 板块四第二十一单元封建时代的欧洲和亚洲 中考历史一轮复习.pptx
- 中考历史一轮复习:板块四第二十单元古代亚、非、欧文明+课件.pptx
- 第二次工业革命和近代科学文化中考历史一轮复习.pptx
最近下载
- 部编人教版小学四年级语文上册单元测试卷附答案(全册).pdf VIP
- 2020年7月青海省普通高中学业水平考试物理(附解析).docx VIP
- 采空区处理施工方案.pdf VIP
- 华中科技大学814电路理论考研真题及答案1997-2013.pdf
- 中国多发性骨髓瘤自体造血干细胞移植指南(2021年版).pdf VIP
- 《给排水及暖通工程监理实施细则》.doc
- 2024—2025学年高二上学期期末物理试卷.docx VIP
- 人才引进合同模板(含2025年培养计划).docx
- 2024-2025学年中国药科大学《物理化学》试卷及答案.docx VIP
- 2025-2026学年小学数学三年级上册苏教版(2024)教学设计合集.docx
原创力文档


文档评论(0)