- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
HDFS默认的块大小是以下哪一项?
A.64MB
B.128MB
C.256MB
D.512MB
答案:B
解析:HDFS设计时为了减少NameNode内存占用(存储块元数据)和提高大文件处理效率,默认块大小设置为128MB(Hadoop2.x及以上版本)。早期Hadoop1.x版本默认块大小为64MB,但当前主流版本已调整为128MB,因此正确选项为B。
以下哪个组件是Hadoop生态中用于资源管理的?
A.HBase
B.Hive
C.YARN
D.Spark
答案:C
解析:YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理系统,负责集群资源的分配和任务调度。HBase是分布式列式存储数据库,Hive是数据仓库工具,Spark是计算引擎,因此正确选项为C。
Spark中RDD的核心特性是?
A.不可变、可分区、支持并行操作
B.可变、单分区、仅支持串行操作
C.不可变、单分区、支持并行操作
D.可变、可分区、仅支持串行操作
答案:A
解析:RDD(弹性分布式数据集)是Spark的核心抽象,其特性包括不可变性(创建后无法修改,只能通过转换生成新RDD)、可分区(数据分布在集群多个节点)、支持并行操作(基于分区的并行计算)。因此正确选项为A。
以下哪种场景最适合使用Flink进行处理?
A.离线日志分析(T+1)
B.实时用户行为数据流处理(毫秒级延迟)
C.历史数据批量计算(GB级)
D.静态文件的统计查询(如CSV文件)
答案:B
解析:Flink是流批一体的实时计算引擎,擅长处理低延迟、高吞吐量的实时数据流(如实时推荐、实时监控)。离线分析通常用HadoopMapReduce或SparkBatch,批量计算用Spark更高效,静态文件查询用Hive更合适。因此正确选项为B。
数据仓库(DataWarehouse)的核心特点是?
A.面向事务、实时更新、支持OLTP
B.面向主题、集成化、支持OLAP
C.面向用户、分散存储、支持实时查询
D.面向应用、结构灵活、支持频繁修改
答案:B
解析:数据仓库是面向主题的(如用户、订单主题)、集成的(整合多源数据)、非易失的(历史数据只读)、时变的(按时间维度更新),主要支持OLAP(在线分析处理)。OLTP是数据库的特点(面向事务、实时更新),因此正确选项为B。
HBase的RowKey设计中,以下哪项是错误的最佳实践?
A.避免使用递增序列(如时间戳)作为RowKey
B.长度尽可能短(建议不超过16字节)
C.按查询需求设计RowKey的前缀
D.使用随机哈希值完全打乱RowKey分布
答案:D
解析:HBase的RowKey需根据查询模式设计,若完全随机哈希会导致数据分散,无法利用RegionServer的局部性原理(如范围查询)。递增序列可能导致热点(所有写操作集中在最后一个Region),短RowKey可减少存储开销,前缀匹配支持高效查询。因此错误选项为D。
以下哪项不是数据清洗的常见操作?
A.处理缺失值(如填充均值)
B.转换数据格式(如日期字符串转时间戳)
C.计算数据统计量(如均值、方差)
D.检测并删除重复记录
答案:C
解析:数据清洗是对数据中的错误、不完整、重复或不相关部分进行处理,包括缺失值填充、格式转换、去重等。计算统计量属于数据分析步骤,不属于清洗操作。因此正确选项为C。
分布式系统中,CAP定理指的是哪三个特性无法同时满足?
A.一致性、可用性、分区容错性
B.一致性、原子性、持久性
C.可用性、可靠性、分区容错性
D.原子性、一致性、隔离性
答案:A
解析:CAP定理由EricBrewer提出,指出分布式系统中一致性(Consistency)、可用性(Availability)、分区容错性(PartitionTolerance)三者最多只能同时满足两个。原子性、一致性、隔离性、持久性(ACID)是数据库事务的特性。因此正确选项为A。
以下哪个工具用于Hive的元数据管理?
A.ZooKeeper
B.MySQL
C.HDFS
D.Spark
答案:B
解析:Hive的元数据(如表结构、分区信息)通常存储在关系型数据库中(如MySQL、PostgreSQL),ZooKeeper用于分布式协调,HDFS是存储层,Spark是计算引擎。因此正确选项为B。
实时数据流处理中,“事件时间(EventTime)”指的是?
A.数据到达处理系统的时间
B.数据在源系统中产生的时间
C.数据被写入存储的时间
D.数据处理完成的时间
答案:
您可能关注的文档
- 2025年城市更新咨询师考试题库(附答案和详细解析)(1010).docx
- 2025年翻译资格证(NAATI)考试题库(附答案和详细解析)(1014).docx
- 2025年工业大数据分析师考试题库(附答案和详细解析)(1011).docx
- 2025年活动策划师考试题库(附答案和详细解析)(1011).docx
- 2025年跨境电商运营师考试题库(附答案和详细解析)(1015).docx
- 2025年普通话水平测试考试题库(附答案和详细解析)(1014).docx
- 2025年企业内训师认证考试题库(附答案和详细解析)(1014).docx
- 2025年青少年心理成长导师考试题库(附答案和详细解析)(1013).docx
- 2025年社会心理服务人员考试题库(附答案和详细解析)(1011).docx
- 2025年移动安全工程师考试题库(附答案和详细解析)(1013).docx
- GB/Z 10062.20-2025锥齿轮承载能力计算方法 第20部分:胶合承载能力计算 闪温法.pdf
- 中国国家标准 GB/Z 10062.20-2025锥齿轮承载能力计算方法 第20部分:胶合承载能力计算 闪温法.pdf
- 《GB/T 46713.1-2025轨道交通 机车车辆 辅助供电系统蓄电池 第1部分:通用要求》.pdf
- GB/T 46713.1-2025轨道交通 机车车辆 辅助供电系统蓄电池 第1部分:通用要求.pdf
- 中国国家标准 GB/T 46713.1-2025轨道交通 机车车辆 辅助供电系统蓄电池 第1部分:通用要求.pdf
- 《GB 19079.19-2025体育场所开放条件与技术要求 第19部分:拓展场所》.pdf
- 中国国家标准 GB 19079.19-2025体育场所开放条件与技术要求 第19部分:拓展场所.pdf
- GB 19079.19-2025体育场所开放条件与技术要求 第19部分:拓展场所.pdf
- GB/T 4937.25-2025半导体器件 机械和气候试验方法 第25部分:温度循环.pdf
- 中国国家标准 GB/T 4937.25-2025半导体器件 机械和气候试验方法 第25部分:温度循环.pdf
原创力文档


文档评论(0)