- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
HDFS默认的块大小是以下哪一项?
A.32MB
B.64MB
C.128MB
D.256MB
答案:C
解析:Hadoop2.x及以上版本中,HDFS默认块大小为128MB(早期Hadoop1.x为64MB)。设计大块大小的目的是减少NameNode内存占用并提升数据传输效率。选项A、B为旧版本或自定义配置值,D为非默认值。
SparkRDD的核心特性不包括?
A.不可变性
B.可分区
C.支持原地修改
D.弹性(自动容错)
答案:C
解析:RDD(弹性分布式数据集)是Spark的核心抽象,具有不可变性(创建后无法修改,只能通过转换生成新RDD)、可分区(数据分布在集群节点)、弹性(通过血统信息自动容错)的特性。C选项“支持原地修改”与不可变性矛盾,故错误。
Kafka中消费者组(ConsumerGroup)的主要作用是?
A.提高生产者的消息发送速率
B.实现消息的负载均衡与故障转移
C.存储消息的元数据信息
D.限制消费者的连接数量
答案:B
解析:消费者组通过将主题的分区分配给组内消费者,实现消息的并行消费(负载均衡);当消费者故障时,分区会重新分配给其他消费者(故障转移)。A是生产者配置优化的目标,C是ZooKeeper或Kafka内部元数据存储的功能,D无此设计。
Hive的默认执行引擎是?
A.Spark
B.Tez
C.MapReduce
D.Flink
答案:C
解析:Hive1.x及早期版本默认使用MapReduce作为执行引擎;后续版本支持通过配置切换为Tez或Spark,但默认仍为MapReduce。A、B、D为可选引擎,非默认。
数据倾斜(DataSkew)通常最可能发生在以下哪种操作中?
A.数据过滤(Filter)
B.字段投影(Select)
C.分组聚合(GroupBy)
D.数据去重(Distinct)
答案:C
解析:数据倾斜指数据在分区或节点上分布不均,导致部分任务运行缓慢。分组聚合(如COUNT、SUM)需要将相同键的数据分发到同一节点,若某些键对应的数据量远大于其他键,会引发倾斜。A、B、D操作不涉及数据重分区,不易导致倾斜。
Flink支持的时间类型不包括?
A.处理时间(ProcessingTime)
B.事件时间(EventTime)
C.摄入时间(IngestionTime)
D.系统时间(SystemTime)
答案:D
解析:Flink定义了三种时间类型:处理时间(算子处理数据的时间)、事件时间(数据本身携带的时间戳)、摄入时间(数据进入Flink流的时间)。系统时间是操作系统的时间,Flink未将其单独定义为时间类型。
分布式文件系统(如HDFS)的核心设计目标是?
A.支持低延迟的随机读写
B.高吞吐量的批量数据访问
C.实时响应小文件请求
D.保证强一致性
答案:B
解析:分布式文件系统主要用于大数据场景(如日志、传感器数据),设计目标是通过分块、副本机制实现高吞吐量的批量数据读写。A、C是本地文件系统或数据库的特点;D在HDFS中通过“一次写入多次读取”保证,非核心目标。
以下哪项不是数据仓库(DataWarehouse)的典型特征?
A.面向主题(Subject-Oriented)
B.实时更新(Real-TimeUpdating)
C.集成的(Integrated)
D.随时间变化(Time-Variant)
答案:B
解析:数据仓库存储的是历史数据,通常通过ETL定期更新(如每日/小时),而非实时更新。其典型特征包括面向主题(按业务主题组织数据)、集成(整合多源数据)、稳定(非易失)、随时间变化(包含时间维度)。
以下属于监督学习(SupervisedLearning)的算法是?
A.K-Means聚类
B.主成分分析(PCA)
C.决策树(DecisionTree)
D.关联规则挖掘(Apriori)
答案:C
解析:监督学习需要标注的训练数据(输入-输出对),决策树通过学习特征与标签的关系进行预测。A、B、D是无监督学习(无标签数据),分别用于聚类、降维、关联分析。
实时数据处理系统的典型延迟要求是?
A.分钟级(60秒)
B.秒级(1-60秒)
C.毫秒级(1秒)
D.小时级(3600秒)
答案:C
解析:实时处理强调低延迟,通常要求毫秒级(如实时推荐、风控);秒级属于近实时,分钟/小时级为批量处理。
二、多项选择题(共10题,每题2分,共20分)
以下属于Hadoop生态核心组件的有?
A.HDFS
B.YARN
C.MapReduce
D.Spark
您可能关注的文档
- 2025年ESG分析师认证(CESGA)考试题库(附答案和详细解析)(1215).docx
- 2025年云计算架构师考试题库(附答案和详细解析)(1212).docx
- 2025年健康管理师考试题库(附答案和详细解析)(1128).docx
- 2025年基金从业资格考试考试题库(附答案和详细解析)(1215).docx
- 2025年影视后期制作师考试题库(附答案和详细解析)(1216).docx
- AI教育平台合作书.docx
- 《著作权法》合理使用中“个人学习+时事新闻”的情形认定.docx
- 中级会计实务中长期股权投资的难点.docx
- 事件驱动策略的业绩预告事件回测.docx
- 交通事故认定书复核流程及案例.docx
原创力文档


文档评论(0)