2025年大数据工程技术人员初级理论考核试题及答案.docxVIP

2025年大数据工程技术人员初级理论考核试题及答案.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年大数据工程技术人员初级理论考核试题及答案

一、单项选择题(每题1分,共30分)

1.在Hadoop生态中,负责资源管理与任务调度的组件是

A.HDFS??B.YARN??C.MapReduce??D.Hive

答案:B

解析:YARN(YetAnotherResourceNegotiator)是Hadoop2.x引入的资源管理层,负责集群资源分配与任务调度,解耦了计算与存储。

2.下列哪种文件格式最适合存储大量小文件且支持切分

A.ORC??B.Parquet??C.SequenceFile??D.TextFile

答案:C

解析:SequenceFile以键值对形式组织,内置压缩与切分支持,可合并小文件,降低NameNode内存压力。

3.Spark中RDD的默认分区数由哪个参数决定

A.spark.default.parallelism??B.spark.sql.shuffle.partitions

C.spark.executor.cores??D.spark.task.cpus

答案:A

解析:spark.default.parallelism控制RDD默认分区数,对未指定分区算子生效;B仅对DataFrameshuffle生效。

4.Kafka的consumergroup重平衡触发条件不包括

A.新consumer加入??B.consumer崩溃

C.topic分区扩容??D.broker宕机

答案:D

解析:broker宕机不会直接触发重平衡,只有consumer成员变化或订阅分区数变化才会。

5.在Flink的时间语义中,EventTime是指

A.数据进入Flink的时间??B.数据被处理的时间

C.事件在源头发生的时间??D.数据落盘的时间

答案:C

解析:EventTime由业务字段携带,需配合watermark处理乱序,保证结果一致性。

6.HDFS写入流程中,客户端首先与哪个节点交互

A.DataNode??B.SecondaryNameNode??C.NameNode??D.JournalNode

答案:C

解析:客户端写文件前需向NameNode申请block位置,获取DataNode列表后再建立pipeline。

7.下列哪项不是Hive支持的复合数据类型

A.STRUCT??B.MAP??C.ARRAY??D.SET

答案:D

解析:Hive支持STRUCT/MAP/ARRAY,无SET类型,可用ARRAY去重函数模拟。

8.在MySQLbinlog格式中,记录前后镜像的是

A.STATEMENT??B.ROW??C.MIXED??D.TRIGGER

答案:B

解析:ROW格式记录每行变更前后完整数据,方便CDC工具解析,但体积较大。

9.使用Sqoop将MySQL数据导入Hive时,若目标表已存在且需追加,应加参数

A.--create-hive-table??B.--hive-overwrite

C.--append??D.--hive-import

答案:C

解析:--append将新数据追加到已存在Hive表,避免覆盖历史分区。

10.在Elasticsearch中,用于精确匹配未分词值的查询是

A.match??B.term??C.range??D.wildcard

答案:B

解析:term查询对字段做精确匹配,不对搜索词分词,适合keyword类型。

11.数据仓库分层中,DWD层主要作用

A.保存原始日志??B.明细数据清洗与规范化

C.汇总指标计算??D.面向主题宽表

答案:B

解析:DWD(DataWarehouseDetail)对ODS层做清洗、脱敏、维度退化为后续计算服务。

12.在Scala中,下列哪个符号用于不可变变量声明

A.var??B.val??C.def??D.lazy

答案:B

解析:val声明不可变引用,var声明可变引用,两者均为Scala语法基础。

13.数据质量维度中,衡量同一指标在多系统中数值一致性的指标是

A.完整性??B.一致性??C.及时性??D.唯一性

答案:B

解析:一致性指跨系统同一业务含义数据值相同,需通过主数据管理或校验规则保障。

14.在Linux中,查看某目录磁盘占用的命令是

A.df-h??B.du-sh??C.ls-lh??D.top

答案:B

解析:du-sh统计

文档评论(0)

136****4675 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档