2025年最新继续教育公需科目大数据技术及应用题库及答案.docxVIP

  • 1
  • 0
  • 约8.77千字
  • 约 24页
  • 2026-03-15 发布于四川
  • 举报

2025年最新继续教育公需科目大数据技术及应用题库及答案.docx

2025年最新继续教育公需科目大数据技术及应用题库及答案

一、单项选择题(每题1分,共30分)

1.在Hadoop生态中,负责资源管理与任务调度的核心组件是

A.HDFS??B.YARN??C.MapReduce??D.Hive

答案:B

解析:YARN(YetAnotherResourceNegotiator)将资源管理与计算框架解耦,统一为上层应用分配集群资源。

2.下列哪一项最能准确描述“数据湖”与“数据仓库”的本质差异

A.数据湖只能存储结构化数据

B.数据仓库采用写时模式(SchemaonWrite)

C.数据湖不支持事务

D.数据仓库的存储成本更低

答案:B

解析:数据仓库在数据写入前需定义模式,保证查询性能;数据湖采用读时模式(SchemaonRead),先存后治。

3.SparkCore的弹性分布式数据集(RDD)不具备以下哪一特性

A.可分区??B.可序列化??C.可变性??D.容错性

答案:C

解析:RDD一旦生成不可修改,通过转换算子生成新RDD,保证血统(Lineage)可回溯。

4.在Kafka中,负责持久化消息并保证顺序写的组件是

A.Producer??B.Consumer??C.Broker??D.ZooKeeper

答案:C

解析:Broker将消息追加到分区日志文件,顺序写盘,实现高吞吐。

5.使用HBase进行RowKey设计时,应避免

A.散列随机前缀??B.时间戳连续前缀??C.倒序时间戳??D.定长字节数组

答案:B

解析:连续前缀易导致Region热点,写压力集中,应通过加盐或倒序打散。

6.Flink的Checkpoint机制使用哪种分布式一致性协议

A.TwoPhaseCommit??B.Paxos??C.ChandyLamport??D.Raft

答案:C

解析:Flink采用异步屏障快照(ABS)算法,即ChandyLamport分布式快照的工业实现。

7.在数据治理成熟度模型中,达到“已管理”级别最核心的标志是

A.建立数据标准??B.实施数据质量监控??C.设立数据治理委员会??D.实现元数据自动化采集

答案:C

解析:组织保障先于技术落地,委员会明确权责,才能推动制度与流程。

8.下列关于GDPR的描述,错误的是

A.数据主体拥有“被遗忘权”

B.数据处理必须基于六种合法事由之一

C.数据控制者无需记录处理活动

D.违规最高罚款可达全球营业额4%

答案:C

解析:GDPR第30条强制要求控制者书面记录处理活动,以备监管审计。

9.在ClickHouse中,最适合做高基数去重查询的函数是

A.count()??B.uniqCombined()??C.sum()??D.topK()

答案:B

解析:uniqCombined采用HyperLogLog与哈希合并,误差率低于1%,性能优于uniqExact。

10.当使用Airflow调度Spark任务时,推荐使用的Operator是

A.BashOperator??B.PythonOperator??C.SparkSubmitOperator??D.DummyOperator

答案:C

解析:SparkSubmitOperator封装sparksubmit命令,自动管理驱动节点生命周期。

11.在数据倾斜场景下,Spark无法通过以下哪种方式缓解

A.两阶段聚合(加盐局部聚合)

B.增加shuffle分区数

C.使用mapsidejoin

D.提高executor内存上限

答案:D

解析:单纯增大内存仅延缓OOM,不能打散倾斜key,需业务层改写逻辑。

12.关于Hive事务表,以下说法正确的是

A.必须存储在ORC格式??B.支持行级更新??C.不支持分区表??D.无需开启ACID开关

答案:B

解析:Hive3.0起支持ACID,行级更新、删除,但需ORC及事务管理器配置。

13.在数据可视化中,采用“双轴图”最容易产生的误导是

A.维度过多??B.坐标轴比例不一致??C.颜色饱和??D.动画延迟

答案:B

解析:左右轴刻度比例人为放大差异,导致视觉夸大趋势。

14.某电商公司使用FlinkCEP检测“30分钟内连续登录失败5次”的欺诈行为,应选用的模式是

A.

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档