2025年最新继续教育公需科目大数据技术及应用题库及答案.docxVIP

  • 1
  • 0
  • 约8.56千字
  • 约 25页
  • 2026-01-13 发布于四川
  • 举报

2025年最新继续教育公需科目大数据技术及应用题库及答案.docx

2025年最新继续教育公需科目大数据技术及应用题库及答案

一、单项选择题(每题1分,共40分)

1.下列哪一项最能体现大数据“4V”特征中的“Variety”?()

A.数据量达到PB级

B.数据生成速度达到毫秒级

C.同时包含结构化、半结构化与非结构化数据

D.数据价值密度极低

答案:C

解析:Variety强调数据类型多样性,C项同时涵盖三类数据形态,最贴合定义。

2.在Hadoop生态中,负责资源管理与任务调度的核心组件是()

A.HDFS

B.YARN

C.MapReduce

D.Hive

答案:B

解析:YARN(YetAnotherResourceNegotiator)承担集群资源管理与作业调度职能。

3.下列哪种存储格式最适合支持列式压缩且与SparkSQL无缝集成?()

A.JSON

B.CSV

C.Parquet

D.SequenceFile

答案:C

解析:Parquet采用列式存储,压缩比高,与SparkSQL深度优化。

4.当Kafka中topic分区数增加时,消费者组重平衡的主要目的是()

A.降低磁盘占用

B.重新分配分区与消费者对应关系

C.提高消息顺序性

D.减少网络带宽

答案:B

解析:重平衡确保新增分区被消费者组内成员公平接管。

5.在数据治理体系中,负责定义“数据应由谁、在何时、以何种方式更新”的环节是()

A.元数据管理

B.主数据管理

C.数据标准管理

D.数据责任管理

答案:D

解析:数据责任管理明确数据Owner与操作权限。

6.使用SparkMLlib训练逻辑回归模型时,默认的优化算法是()

A.SGD

B.LBFGS

C.Adam

D.CoordinateDescent

答案:B

解析:MLlib逻辑回归默认采用Limited-memoryBFGS拟牛顿法。

7.下列哪项技术最适合实现“近实时”复杂事件处理(CEP)?()

A.HadoopMapReduce

B.ApacheStorm

C.Sqoop

D.Flume

答案:B

解析:Storm提供毫秒级流式计算能力,适合CEP场景。

8.在数据仓库分层架构中,DWD层的主要作用是()

A.保存原始日志

B.进行明细数据清洗与规范化

C.面向主题汇总

D.提供数据服务接口

答案:B

解析:DWD(DataWarehouseDetail)对ODS层数据做清洗转换。

9.当使用HBase存储时,RowKey设计应避免()

A.散列化

B.顺序递增

C.反转时间戳

D.加盐

答案:B

解析:顺序RowKey易导致Region热点,影响读写性能。

10.在数据安全分级中,PII是指()

A.公共信息接口

B.个人身份信息

C.主键索引信息

D.隐私完整性指标

答案:B

解析:PII(PersonallyIdentifiableInformation)即可识别个人身份的数据。

11.下列关于数据湖的说法正确的是()

A.仅支持结构化数据

B.强制预定义Schema

C.支持“读时模式”

D.不支持ACID事务

答案:C

解析:数据湖采用“读时模式”,写入时不强制Schema。

12.在Spark中,RDD的哪类操作会触发Job提交?()

A.map

B.filter

C.reduce

D.persist

答案:C

解析:reduce属于Action,触发DAGScheduler生成Job。

13.使用Flink实现Exactly-Once语义的关键机制是()

A.异步快照Checkpoint

B.窗口合并

C.背压机制

D.增量迭代

答案:A

解析:分布式一致性快照确保故障恢复时状态不重复不丢失。

14.在数据质量管理工具中,用于检测“同一客户在不同系统性别不一致”的规则属于()

A.完备性规则

B.一致性规则

C.及时性规则

D.唯一性规则

答案:B

解析:跨系统字段值冲突体现一致性缺失。

15.下列哪项最能体现边缘计算与大数据融合的价值?()

A.降低云端存储成本

B.减少数据传输延迟

C.提高CPU主频

D.增加磁盘容量

答案:B

解析:边缘侧预处理可显著降低回传延迟,提升实时分析体验。

16.在Python数据科学栈中,用于执行分布式DataFrame的库是()

A.Pandas

B.Dask

C.NumPy

D.SciPy

答案:B

解析:Dask提供并行DataFrame接口,突破单机内存限制。

17.当ElasticSearch集群出现“脑裂”时,首要解决手段是()

A.增加副本分片

B.调整disc

文档评论(0)

1亿VIP精品文档

相关文档