2025年最新公需科目《大数据》完整考试题库(含答案).docxVIP

  • 0
  • 0
  • 约6.28千字
  • 约 19页
  • 2025-10-22 发布于四川
  • 举报

2025年最新公需科目《大数据》完整考试题库(含答案).docx

2025年最新公需科目《大数据》完整考试题库(含答案)

一、单项选择题(每题2分,共40分)

1.下列哪项不属于大数据的“5V”特征?()

A.大量(Volume)

B.高速(Velocity)

C.多样(Variety)

D.精准(Veracity)

答案:D(注:大数据5V特征为大量、高速、多样、低价值密度(Value)、真实性(Veracity),无“精准”)

2.Hadoop生态中,负责分布式文件存储的核心组件是()

A.MapReduce

B.HDFS

C.HBase

D.Spark

答案:B(HDFS是Hadoop分布式文件系统,用于存储大规模数据)

3.以下哪种数据处理方式适用于实时数据流分析?()

A.批处理

B.流处理

C.离线处理

D.全量处理

答案:B(流处理专注于实时或近实时的数据流处理,如Flink、KafkaStreams)

4.数据清洗的主要目的是()

A.增加数据量

B.消除数据中的错误、冗余和不一致

C.提升数据存储效率

D.转换数据格式

答案:B(数据清洗通过处理缺失值、异常值、重复值等,提高数据质量)

5.下列哪项属于非结构化数据?()

A.Excel表格

B.关系型数据库表

C.社交媒体评论

D.财务报表

答案:C(非结构化数据无固定格式,如文本、图像、视频等)

6.分布式计算框架Spark的核心抽象是()

A.RDD(弹性分布式数据集)

B.DataFrame

C.Dataset

D.DStream

答案:A(RDD是Spark的核心数据结构,支持容错和并行操作)

7.数据仓库(DataWarehouse)与传统数据库的主要区别是()

A.数据仓库支持事务处理,数据库支持分析处理

B.数据仓库存储实时数据,数据库存储历史数据

C.数据仓库面向分析,数据库面向事务

D.数据仓库结构固定,数据库结构灵活

答案:C(数据仓库是面向主题的、集成的、非易失的、随时间变化的数据集合,主要用于决策分析)

8.隐私计算技术中,“联邦学习”的核心目标是()

A.在不共享原始数据的前提下联合建模

B.加密所有数据传输过程

C.提高数据计算速度

D.统一不同机构的数据格式

答案:A(联邦学习通过加密机制在多参与方间协同训练模型,保护数据隐私)

9.下列哪项属于大数据分析中的关联分析技术?()

A.客户分群(聚类)

B.购物篮分析(Apriori算法)

C.销量预测(回归分析)

D.情感分析(文本分类)

答案:B(关联分析用于发现数据项之间的关联规则,如“买啤酒的人常买尿布”)

10.大数据技术栈中,负责数据实时订阅与传输的工具是()

A.Flume

B.Kafka

C.Sqoop

D.Oozie

答案:B(Kafka是高吞吐量的分布式消息队列,用于实时数据流传输)

11.数据湖(DataLake)与数据仓库的主要差异在于()

A.数据湖存储结构化数据,数据仓库存储非结构化数据

B.数据湖在存储时不定义模式,数据仓库需提前定义模式

C.数据湖仅用于离线分析,数据仓库支持实时分析

D.数据湖成本更高,数据仓库成本更低

答案:B(数据湖采用“读时模式”(SchemaonRead),数据仓库采用“写时模式”(SchemaonWrite))

12.以下哪项不属于大数据安全风险?()

A.数据泄露

B.数据主权争议

C.数据冗余

D.算法偏见

答案:C(数据冗余是数据质量问题,非安全风险)

13.区块链与大数据结合的典型应用是()

A.提升数据存储容量

B.实现数据可追溯与防篡改

C.加速数据计算速度

D.简化数据清洗流程

答案:B(区块链的分布式账本特性可确保数据操作可追溯且不可篡改)

14.衡量大数据处理系统扩展性的关键指标是()

A.吞吐量(Throughput)

B.延迟(Latency)

C.可扩展性(Scalability)

D.容错性(FaultTolerance)

答案:C(可扩展性指系统随数据量增长灵活扩展资源的能力)

15.下列哪项属于大数据采集的“主动采集”方式?()

A.传感器自动上传环境数据

B.用户填写在线问卷

C.网络爬虫抓取网页内容

D.数据库日

文档评论(0)

1亿VIP精品文档

相关文档