2026年数据科学与大数据应用专题题库.docxVIP

  • 1
  • 0
  • 约4.52千字
  • 约 15页
  • 2026-05-24 发布于福建
  • 举报

2026年数据科学与大数据应用专题题库.docx

第PAGE页共NUMPAGES页

2026年数据科学与大数据应用专题题库

一、单选题(每题2分,共20题)

(注:本部分题目侧重数据科学基础理论及大数据技术应用场景,结合中国区域经济发展特点)

1.在大数据处理中,Hadoop生态系统中的HDFS主要用于什么?

A.实时数据流处理

B.分布式文件存储

C.图数据库管理

D.搜索引擎索引构建

答案:B

解析:HDFS(HadoopDistributedFileSystem)是Hadoop的核心组件,设计用于在廉价硬件集群上存储超大规模文件,支持高吞吐量访问,适合批处理场景。

2.以下哪种算法不属于监督学习?

A.决策树

B.K-means聚类

C.线性回归

D.逻辑回归

答案:B

解析:K-means聚类属于无监督学习,通过迭代优化簇内距离最小化进行数据分组,无需标签数据。

3.下列哪个工具最适合实时流数据处理?

A.Spark

B.Flink

C.Hive

D.TensorFlow

答案:B

解析:Flink(ApacheFlink)是专门为流处理设计的分布式计算框架,支持事件时间处理、状态管理等功能,适合金融风控等实时场景。

4.在数据预处理中,处理缺失值最常用的方法是什么?

A.删除含有缺失值的行

B.均值/中位数/众数填充

C.KNN插值

D.以上都是

答案:

文档评论(0)

1亿VIP精品文档

相关文档