大数据分析师面试题及答案.docxVIP

  • 0
  • 0
  • 约4.04千字
  • 约 11页
  • 2026-03-23 发布于福建
  • 举报

第PAGE页共NUMPAGES页

2026年大数据分析师面试题及答案

一、选择题(共5题,每题2分)

1.在处理大规模数据集时,以下哪种技术最适合用于快速聚合和统计?

A.MapReduce

B.SparkSQL

C.HadoopStreaming

D.HiveQL

2.假设你正在使用Python的Pandas库进行数据清洗,以下哪个函数最适合用于去除重复值?

A.`fillna()`

B.`dropna()`

C.`drop_duplicates()`

D.`unique()`

3.在分布式系统中,HDFS的默认副本数量是多少?

A.1

B.2

C.3

D.4

4.以下哪种模型最适合用于预测连续型目标变量?

A.LogisticRegression

B.DecisionTree

C.RandomForest

D.K-NearestNeighbors

5.在数据仓库中,星型模型的中心通常是?

A.事实表

B.维度表

C.中间表

D.汇总表

二、填空题(共5题,每题2分)

1.在Spark中,用于缓存数据的操作是______。

答案:`cache()`或`persist()`

2.SQL中的GROUPBY子句通常与______结合使用以进行聚合计算。

答案:`HAVING`

3.在机器学习中的过拟合现象通

文档评论(0)

1亿VIP精品文档

相关文档