- 1
- 0
- 约3.28千字
- 约 9页
- 2026-02-06 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年程序员大数据分析面试题含答案
一、选择题(共5题,每题2分)
1.在Hadoop生态系统中,以下哪个组件主要负责分布式文件存储?
A.Hive
B.HDFS
C.YARN
D.Spark
2.以下哪种SQL窗口函数常用于计算移动平均?
A.`GROUPBY`
B.`ROW_NUMBER()`
C.`LAG()`
D.`COUNT()`
3.在数据预处理中,处理缺失值最常用的方法是?
A.删除缺失行
B.填充均值
C.插值法
D.以上都是
4.SparkSQL中,以下哪个操作符用于连接两个数据框(DataFrame)?
A.`JOIN`
B.`MERGE`
C.`UNION`
D.`appenD`
5.在机器学习特征工程中,以下哪种方法属于降维技术?
A.PCA(主成分分析)
B.标准化
C.独热编码
D.特征交互
二、填空题(共5题,每题2分)
1.大数据通常指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,其4V特性包括______、______、______和______。
(答案:Volume、Velocity、Variety、Veracity)
2.在Spark中,RDD(弹性分布式数据集)的三个主要特征是______、______和______。
(答案:不可变性、分区、容错性)
3.SQL中,用于对数据进行排序的函数是______。
(答案:`ORDERBY`)
4.在数据挖掘中,关联规则挖掘的常用算法有______和______。
(答案:Apriori、FP-Growth)
5.机器学习中的过拟合现象通常通过______或______来解决。
(答案:正则化、交叉验证)
三、简答题(共5题,每题4分)
1.简述Hadoop的分布式文件系统(HDFS)的核心特点及其适用场景。
答案:
-核心特点:
1.高容错性:数据块默认冗余3份,分布式存储在多个节点上。
2.高吞吐量:适合批处理查询,不适合低延迟访问。
3.流式数据访问:一次写入,多次读取,不适合随机写入。
4.可扩展性:支持横向扩展,通过增加节点提升性能。
-适用场景:
-大规模日志分析、数据仓库、离线批处理任务。
2.解释SQL中的窗口函数及其与聚合函数的区别。
答案:
-窗口函数:对数据集的每一行返回一个结果,不改变行数,例如`ROW_NUMBER()`、`RANK()`、`LAG()`等。
-聚合函数:对多行数据进行汇总,减少行数,例如`SUM()`、`COUNT()`、`AVG()`等。
-区别:窗口函数保留原始数据结构,聚合函数则合并多行为一行。
3.如何处理数据中的异常值?列举两种方法并简述原理。
答案:
-方法1:删除异常值:直接移除超出3σ(标准差)范围的值,适用于异常值占比极小的情况。
-方法2:分箱(离散化):将连续值映射到离散区间,例如使用等宽或等频分箱。
4.Spark中的RDD和DataFrame哪个更适合实时计算?为什么?
答案:
-DataFrame更合适:
1.优化执行:Catalyst优化器提供更好的执行计划。
2.容错性:隐式API减少错误。
3.交互性:SQL支持更易用。
-RDD适合离线批处理,但实时计算需配合`StructuredStreaming`。
5.描述K-Means聚类算法的基本步骤及其局限性。
答案:
-步骤:
1.随机初始化K个聚类中心。
2.将数据点分配到最近的聚类中心。
3.更新聚类中心为该簇所有点的均值。
4.重复步骤2-3直至收敛。
-局限性:
1.对初始聚类中心敏感。
2.无法处理非凸形状的簇。
3.需预先指定K值。
四、编程题(共3题,每题6分)
1.使用Python(Pandas)处理以下数据,要求:
-读取CSV文件,筛选出`score`大于80的记录。
-计算每门课程的平均分,并按降序排序。
python
importpandasaspd
data=pd.read_csv(students.csv)
filtered=data[data[score]80]
avg_scores=data.groupby(course)[score].mean().sort_values(ascending=False)
2.使用SparkSQL实现以下功能:
-读取两个DataFrame:`orders`(订单表)和`customers`(客户表)。
-使用`JOIN`查询每个客户的订单总金额。
python
frompyspark.s
原创力文档

文档评论(0)