- 0
- 0
- 约8.53千字
- 约 23页
- 2026-03-18 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年数据工程师岗位的常见面试题
一、编程与算法题(共5题,每题10分)
1.Python编程题:数据清洗与处理
题目:
假设你接收到一个包含缺失值、异常值和重复记录的CSV文件,请用Python(Pandas库)完成以下任务:
(1)删除重复记录;
(2)填充数值列的缺失值(用中位数填充);
(3)检测并删除异常值(假设某数值列的正常范围是0-100);
(4)将所有文本列转换为小写并去除前后空格。
请提供完整代码,并解释每一步的逻辑。
答案与解析:
python
importpandasaspd
读取CSV文件
df=pd.read_csv(data.csv)
(1)删除重复记录
df.drop_duplicates(inplace=True)
(2)填充缺失值(以数值列为例)
num_cols=df.select_dtypes(include=[float64,int64]).columns
df[num_cols]=df[num_cols].fillna(df[num_cols].median())
(3)检测并删除异常值(假设col1为数值列)
df=df[(df[col1]=0)(df[col1]=100)]
(4)文本列处理
str_cols=df.select_dtypes
原创力文档

文档评论(0)