Python数据分析面试题及Pandas教程含答案.docxVIP

  • 0
  • 0
  • 约4.57千字
  • 约 12页
  • 2026-01-28 发布于福建
  • 举报

Python数据分析面试题及Pandas教程含答案.docx

第PAGE页共NUMPAGES页

2026年Python数据分析面试题及Pandas教程含答案

一、选择题(每题2分,共10题)

1.在Pandas中,以下哪个函数用于读取CSV文件?

A.read_excel

B.read_csv

C.read_sql

D.read_json

2.如何检查PandasDataFrame中是否有缺失值?

A.df.isnull()

B.df.notnull()

C.df.empty()

D.df.hasnull()

3.在Pandas中,`groupby`函数与哪个函数结合使用可以实现分组统计?

A.merge

B.join

C.pivot

D.agg

4.以下哪个方法可以用来对PandasSeries进行排序?

A.sort()

B.order()

C.sort_values()

D.arrange()

5.在Pandas中,如何将DataFrame的索引重置为默认整数索引?

A.df.reset_index(drop=True)

B.df.reset_index()

C.df.set_index(drop=True)

D.df.reindex()

二、填空题(每空1分,共5空)

6.在Pandas中,使用___________函数可以将两个DataFrame按指定列合并。

7.Pandas的DataFrame中,可以使用___________属性查看数据的摘要统计信息。

8.使用Pandas处理时间序列数据时,通常使用___________数据类型。

9.在Pandas中,可以使用___________方法对数据进行分组并计算每个组的均值。

10.Pandas的___________函数可以用于将两个DataFrame按索引对齐后相加。

三、简答题(每题5分,共3题)

11.简述Pandas中DataFrame和Series的区别。

12.解释Pandas中`merge`、`join`和`concat`函数的区别和应用场景。

13.描述在Pandas中进行数据清洗时常见的步骤和方法。

四、操作题(每题10分,共2题)

14.假设有以下DataFrame:

python

importpandasaspd

data={姓名:[张三,李四,王五,赵六],

部门:[销售部,技术部,销售部,技术部],

销售额:[1000,2000,1500,1800]}

df=pd.DataFrame(data)

请写出以下操作的代码:

(1)按部门分组,计算每个部门的平均销售额

(2)为每个部门添加一个新列,表示该部门销售额是否超过1500

(3)将结果按销售额从高到低排序

15.假设有以下DataFrame:

python

importpandasaspd

data={日期:[2023-01-01,2023-01-02,2023-01-01,2023-01-03],

产品:[A,A,B,B],

销量:[100,150,200,250]}

df=pd.DataFrame(data)

请写出以下操作的代码:

(1)将日期列转换为Pandas的DateTime类型

(2)按日期和产品分组,计算每日每种产品的总销量

(3)创建一个新DataFrame,包含每天的总销量和平均销量

五、编程题(每题15分,共2题)

16.编写一个函数,实现以下功能:

(1)读取CSV文件

(2)处理缺失值(用平均值填充数值列,用众数填充分类列)

(3)将所有分类列转换为小写

(4)计算每列的唯一值数量

(5)返回处理后的DataFrame

17.编写一个函数,实现时间序列数据的滚动分析:

(1)读取包含日期和销售额的CSV文件

(2)将日期列设置为索引

(3)计算过去7天的销售额滚动平均值

(4)计算过去30天的销售额滚动最大值

(5)绘制销售额、滚动平均值和滚动最大值的折线图

答案及解析

一、选择题答案

1.B.read_csv

2.A.df.isnull()

3.D.agg

4.C.sort_values()

5.A.df.reset_index(drop=True)

二、填空题答案

6.merge

7.describe

8.datetime64

9.groupby().mean()

10.add

三、简答题答案

11.Pandas中DataFrame和Series的区别:

-DataFrame是一个二维表格数据结构,而Series是一个一维数组。

-DataFrame的每个列可以有不同的数据类型,而S

文档评论(0)

1亿VIP精品文档

相关文档