数据的分组与分段.pdfVIP

  • 5
  • 0
  • 约3.44万字
  • 约 21页
  • 2024-08-11 发布于山东
  • 举报

课题数据的分组与分段课型讲练

授课班级大数据授课时数2

1.能够将数据按照指定列分组并汇总统计。

教学目标

2.能够将数据按指定列进行数据分段。

1.能够将数据按照指定列分组并汇总统计。

教学重点

2.能够将数据按指定列进行数据分段。

1.能够将数据按照指定列分组并汇总统计。

教学难点

2.能够将数据按指定列进行数据分段。

本次课有一定难度,数据的分组统计是数据分析的一种常用的方法,这

种方法类似于Excel的分类汇总,仅仅分组是很不出任何结果的,只有统计

学情分析

后才能看到结果,而数据分段有点类似于Excel的if函数嵌套进行数据分

组。充分理解Excel的分类汇总和if函数有助于本次课的学习。

在数据分析时,对数据进行分组和分段是常用的一种操作,通过分组和分段可以

挖掘出更多数据的内在信息。数据分组的作用是可以快速对所有分组进行统计计算,

比如计算男女学生的平均成绩时,可以先按性别分组,然后再按成绩统计各组的平均

数。数据分段作用在于可以将连续的数据离散化,比如将成绩分为不同的成绩等级,

将年龄分为不同的年龄段,这样就可以通过不同数据段的统计分析挖掘出一些更加有

用的信息。

一、数据分组统计分析

分组是指将DataFrame按照某列划分为多个不同的组,然后再按另外一列计算每

组的一些统计指标,这一点类似于Excel的分类汇总,分组统计时只要确定分组字段、

统计字段和统计方法就可以执行。

1.数据分组

pandas提供了一个灵活高效的groupby函数,通过groupby函数可以对DataFrame

进行分组操作,进而再对每一组进行统计分析,如计算最大值、最小值、平均值、中

位数等。

(1)按某列对DataFrame进行分组

通过groupby函数执行分组操作,只会返回一个GroupBy对象,该对象实际上并

没有进行任何的计算,其仅仅是中间数据。groupby函数的一般用法为:

DataFrame.groupby(by=分组列)

其中,by表示分组的列,即DataFrame按照这一列进行分组,但是其结果只是

一个中间数据,不产生任何的统计结果。

示例代码如下:

importnumpyasnp

importpandasaspd

arr=np.arange(1,17).reshape(4,4)

data=pd.DataFrame(arr,columns=[a,b,c,d])

data[e]=[A,B,B,A]

初始数据为

group=data.groupby(by=e)

按e列分组的结果为

分组结果的类型为

输出结果如图4-*所示。

图4-*DataFrame分组示例结果

(2)查看分组结果

按某列对DataFrame进行分组后的结果是一个可以迭代的对象,通过循环语句可

以查看每一组的情况。

示例代码如下:

按e列分组后的每一组的结果为

forgingroup:

print(g)

输出结果如图4-*所示。

图4-*查看分组结果示例结果

【结果分析】从图4-*的结果中可以看到,利用grougby对data按照e列进行

分组后,所有“A”为一组,所有“B”为一组,共分成了两组,这些分组的信息都被

存储在DataFrameGroupBy的数据类型中,通过循环语句就可以查看每一组的结果。

2.

文档评论(0)

1亿VIP精品文档

相关文档