Python数据分析基础与应用(微课版) 教案 模块6 Pandas统计计算与数据分析.docx

Python数据分析基础与应用(微课版) 教案 模块6 Pandas统计计算与数据分析.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Python数据分析基础与应用

模块

PAGE2

PAGE21

模块6Pandas统计计算与数据分析

【学习与训练】

6.1Pandas数据运算

6.1.1Series对象的运算

1.Series对象的赋值运算

通过索引或标签选取元素后直接给元素进行赋值。

2.Series对象与常量之间的算术运算

适用于NumPy数组的算术运算符(+、-、*、/)和其他数学函数等,也适用于Series对象。

3.两个Series对象之间的加、减、乘、除算术运算

代码如下:

importpandasaspd

print(定义两个Series对象:)

s3=pd.Series([2,8,6,9],index=[a,b,c,d])

s4=pd.Series([3,10,5],index=[c,d,a])

print(s3)

print(s4)

#将两个Series对象进行加、减、乘、除算术运算

print(两个Series对象相加:\n,s3+s4)

print(两个Series对象相减:\n,s3-s4)

print(两个Series对象相乘:\n,s3*s4)

print(两个Series对象相除:\n,s3/s4)

观察输出结果可以发现,两个Series对象相加就是将两个Series对象中标签相同的元素相加,并输出这些标签和相加后的值。对于只有一个Series对象有的标签,也会出现在输出结果中,但其值为NaN。

4.Series对象的数学函数运算

Pandas数据结构之间可以使用运算符运算,也可以使用算术运算函数来完成。Pandas提供的算术运算函数有add()、sub()、mul()、div()和mod()等函数。这些函数分别可完成加、减、乘、除和求余数的运算,函数的调用方法如下:

obj1.add(obj2)

其中,obj1和obj2是Series或DataFrame对象;sub()、mul()、div()和mod()等函数的调用方法与add()相同。

5.Series对象的综合运算

在Series对象之间进行运算时,Series能够通过识别标签对齐不一致的数据。这就是Series运算时的自动对齐功能。

6.1.2DataFrame对象的运算

1.两个DataFrame对象之间加、减、乘、除算术运算

定义两个DataFrame对象,分别指定它们的行索引和列索引不完全一致,并将这两个DataFrame对象进行加、减、乘、除算术运算。

2.两个DataFrame对象之间加、减、乘、除和求余函数运算

定义两个DataFrame对象,分别指定它们的行索引和列索引不完全一致,并用add()、sub()、mul()、div()和mod()等函数对这两个DataFrame对象进行加、减、乘、除和求余数运算。

6.2Pandas统计分析

6.2.1Pandas数据分析的基本方法

Pandas数据分析的基本方法主要包括基本统计分析、分组统计分析、分布分析、交叉分析、结构分析、相关分析等多种方法。

1.Pandas基本统计分析

描述统计学(descriptivestatistics)主要研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行处理和显示,最终对数据的规律、特征做出综合性的描述分析。Pandas库正是对描述统计学知识应用的体现。

从描述统计学角度出发,可以对DataFrame结构执行聚合计算等操作,例如使用sum()函数求和、使用mean()函数求均值等方法。

在DataFrame中,使用聚合类方法时需要指定轴(axis)参数。传参方式有两种:

(1)对行操作,默认使用axis=0或者使用index;

(2)对列操作,默认使用axis=1或者使用columns。

2.Pandas分组分析

分组分析是指根据分组字段,将分析对象划分成不同的组,以对比分析各组之间差异性的分析方法。分组分析常用的统计指标是计数、求和、平均值等。

3.Pandas分布分析

分布分析是指根据分析的目的,将定量数据进行等距或者不等距的分组,从而研究各组分布规律的一种分析方法。例如学生成绩分布、用户年龄分布、收入状况分布等。

在分布分析时,首先用cut()函数确定分布分析中的分组,然后再用groupby()函数实现分组分析。

4.Pandas交叉分析

交叉分析通常用于分析两个或两个以上分组变量之间的关系,以交叉表形式进行变量间关系的对比分析;从数据的不同维度,综合进行分组细化分析,进一步了解数据的构成、分布特征。

交叉分析有数据透视表和交叉表两种,透视表pivot_table()是一种进行数据透视分析的函数,参数aggfunc决定统计类型;而交叉表crosstab()是一种特殊的piv

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档