数据分析应用项目化教程(Python) 课件 任务6.3 数据重塑透视.pptx

数据分析应用项目化教程(Python) 课件 任务6.3 数据重塑透视.pptx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第六章使用pandas进行数据清洗和整理

任务6.3数据重塑数据重塑pivotpivot_tablestack、unstack

数据重塑数据重塑:将列式数据变成二维交叉形式,便于分析,叫做数据重塑或数据透视。数据重塑理解:数据的重塑简单说就是对原数据进行变形。对数据的重塑不是仅改变形状那么简单,在变形过程中,数据的内在数据意义不能变化,但数据的提示逻辑则发生了重大的改变。

pivotPivot:将原始DataFrame重塑,返回一个新的DataFrame。代码含义:唯一化处理foo列值最为index,以bar列中的值A、B和C来作为列名,展示DataFrame中baz列数据。

pivot语法:df.pivot(index=None,columns=None,values=None),指定index、columns、values实现二维透视。index:指定一个或多个列的值作为新DataFrame的index,会自动唯一化处理,注意其最终值不可以重复,否则报错(可选,若不填则使用现有index)columns:指定一个或多个列的值作为新DataFrame的列values:指定一个或多列的值作为新DataFrame的值(可选,若不填则使用所有剩余列,并且结果将具有按层次结构索引的列)

pivot_tablepivot_table:用pivot只能对数据进行变形整理,有时还需要做聚合分析。pivot_table功能比pivot/groupby函数更为完善,除了可以处理重复值,关键在于引入了多层索引。piovt_table制表完成之后返回的是DataFrame,非常方便下一步使用,比如基于pandas画图。类似Excel的高级数据透视功能。#字典传入多列的汇总#aggfun指定汇总的处理方式,默认是求均值#列表传入多种汇总方式table=pd.pivot_table(df,index=[A,C],values=[D,E],aggfunc={D:np.mean,E:[np.min,np.max,np.mean]})table

pivot_table画条形图barchart:分类汇总可以很好地展示数据,pivot_table函数也可以,因其返回的是一个多层索引的DataFrame。table.plot.bar(y=[D,E],rot=45,figsize=(16,10),fontsize=(20))

stack、unstackstack:将dataframe中的列旋转为行,默认将最内层(level=-1)列索引旋转变成最内层行索引。unstack:将dataframe中行旋转为列,默认将最内层(level=-1)的行索引旋转变成最内存列索引。stack和unstack默认旋转轴的级别为最低级别(即最内层,level=-1)

stack、unstackDataFrame.stack(level=-1,dropna=True),将column变成index。level=-1代表多层索引的最内层,可以通过level指定哪一层(或列表表达的哪若干层)的列索引旋转成行索引。df2.stack()==df2.stack(0),这里df2的列索引只有一层,所以最内层就是level==0df2.stack()==df2.stack(-1)

stack、unstackDataFrame.unstack(level=-1,fill_value=None),将index变成columnstacked.unstack()==stacked.unstack(2),stacked的行索引有3层,最内层level=2stacked.unstack()==stacked.unstack(-1)

stack、unstack请注意,stack和unstack方法隐式地对涉及的索引进行排序。因此,调用stack然后取消stack,或反之亦然,将生成原始数据帧或序列的按索引已排序副本。

小结数据重塑pivotpivot_tablestack、unstack

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档