- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第六章使用pandas进行数据清洗和整理
任务6.3数据重塑数据重塑pivotpivot_tablestack、unstack
数据重塑数据重塑:将列式数据变成二维交叉形式,便于分析,叫做数据重塑或数据透视。数据重塑理解:数据的重塑简单说就是对原数据进行变形。对数据的重塑不是仅改变形状那么简单,在变形过程中,数据的内在数据意义不能变化,但数据的提示逻辑则发生了重大的改变。
pivotPivot:将原始DataFrame重塑,返回一个新的DataFrame。代码含义:唯一化处理foo列值最为index,以bar列中的值A、B和C来作为列名,展示DataFrame中baz列数据。
pivot语法:df.pivot(index=None,columns=None,values=None),指定index、columns、values实现二维透视。index:指定一个或多个列的值作为新DataFrame的index,会自动唯一化处理,注意其最终值不可以重复,否则报错(可选,若不填则使用现有index)columns:指定一个或多个列的值作为新DataFrame的列values:指定一个或多列的值作为新DataFrame的值(可选,若不填则使用所有剩余列,并且结果将具有按层次结构索引的列)
pivot_tablepivot_table:用pivot只能对数据进行变形整理,有时还需要做聚合分析。pivot_table功能比pivot/groupby函数更为完善,除了可以处理重复值,关键在于引入了多层索引。piovt_table制表完成之后返回的是DataFrame,非常方便下一步使用,比如基于pandas画图。类似Excel的高级数据透视功能。#字典传入多列的汇总#aggfun指定汇总的处理方式,默认是求均值#列表传入多种汇总方式table=pd.pivot_table(df,index=[A,C],values=[D,E],aggfunc={D:np.mean,E:[np.min,np.max,np.mean]})table
pivot_table画条形图barchart:分类汇总可以很好地展示数据,pivot_table函数也可以,因其返回的是一个多层索引的DataFrame。table.plot.bar(y=[D,E],rot=45,figsize=(16,10),fontsize=(20))
stack、unstackstack:将dataframe中的列旋转为行,默认将最内层(level=-1)列索引旋转变成最内层行索引。unstack:将dataframe中行旋转为列,默认将最内层(level=-1)的行索引旋转变成最内存列索引。stack和unstack默认旋转轴的级别为最低级别(即最内层,level=-1)
stack、unstackDataFrame.stack(level=-1,dropna=True),将column变成index。level=-1代表多层索引的最内层,可以通过level指定哪一层(或列表表达的哪若干层)的列索引旋转成行索引。df2.stack()==df2.stack(0),这里df2的列索引只有一层,所以最内层就是level==0df2.stack()==df2.stack(-1)
stack、unstackDataFrame.unstack(level=-1,fill_value=None),将index变成columnstacked.unstack()==stacked.unstack(2),stacked的行索引有3层,最内层level=2stacked.unstack()==stacked.unstack(-1)
stack、unstack请注意,stack和unstack方法隐式地对涉及的索引进行排序。因此,调用stack然后取消stack,或反之亦然,将生成原始数据帧或序列的按索引已排序副本。
小结数据重塑pivotpivot_tablestack、unstack
您可能关注的文档
- 数据分析应用项目化教程(Python) 课件 任务1.1 认识Python与数据分析.pptx
- 数据分析应用项目化教程(Python) 课件 任务1.2 认识数据分析类别与流程.pptx
- 数据分析应用项目化教程(Python) 课件 任务2.1 数据分析环境搭建-Anaconda3.pptx
- 数据分析应用项目化教程(Python) 课件 任务2.1 数据分析环境搭建-jupyter notebook.pptx
- 数据分析应用项目化教程(Python) 课件 任务3.0 numpy概述.pptx
- 数据分析应用项目化教程(Python) 课件 任务3.1 认识多维数组.pptx
- 数据分析应用项目化教程(Python) 课件 任务3.2 创建多维数组.pptx
- 数据分析应用项目化教程(Python) 课件 任务3.3 多维数组运算1.pptx
- 数据分析应用项目化教程(Python) 课件 任务3.3 多维数组运算2.pptx
- 数据分析应用项目化教程(Python) 课件 任务3.4 多维数组的索引和切片.pptx
- 期末模拟卷(A卷-基础巩固)(测试范围:八年级上册).pdf
- 专题02第45章光现象和透镜【考点清单】八年级物理上册期末考点大串讲(人教版).pdf
- 精品解析:2023年四川省自贡市中考物理试卷.pdf
- 期中考试模拟测试卷(25+4模式)七年级历史上册期末考点大串讲(部编版)含答案.pdf
- 专题03光现象和透镜【题型训练】(95题26大类型)八年级物理上册期末考点大串讲(人教版).pdf
- 专题02声和物态变化【题型训练】(88题30大类型)八年级物理上册期末考点大串讲(人教版).pdf
- 小升初复习:小学1-6年级语文总复习.pdf
- 期中考试模拟测试卷(20+5模式)七年级历史上册期末考点大串讲(部编版)含答案.pdf
- 精品解析:2023年山东省滨州市中考地理真题.pdf
- 名校期末质量检测卷(一)度九年级物理上册全方位培优测评卷(人教版)(25812903)含答案.pdf
最近下载
- scale manager软件及相关scalemanager和mtstar使用说明.pdf
- 建积分之术筑工程之技:定积分及其应用教学实施报告.pdf
- 初中英语 2022-2023学年福建省泉州市九年级(上)第一次段考英语试卷.pdf
- 大连链家房地产营销渠道研究.docx
- 《数学思想与方法》模拟试卷ABCD卷.docx VIP
- DLT_741-2010《架空输电线路运行规程》(新版).doc
- 2024阿里巴巴淘宝云客服-消费者咨询业务知识题及答案.pdf
- 浙教版八年级科学上册单元测试题及答案.docx
- final submission to nsfc with signed page国际地区合作与交流项目申书.pdf VIP
- 广西 平乐县志.pdf
文档评论(0)