- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2022/3/64.5数据处理操作-groupby分组在处理数据的过程中,知道如何对数据集进行分组、聚合操作是一项必备的技能,能够大大提升数据分析的效率。在日常的数据分析中,经常需要将数据根据某个(多个)字段划分为不同的群体(group)进行分析,如电商领域将全国的总销售额根据省份进行划分,分析各省销售额的变化情况,社交领域将用户根据画像(性别、年龄)进行细分,研究用户的使用情况和偏好等。分组是指根据一个或多个键将数据拆分为多个组的过程,这里的键可以理解为分组的条件。聚合指的
2022/3/6 4.5 数据处理操作-groupby分组
在处理数据的过程中,知道如何对数据集进行分组、聚合操作是一项必备的技能,能够大大提升数据分析的效率。在日常的数据分析中,经常需要
将数据根据某个(多个)字段划分为不同的群体(group)进行分析,如电商领域将全国的总销售额根据省份进行划分,分析各省销售额的变化情
况,社交领域将用户根据画像(性别、年龄)进行细分,研究用户的使用情况和偏好等。
分组是指根据一个或多个键将数据拆分为多个组的过程,这里的键可以理解为分组的条件。聚合指的是任何能够从数组产生标量值的数据转换过
程。分组、聚合操作一般会同时出现,用于计算分组数据的统计值或实现其他功能。
4.5.3 分组过程理解
1. 分组SAC过程
在pandas中分组函数是groupby函数,将数据分成几组,并在每个子集上应用一些函数。分为三个阶段,即“拆分split-应用apply-合并combine” ,
简称SAC。其中:
split指基于某一些规则,将数据拆成若干组;
apply是指将功能函数独立应用于每一组;
combine指将每一组的结果组合成某一类数据结构。
其中,拆分步骤是最简单的。实际上,在许多情况下,我们可能希望将数据集分成几组,然后对这些组进行处理。
2. 分组应用apply
在应用apply步骤中,我们可能希望执行以下操作之一:
聚合(Aggregation):为每个组计算摘要统计量。即分组计算统计量(如求均值、求每组元素个数),一些例子:
计算组总和或均值。
计算每组元素个数。
变换(Transformation):执行一些特定于组的计算并返回索引相似的对象,即分组对每个单元的数据进行操作(如元素标准化),一些例
子:
标准化组内的数据元素。
用从每个组派生的值填充组内的空值。
计算汇总统计转换。
file:///D:/Python39/envs/pydata/教材配套代码/模块四 数据处理Pandas/4.5 数据处理操作-groupby分组.html 1/ 19
2022/3/6 4.5 数据处理操作-groupby分组
过滤(Filtration):根据某些规则(评估为True或False)的对分组过滤并筛选出一些组。一些例子:
丢弃属于只有几个成员的组的数据。
根据组总和或均值过滤数据。
选出组内某一指标小于50的组。
综合问题:即前面提及的三种问题的某种组合。
下图就是一个简单的分组聚合过程。
file:///D:/Python39/envs/pydata/教材配套代码/模块四 数据处理Pandas/4.5 数据处理操作-groupby分组.html 2/ 19
2022/3/6 4.5 数据处理操作-groupby分组
file:///D:/Python39/envs/pydata/教材配套代码/模块四 数据处理Pandas/4.5 数据处理操作-groupby分组.html 3/ 19
2022/3/6
您可能关注的文档
- 遥控风扇主机电路工作原理分析课件.pptx
- 正反可调速流水灯电路元器件识读课件.pptx
- Python程序设计:AES数据加密.pptx
- Python程序设计:AES数据解密.pptx
- Python程序设计:base64解码.pptx
- Python程序设计:break语句、continue语句.pptx
- Python程序设计:DDOS攻击的实现.pptx
- Python程序设计:for循环.pptx
- Python程序设计:ipwhois模块与pprint模块.pptx
- Python程序设计:IQ智商测试(案例).pptx
- 2026年新疆师范大学辅导员招聘备考题库最新.docx
- 2026年上海立达学院辅导员招聘备考题库最新.docx
- 2025年长城铝业公司职工工学院辅导员招聘备考题库附答案.docx
- 2025年重庆应用技术职业学院辅导员考试笔试真题汇编附答案.docx
- 2025年香港中文大学(深圳)辅导员招聘考试真题汇编最新.docx
- 2025年闽南科技学院辅导员考试笔试真题汇编附答案.docx
- 2025年青岛大学辅导员招聘考试真题汇编附答案.docx
- 2025年长春早期教育职业学院辅导员考试笔试真题汇编最新.docx
- 2026年东北农业大学辅导员招聘备考题库最新.docx
- 2025年陕西学前师范学院辅导员考试笔试题库最新.docx
最近下载
- 康复医学发展史.ppt VIP
- 第十八章 电功率(单元测试)(含答案)2025-2026学年物理人教版九年级全一册.docx
- NBT 20039.11-2011 核空气和气体处理规范通风、空调与空气净化 第11部分:碘吸附器(Ⅰ型).pdf VIP
- 《监理规划 .doc VIP
- 国家开放大学《国际经济法》形考任务1-4参考答案 .pdf VIP
- 郭巍《硕博研究生英语综合教程》Unit 5.pptx VIP
- 毕业设计---基于plc的门禁系统设计.doc VIP
- 上海进才中学2021-2022学年高二下学期期末英语试卷(解析版).docx VIP
- 《我国康复事业发展概况》课件.ppt VIP
- 2025至2030保险行业发展研究与产业战略规划分析评估报告.docx VIP
原创力文档


文档评论(0)