第三章数据清洗与高阶处理46课件讲解.pptxVIP

第三章数据清洗与高阶处理46课件讲解.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第三章:数据清洗与高阶处理

数据聚合3.4.3

3.4.3通过统计方法聚合数据熟悉统计方法的使用,能够通过统计方法实现数据聚合的功能学习目标

3.4.3通过统计方法聚合数据importpandasaspdimportnumpyasnpdf=pd.DataFrame({key1:[A,A,B,B,A],key2:[one,two,one,two,one],data1:[2,3,4,6,8],data2:[3,5,np.nan,3,7]})group_obj=df.groupby(key1)group_obj.mean()前面介绍过pandas的统计方法,例如,用于获取最大值和最小值的max()和mix()、求平均数的mean()等,这些方法可以直接应用到分组,对分组的数据进行聚合操作。

3.4.3通过统计方法聚合数据在进行聚合操作时,如果分组的数据中有缺失值NaN,那么会自动忽略NaN值。

3.4.4通过agg()聚合数据熟悉agg()方法的使用,能够通过agg()方法实现数据聚合的功能学习目标

3.4.4通过agg()聚合数据语法格式除了直接使用统计方法聚合数据之外,我们还可以使用agg()方法聚合数据,该方法既支持内置函数也支持自定义函数,同时可以将这些函数作用于不同的行或列。agg(func=None,?axis=0,?*args,?**kwargs)func:用于聚合数据的函数,该参数的取值可以是匿名函数、函数名或方法名、包含函数名或方法名的列表或字典。axis:表示函数被应用到行或列,该参数支持0(默认值)或index和1或columns这几种取值,其中0或index表示将函数应用到每一列;1或columns表示将函数应用到每一行。

3.4.4通过agg()聚合数据语法格式除了直接使用统计方法聚合数据之外,我们还可以使用agg()方法聚合数据,该方法既支持内置函数也支持自定义函数,同时可以将这些函数作用于不同的行或列。※聚合数据的函数可以是前面提过的统计方法,也可以是用户自定义的函数。※我们在使用agg()方法聚合分组数据时,不仅可以让一个函数作用于分组数据的所有行或列,还可以让多个函数作用于分组数据的所有行或列,甚至可以让不同函数作用于分组数据的不同的行或列。agg(func=None,?axis=0,?*args,?**kwargs)

3.4.4通过agg()聚合数据所有列应用一个函数当使用agg()方法聚合数据时,若给参数func传入的值是一个匿名函数或函数名,不给axis参数传值,则此时会让分组数据的所有列应用这个函数,并执行相应的操作。importnumpyasnpfrompandasimportDataFrame,Seriesdf_obj=DataFrame(np.arange(36).reshape((6,6)),columns=list(abcdef))df_obj[key]=Series(list(aaabbb),name=key)group_obj=df_obj.groupby(key)group_obj.agg(sum)

3.4.4通过agg()聚合数据所有列应用一个函数当然,我们在使用agg()方法时也可以传入自定义的函数。例如,定义一个用来计算极差值(极差值=最大值–最小值)的函数,使分组的所有列应用该函数计算极差值。defmy_range(arr):returnarr.max()-arr.min()group_obj.agg(my_range)

3.4.4通过agg()聚合数据所有列应用多个函数当使用agg()方法聚合数据时,若给参数func传入的值是一个包含函数名的列表,不给axis参数传值,则此时会让分组数据的所有列应用多个函数,并执行相应的操作。group_obj.agg([sum,my_range])abc...fsummy_rangesummy_rangesummy_range...summy_rangekeya

您可能关注的文档

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档