pandas DataFrame基础运算以及空值填充.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
pandas | DataFrame基础运算以及空值填充 我们可以计算两个DataFrame的加和,pandas会自动将这两个DataFrame进行数据对齐,假如对不上的数据会被置为Nan(not a number)。 首先我们来创建两个DataFrame: import?numpy?as?np import?pandas?as?pd df1?=?pd.DataFrame(np.arange(9).reshape((3,?3)),?columns=list(abc),?index=[1,?2,?3]) df2?=?pd.DataFrame(np.arange(12).reshape((4,?3)),?columns=list(abd),?index=[2,?3,?4,?5]) 得到的结果和我们设想的全都,其实只是通过numpy数组创建DataFrame,然后指定index和columns而已,这应当算是很基础的用法了。 然后我们将两个DataFrame相加,会得到: 我们发觉pandas将两个DataFrame加起来合并了之后,凡是没有在两个DataFrame都消灭的位置就会被置为Nan。这其实是很有道理的,实际上不只是加法,我们可以计算两个DataFrame的加减乘除的四则运算都是可以的。假如是计算两个DataFrame相除的话,那么除了对应不上的数据会被置为Nan之外,除零这个行为也会导致特别值的发生(可能不肯定是Nan,而是inf)。 fill_value 假如我们要对两个DataFrame进行运算,那么我们当然不会期望消灭空值。这个时候就需要对空值进行填充了,我们直接使用运算符进行运算是没方法传递参数进行填充的,这个时候我们需要使用DataFrame当中为我们供应的算术方法。 DataFrame当中常用的运算符有这么几种: add、sub、div这些我们都很好理解,那么这里的radd、rsub方法又是什么意思呢,为什么前面要加上一个r呢? 看起来隐晦,但是说白了一文不值,radd是用来翻转参数的。举个例子,比如说我们期望得到DataFrame当中全部元素的倒数,我们可以写成1 / df。由于1本身并不是一个DataFrame,所以我们不能用1来呼叫DataFrame当中的方法,也就不能传递参数,为了处理这种情况,我们可以把1 / df写成df.rdiv(1),这样我们就可以在其中传递参数了。 由于在算除法的过程当中发生了除零,所以我们得到了一个inf,它表示无穷大。 我们可以在add、div这些方法当中传入一个fill_value的参数,这个参数可以在计算之前对于一边消灭缺失值的情况进行填充。也就是说对于对于只在一个DataFrame中缺失的位置会被替换成我们指定的值,假如在两个DataFrame都缺失,那么照旧还会是Nan。 我们对比下结果就能发觉了,相加之后的(1, d), (4, c)以及(5, c)的位置都是Nan,由于df1和df2两个DataFrame当中这些位置都是空值,所以没有被填充。 fill_value这个参数在很多api当中都有消灭,比如reindex等,用法都是一样的,我们在查阅api文档的时候可以留意一下。 那么对于这种填充了之后还消灭的空值我们应当怎样办呢?莫非只能手动找到这些位置进行填充吗?当然是不现实的,pandas当中还为我们供应了特地处理空值的api。 空值api 在填充空值之前,我们首先要做的是发觉空值。针对这个问题,我们有isna这个api,它会前往一个bool型的DataFrame,DataFrame当中的每一个位置表示了原DataFrame对应的位置能否是空值。 dropna 当然只是发觉能否是空值确定是不够的,我们有时候会期望不要空值的消灭,这个时候我们可以选择drop掉空值。针对这种情况,我们可以使用DataFrame当中的dropna方法。 我们发觉使用了dropna之后,消灭了空值的行都被抛弃了。只保留了没有空值的行,有时候我们期望抛弃是的列而不是行,这个时候我们可以通过传入axis参数进行把握。 这样我们得到的就是不含空值的列,除了可以把握行列之外,我们还可以把握执行drop的严格程度。我们可以通过how这个参数来推断,how支持两种值传入,一种是all,一种是any。all表示只要在某一行或者是某一列全为空值的时候才会抛弃,any与之对应就是只需消灭了空值就会抛弃。默认不填的话认为是any,一般情况下我们也用不到这个参数,或许有个印象就可以了。 fillna pandas除了可以drop含有空值的数据之外,当然也可以用来填充空值,现实上这也是最常用的方法。 我们可以很简约地传入一个具体的值用来填充: fillna会前往一个新的DataFrame,其中全部的Na

文档评论(0)

bob157641554 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档