pandas DataFrame基础运算以及空值填充.docxVIP

下载本文档

42
0
约2.77千字
约 11页
2021-11-15 发布于湖南
举报
版权申诉

pandas DataFrame基础运算以及空值填充.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

pandas | DataFrame基础运算以及空值填充我们可以计算两个DataFrame的加和，pandas会自动将这两个DataFrame进行数据对齐，假如对不上的数据会被置为Nan（not a number）。首先我们来创建两个DataFrame： import?numpy?as?npimport?pandas?as?pddf1?=?pd.DataFrame(np.arange(9).reshape((3,?3)),?columns=list(abc),?index=[1,?2,?3])df2?=?pd.DataFrame(np.arange(12).reshape((4,?3)),?columns=list(abd),?index=[2,?3,?4,?5]) 得到的结果和我们设想的全都，其实只是通过numpy数组创建DataFrame，然后指定index和columns而已，这应当算是很基础的用法了。然后我们将两个DataFrame相加，会得到：我们发觉pandas将两个DataFrame加起来合并了之后，凡是没有在两个DataFrame都消灭的位置就会被置为Nan。这其实是很有道理的，实际上不只是加法，我们可以计算两个DataFrame的加减乘除的四则运算都是可以的。假如是计算两个DataFrame相除的话，那么除了对应不上的数据会被置为Nan之外，除零这个行为也会导致特别值的发生（可能不肯定是Nan，而是inf）。 fill_value 假如我们要对两个DataFrame进行运算，那么我们当然不会期望消灭空值。这个时候就需要对空值进行填充了，我们直接使用运算符进行运算是没方法传递参数进行填充的，这个时候我们需要使用DataFrame当中为我们供应的算术方法。 DataFrame当中常用的运算符有这么几种： add、sub、div这些我们都很好理解，那么这里的radd、rsub方法又是什么意思呢，为什么前面要加上一个r呢？看起来隐晦，但是说白了一文不值，radd是用来翻转参数的。举个例子，比如说我们期望得到DataFrame当中全部元素的倒数，我们可以写成1 / df。由于1本身并不是一个DataFrame，所以我们不能用1来呼叫DataFrame当中的方法，也就不能传递参数，为了处理这种情况，我们可以把1 / df写成df.rdiv(1)，这样我们就可以在其中传递参数了。由于在算除法的过程当中发生了除零，所以我们得到了一个inf，它表示无穷大。我们可以在add、div这些方法当中传入一个fill_value的参数，这个参数可以在计算之前对于一边消灭缺失值的情况进行填充。也就是说对于对于只在一个DataFrame中缺失的位置会被替换成我们指定的值，假如在两个DataFrame都缺失，那么照旧还会是Nan。我们对比下结果就能发觉了，相加之后的(1, d), (4, c)以及(5, c)的位置都是Nan，由于df1和df2两个DataFrame当中这些位置都是空值，所以没有被填充。 fill_value这个参数在很多api当中都有消灭，比如reindex等，用法都是一样的，我们在查阅api文档的时候可以留意一下。那么对于这种填充了之后还消灭的空值我们应当怎样办呢？莫非只能手动找到这些位置进行填充吗？当然是不现实的，pandas当中还为我们供应了特地处理空值的api。空值api 在填充空值之前，我们首先要做的是发觉空值。针对这个问题，我们有isna这个api，它会前往一个bool型的DataFrame，DataFrame当中的每一个位置表示了原DataFrame对应的位置能否是空值。 dropna 当然只是发觉能否是空值确定是不够的，我们有时候会期望不要空值的消灭，这个时候我们可以选择drop掉空值。针对这种情况，我们可以使用DataFrame当中的dropna方法。我们发觉使用了dropna之后，消灭了空值的行都被抛弃了。只保留了没有空值的行，有时候我们期望抛弃是的列而不是行，这个时候我们可以通过传入axis参数进行把握。这样我们得到的就是不含空值的列，除了可以把握行列之外，我们还可以把握执行drop的严格程度。我们可以通过how这个参数来推断，how支持两种值传入，一种是all，一种是any。all表示只要在某一行或者是某一列全为空值的时候才会抛弃，any与之对应就是只需消灭了空值就会抛弃。默认不填的话认为是any，一般情况下我们也用不到这个参数，或许有个印象就可以了。 fillna pandas除了可以drop含有空值的数据之外，当然也可以用来填充空值，现实上这也是最常用的方法。我们可以很简约地传入一个具体的值用来填充： fillna会前往一个新的DataFrame，其中全部的Na