超全的pandas数据分析常用函数总结：上篇.docxVIP

下载本文档

2
0
约4.01千字
约 14页
2021-11-16 发布于湖南
举报
版权申诉

超全的pandas数据分析常用函数总结：上篇.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

超全的pandas数据分析常用函数总结：上篇 import pandas as pd # 这里用到的是pandas和numpy两个模块import numpy as np 2. 创建数据集并读取 2.1 创建数据集我构造了一个超市购物的数据集，该数据集属性包括：订单ID号（id）、订单日期（date）、消费金额（money）、订单商品（product）、商品类别（department）、商品产地（origin）。 # 列表和字典均可传入DataFrame，我这里用的是字典传入：data=pd.DataFrame({ id:np.arange(101,111), # np.arange会自动输出范围内的数据，这里会输出101~110的id号。 date:pd.date_range(startperiods=10), # 输出日期数据，设置周期为10，留意这里的周期数应当与数据条数相等。 money:[5,4,65,-10,15,20,35,16,6,20], # 设置一个-10的坑，下面会填（好惨，本人给本人挖坑，幸而不预备跳~） product:[苏打水,可乐,牛肉干,老干妈,菠萝,冰激凌,洗面奶,洋葱,牙膏,薯片], department:[饮料,饮料,零食,调味品,水果,np.nan,日用品,蔬菜,日用品,零食], # 再设置一个空值的坑 origin:[China, China,America,China,Thailand,China,america,China,China,Japan] # 再再设置一个america的坑})data # 输出查看数据集输出结果： 2.2 数据写入和读取 data.to_csv(shopping.csv,index=False) # index=False表示不加索引，否则会多一行索引 data=pd.read_csv(shopping.csv) 3. 数据查看 3.1 数据集基础信息查询 data.shape # 行数列数data.dtypes # 全部列的数据类型data[id].dtype # 某一列的数据类型data.ndim # 数据维度data.index # 行索引data.columns # 列索引data.values # 对象值 3.2 数据集全体情况查询 data.head() # 显示头部几行（默认5行）data.tail() # 显示末尾几行（默认5行）() # 数据集相关信息概览：索引情况、列数据类型、非空值、内存使用情况data.describe() # 快速综合统计结果 4. 数据清洗 4.1 查看特别值当然，现在这个数据集很小，可以直观地发觉特别值，但是在数据集很大的时候，我用下面这种方式查看数据集中能否存在特别值，假如有其他更好的方法，欢迎教授给我。 for i in data: print(i+: +str(data[i].unique())) # 查看某一列的独一值输出结果：我们发觉，该数据集中money存在一个负值，department存在一个空值以及origin存在大小写问题。 4.2 空值处理 4.2.1 空值检测 data.isnull()# 查看整个数据集的空值data[department].isnull()# 查看某一列的空值 data.isnull() # 查看整个数据集的空值data[department].isnull() # 查看某一列的空值输出结果：将空值推断进行汇总，愈加直观，ascending默认为True，升序。 data.isnull().sum().sort_values(ascending=False) 输出结果：更多关于pandas.DataFrame.sort_values的用法，戳下面官方链接：/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html 4.2.2 空值处理 pandas.DataFrame.fillna（value = None，method = None，inplace = False） value：用于填充的