超全的pandas数据分析常用函数总结:上篇.docxVIP

超全的pandas数据分析常用函数总结:上篇.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
超全的pandas数据分析常用函数总结:上篇 import pandas as pd # 这里用到的是pandas和numpy两个模块 import numpy as np 2. 创建数据集并读取 2.1 创建数据集 我构造了一个超市购物的数据集,该数据集属性包括:订单ID号(id)、订单日期(date)、消费金额(money)、订单商品(product)、商品类别(department)、商品产地(origin)。 # 列表和字典均可传入DataFrame,我这里用的是字典传入: data=pd.DataFrame({ id:np.arange(101,111), # np.arange会自动输出范围内的数据,这里会输出101~110的id号。 date:pd.date_range(startperiods=10), # 输出日期数据,设置周期为10,留意这里的周期数应当与数据条数相等。 money:[5,4,65,-10,15,20,35,16,6,20], # 设置一个-10的坑,下面会填(好惨,本人给本人挖坑,幸而不预备跳~) product:[苏打水,可乐,牛肉干,老干妈,菠萝,冰激凌,洗面奶,洋葱,牙膏,薯片], department:[饮料,饮料,零食,调味品,水果,np.nan,日用品,蔬菜,日用品,零食], # 再设置一个空值的坑 origin:[China, China,America,China,Thailand,China,america,China,China,Japan] # 再再设置一个america的坑 }) data # 输出查看数据集 输出结果: 2.2 数据写入和读取 data.to_csv(shopping.csv,index=False) # index=False表示不加索引,否则会多一行索引 data=pd.read_csv(shopping.csv) 3. 数据查看 3.1 数据集基础信息查询 data.shape # 行数列数 data.dtypes # 全部列的数据类型 data[id].dtype # 某一列的数据类型 data.ndim # 数据维度 data.index # 行索引 data.columns # 列索引 data.values # 对象值 3.2 数据集全体情况查询 data.head() # 显示头部几行(默认5行) data.tail() # 显示末尾几行(默认5行) () # 数据集相关信息概览:索引情况、列数据类型、非空值、内存使用情况 data.describe() # 快速综合统计结果 4. 数据清洗 4.1 查看特别值 当然,现在这个数据集很小,可以直观地发觉特别值,但是在数据集很大的时候,我用下面这种方式查看数据集中能否存在特别值,假如有其他更好的方法,欢迎教授给我。 for i in data: print(i+: +str(data[i].unique())) # 查看某一列的独一值 输出结果:我们发觉,该数据集中money存在一个负值,department存在一个空值以及origin存在大小写问题。 4.2 空值处理 4.2.1 空值检测 data.isnull()# 查看整个数据集的空值data[department].isnull()# 查看某一列的空值 data.isnull() # 查看整个数据集的空值 data[department].isnull() # 查看某一列的空值 输出结果: 将空值推断进行汇总,愈加直观,ascending默认为True,升序。 data.isnull().sum().sort_values(ascending=False) 输出结果: 更多关于pandas.DataFrame.sort_values的用法,戳下面官方链接:/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html 4.2.2 空值处理 pandas.DataFrame.fillna(value = None,method = None,inplace = False) value:用于填充的

文档评论(0)

136****7795 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档