- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
Pandas速查手册
关键缩写和导入
在这个速查手册中,引入pandas模块:importpandasaspd,
df:任意的PandasDataFrame对象。
导入数据
pd.read_csv(filename):从CSV文件导入数据
pd.read_table(filename):从限定分隔符的文本文件导入数据
pd.read_excel(filename):从Excel文件导入数据
pd.read_sql(query,connection_object):从SQL表/库导入数据
pd.read_json(json_string):从JSON格式的字符串导入数据
pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中的tables表格
pd.read_clipboard():从你的粘贴板获取内容,并传给read_table()
pd.DataFrame(dict):从字典对象导入数据,Key是列名,Value是数据
导出数据
df.to_csv(filename):导出数据到CSV文件
df.to_excel(filename):导出数据到Excel文件
df.to_sql(table_name,connection_object):导出数据到SQL表
df.to_json(filename):以Json格式导出数据到文本文件
创建测试对象
pd.DataFrame((20,5)):创建20行5列的随机数组成的DataFrame对象
pd.Series(my_list):从可迭代对象my_list创建一个Series对象
df.index=pd.date_range(1900/1/30,periods=df.shape[0]):增加一个日期索引
查看、检查数据
df.head(n):查看DataFrame对象的前n行
df.tail(n):查看DataFrame对象的最后n行
df.shape():查看行数和列数
df.info():查看索引、数据类型和内存信息
df.describe():查看数值型列的汇总统计
s.value_counts(dropna=False):查看Series对象的唯一值和计数
df.apply():查看DataFrame对象中每一列的唯一值和计数
数据选取
df[col]:根据列名,并以Series的形式返回列
df[[col1,col2]]:以DataFrame形式返回多列
s.iloc[0]:按位置选取数据
s.loc[index_one]:按索引选取数据
df.iloc[0,:]:返回第一行
df.iloc[0,0]:返回第一列的第一个元素
数据清理
df.columns=[a,b,c]:重命名列名
pd.isnull():检查DataFrame对象中的空值,并返回一个Boolean数组
pd.notnull():检查DataFrame对象中的非空值,并返回一个Boolean数组
df.dropna():删除所有包含空值的行
df.dropna(axis=1):删除所有包含空值的列
df.dropna(axis=1,thresh=n):删除所有小于n个非空值的行
df.fillna(x):用x替换DataFrame对象中所有的空值
s.astype(float):将Series中的数据类型更改为float类型
s.replace(1,one):用‘one’代替所有等于1的值
s.replace([1,3],[one,three]):用one代替1,用three代替3
df.rename(columns=lambdax:x+1):批量更改列名
df.rename(columns={old_name:new_name}):选择性更改列名
df.set_index(column_one):更改索引列
df.rename(index=lambdax:x+1):批量重命名索引
数据处理:
Filter、Sort和GroupBy
df[df[col]0.5]:选择col列的值大于0.5的行
df.sort_values(col1):按照列col1排序数据,默认升序排列
df.sort_values(col2,ascending=False):按照列col1降序排列数据
df.sort_values([col1,col2],ascending=[True,False]):先按列col1升序排列,后按col2降序排列数据
df.groupby(col):返回一个按列col进行分组的Groupby对象
df.groupby([col1,col2]):返回一个按多列进行分组的Groupby对象
df.groupby(col1)
您可能关注的文档
- 小学心理健康教育--不一样的精彩.pptx
- 推拿治疗颈椎病2016年.pptx
- (统考版)高考数学一轮复习课后限时集训(29)三角函数的图像与性质(理含解析)北师大版.doc
- 卡泊芬净在血液科患者肺部真菌感染治疗中几点启示.pptx
- 室内设实习日记-19篇-每篇300字.doc
- 冰雪活动优惠方案策划.docx
- 河南省新野县第一高级中学校高二历史下学期第二次周考试题.doc
- 桩基验收自评报告.doc
- 老凤祥龙华分店-开业庆典策划略稿-课件.ppt
- 2022年高考语文试卷(天津)(空白卷).doc
- 湖南省衡阳市第八中学2026届高三上学期第一次月考物理(原卷版).doc
- 浙江省普通高中尖峰联盟2026届高三上学期10月联考英语(原卷版).doc
- 四川省绵阳市南山中学实验学校2026届高三上学期10月月考英语(原卷版).doc
- 湖南省衡阳市第八中学2026届高三上学期第二次月考历史 Word版含解析.doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题09 功和机械能(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题10 内能及其利用(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题07 压强(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题01 机械运动(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题02 声现象(解析版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题02 声现象(原卷版).doc
最近下载
- DB45-T2120-2024高速公路隧道消防设计技术规范-(高清可复制).pptx VIP
- 沉默的基因杀手:法布雷病全解析.docx VIP
- 苏州甲辰巷砖塔|七塔八幢费思量.docx VIP
- 四川省拟任县处级试题 四川省拟任县处级党政领导干部任职资格考试题.doc VIP
- 汽车起重机液压系统设计.docx VIP
- 高中主题班会 赢在细节,重在执行课件--高二下学期细节决定成败主题班会.pptx VIP
- 实施指南(2025)《GB_T14789-2017水貂皮》.pptx
- 《市政大直径排水管道非开挖修复施工及验收规程》征求意见稿.docx VIP
- 中国法布雷病超声心动图规范化筛查指南(2024版).pdf VIP
- 高数极限必做150题及答案.docx VIP
原创力文档


文档评论(0)