- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《利用python进行数据分析》读书笔记
pandas是本书后续内容的首选库。pandas可以满足以下需求: 具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误。. 集成时间序列功能 既能处理时间序列数据也能处理非时间序列数据的数据结构 数学运算和简约(比如对某个轴求和)可以根据不同的元数据(轴编号)执行 灵活处理缺失数据 合并及其他出现在常见数据库(例如基于SQL的)中的关系型运算 1、pandas数据结构介绍 两个数据结构:Series和DataFrame。Series是一种类似于以为NumPy数组的对象,它由一组数据(各种NumPy数据类型)和与之相关的一组数据标签(即索引)组成的。可以用index和values分别规定索引和值。如果不规定索引,会自动创建 0 到 N-1 索引。 #-*- encoding:utf-8 -*-
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
#Series可以设置index,有点像字典,用index索引
obj = Series([1,2,3],index=[a,b,c])
#print obj[a]
#也就是说,可以用字典直接创建Series
dic = dict(key = [a,b,c],value = [1,2,3])
dic = Series(dic)
#下面注意可以利用一个字符串更新键值
key1 = [a,b,c,d]
#注意下面的语句可以将 Series 对象中的值提取出来,不过要知道的字典是不能这么做提取的
dic1 = Series(obj,index = key1)
#print dic
#print dic1
#isnull 和 notnull 是用来检测缺失数据
#print pd.isnull(dic1)
#Series很重要的功能就是按照键值自动对齐功能
dic2 = Series([10,20,30,40],index = [a,b,c,e])
#print dic1 + dic2
#name属性,可以起名字
= s1
= key1
#Series 的索引可以就地修改
dic1.index = [x,y,z,w]
DataFrame是一种表格型结构,含有一组有序的列,每一列可以是不同的数据类型。既有行索引,又有列索引,可以被看做由Series组成的字典(使用共同的索引)。跟其他类似的数据结构(比如R中的data.frame),DataFrame面向行和列的操作基本是平衡的。其实,DataFrame中的数据是以一个或者多个二维块存放的(不是列表、字典或者其他)。
#-*- encoding:utf-8 -*-
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
#构建DataFrame可以直接传入等长的列表或Series组成的字典
#不等长会产生错误
data = {a:[1,2,3],
c:[4,5,6],
b:[7,8,9]
}
#注意是按照列的名字进行列排序
frame = DataFrame(data)
#print frame
#指定列之后就会按照指定的进行排序
frame = DataFrame(data,columns=[a,c,b])
print frame
#可以有空列,index是说行名
frame1 = DataFrame(data,columns = [a,b,c,d],index = [one,two,three])
print frame1
#用字典方式取列数据
print frame[a]
print frame.b
#列数据的修改直接选出来重新赋值即可
#行,可以用行名或者行数来进行选取
print frame1.ix[two]
#为列赋值,如果是Series,规定了index后可以精确赋值
frame1[d] = Series([100,200,300],index = [two,one,three])
print frame1
#删除列用del 函数
del frame1[d]
#警告:通过列名选出来的是Series的视图,并不是副本,可用Series copy方法得到副本
另一种常见的结构是嵌套字典,即字典的字典,这样的结构会默认为外键为列,内列为行。
#-*- encoding:utf-8 -*-
import numpy as np
import pandas as pd
from pa
您可能关注的文档
最近下载
- 劳动教育论文:依托学校种植园培养小学生劳技素养的实践研究.docx VIP
- 《斯特林制冷机》课件.ppt VIP
- 2024北京清华附中初二(上)期中物理(教师版).docx
- 2025领导干部任前廉政法规知识竞赛题库及参考答案.docx VIP
- 三个女性文本和一种帝国主义批评.pdf
- 2023学年新教材高中英语Unit3Festivalsandcustoms写作指导介绍传统节日课件牛津译林版必修第二册.pptx VIP
- 技术要素市场化配置水平测度及区域差异分析.pdf
- 统计预测与决策教材.pdf VIP
- 17J008 挡土墙(重力式、衡重式、悬臂式)(最新).pdf VIP
- Prayer X钢琴谱五线谱 完整版原版.pdf
文档评论(0)