利用python进行数据分析读书笔记资料.docVIP

利用python进行数据分析读书笔记资料.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《利用python进行数据分析》读书笔记 pandas是本书后续内容的首选库。pandas可以满足以下需求: 具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误。. 集成时间序列功能 既能处理时间序列数据也能处理非时间序列数据的数据结构 数学运算和简约(比如对某个轴求和)可以根据不同的元数据(轴编号)执行 灵活处理缺失数据 合并及其他出现在常见数据库(例如基于SQL的)中的关系型运算 1、pandas数据结构介绍 两个数据结构:Series和DataFrame。Series是一种类似于以为NumPy数组的对象,它由一组数据(各种NumPy数据类型)和与之相关的一组数据标签(即索引)组成的。可以用index和values分别规定索引和值。如果不规定索引,会自动创建 0 到 N-1 索引。 #-*- encoding:utf-8 -*- import numpy as np import pandas as pd from pandas import Series,DataFrame #Series可以设置index,有点像字典,用index索引 obj = Series([1,2,3],index=[a,b,c]) #print obj[a] #也就是说,可以用字典直接创建Series dic = dict(key = [a,b,c],value = [1,2,3]) dic = Series(dic) #下面注意可以利用一个字符串更新键值 key1 = [a,b,c,d] #注意下面的语句可以将 Series 对象中的值提取出来,不过要知道的字典是不能这么做提取的 dic1 = Series(obj,index = key1) #print dic #print dic1 #isnull 和 notnull 是用来检测缺失数据 #print pd.isnull(dic1) #Series很重要的功能就是按照键值自动对齐功能 dic2 = Series([10,20,30,40],index = [a,b,c,e]) #print dic1 + dic2 #name属性,可以起名字 = s1 = key1 #Series 的索引可以就地修改 dic1.index = [x,y,z,w] DataFrame是一种表格型结构,含有一组有序的列,每一列可以是不同的数据类型。既有行索引,又有列索引,可以被看做由Series组成的字典(使用共同的索引)。跟其他类似的数据结构(比如R中的data.frame),DataFrame面向行和列的操作基本是平衡的。其实,DataFrame中的数据是以一个或者多个二维块存放的(不是列表、字典或者其他)。 #-*- encoding:utf-8 -*- import numpy as np import pandas as pd from pandas import Series,DataFrame #构建DataFrame可以直接传入等长的列表或Series组成的字典 #不等长会产生错误 data = {a:[1,2,3], c:[4,5,6], b:[7,8,9] } #注意是按照列的名字进行列排序 frame = DataFrame(data) #print frame #指定列之后就会按照指定的进行排序 frame = DataFrame(data,columns=[a,c,b]) print frame #可以有空列,index是说行名 frame1 = DataFrame(data,columns = [a,b,c,d],index = [one,two,three]) print frame1 #用字典方式取列数据 print frame[a] print frame.b #列数据的修改直接选出来重新赋值即可 #行,可以用行名或者行数来进行选取 print frame1.ix[two] #为列赋值,如果是Series,规定了index后可以精确赋值 frame1[d] = Series([100,200,300],index = [two,one,three]) print frame1 #删除列用del 函数 del frame1[d] #警告:通过列名选出来的是Series的视图,并不是副本,可用Series copy方法得到副本 另一种常见的结构是嵌套字典,即字典的字典,这样的结构会默认为外键为列,内列为行。 #-*- encoding:utf-8 -*- import numpy as np import pandas as pd from pa

文档评论(0)

精品课件 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档