利用python进行数据分析读书笔记资料.docVIP

下载本文档

0
0
约1.61万字
约 32页
2019-07-20 发布于未知
举报
版权申诉

利用python进行数据分析读书笔记资料.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《利用python进行数据分析》读书笔记 pandas是本书后续内容的首选库。pandas可以满足以下需求：具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源（索引方式不同）的数据而导致的常见错误。. 集成时间序列功能既能处理时间序列数据也能处理非时间序列数据的数据结构数学运算和简约（比如对某个轴求和）可以根据不同的元数据（轴编号）执行灵活处理缺失数据合并及其他出现在常见数据库（例如基于SQL的）中的关系型运算 1、pandas数据结构介绍两个数据结构：Series和DataFrame。Series是一种类似于以为NumPy数组的对象，它由一组数据（各种NumPy数据类型）和与之相关的一组数据标签（即索引）组成的。可以用index和values分别规定索引和值。如果不规定索引，会自动创建 0 到 N-1 索引。 #-*- encoding:utf-8 -*- import numpy as np import pandas as pd from pandas import Series,DataFrame #Series可以设置index，有点像字典，用index索引 obj = Series([1,2,3],index=[a,b,c]) #print obj[a] #也就是说，可以用字典直接创建Series dic = dict(key = [a,b,c],value = [1,2,3]) dic = Series(dic) #下面注意可以利用一个字符串更新键值 key1 = [a,b,c,d] #注意下面的语句可以将 Series 对象中的值提取出来，不过要知道的字典是不能这么做提取的 dic1 = Series(obj,index = key1) #print dic #print dic1 #isnull 和 notnull 是用来检测缺失数据 #print pd.isnull(dic1) #Series很重要的功能就是按照键值自动对齐功能 dic2 = Series([10,20,30,40],index = [a,b,c,e]) #print dic1 + dic2 #name属性,可以起名字 = s1 = key1 #Series 的索引可以就地修改 dic1.index = [x,y,z,w] DataFrame是一种表格型结构，含有一组有序的列，每一列可以是不同的数据类型。既有行索引，又有列索引，可以被看做由Series组成的字典（使用共同的索引）。跟其他类似的数据结构（比如R中的data.frame），DataFrame面向行和列的操作基本是平衡的。其实，DataFrame中的数据是以一个或者多个二维块存放的（不是列表、字典或者其他）。 #-*- encoding:utf-8 -*- import numpy as np import pandas as pd from pandas import Series,DataFrame #构建DataFrame可以直接传入等长的列表或Series组成的字典 #不等长会产生错误 data = {a:[1,2,3], c:[4,5,6], b:[7,8,9] } #注意是按照列的名字进行列排序 frame = DataFrame(data) #print frame #指定列之后就会按照指定的进行排序 frame = DataFrame(data,columns=[a,c,b]) print frame #可以有空列,index是说行名 frame1 = DataFrame(data,columns = [a,b,c,d],index = [one,two,three]) print frame1 #用字典方式取列数据 print frame[a] print frame.b #列数据的修改直接选出来重新赋值即可 #行，可以用行名或者行数来进行选取 print frame1.ix[two] #为列赋值，如果是Series，规定了index后可以精确赋值 frame1[d] = Series([100,200,300],index = [two,one,three]) print frame1 #删除列用del 函数 del frame1[d] #警告：通过列名选出来的是Series的视图，并不是副本，可用Series copy方法得到副本另一种常见的结构是嵌套字典，即字典的字典，这样的结构会默认为外键为列，内列为行。 #-*- encoding:utf-8 -*- import numpy as np import pandas as pd from pa