- 1、本文档共285页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章 Pandas数据分析初步基于Pandas的文件读取与分析 小结实战:读取Excel文件 DataFrame 类型数据Pandas简介与安装Series类型数据5641233.1Pandas简介与安装认识pandas什么是pandasPandas(Python Data Analysis Library)是基于NumPy的数据分析模块,它提供了大量标准数据模型和高效操作大型数据集所需的工具,可以说Pandas是使得Python能够成为高效且强大的数据分析环境的重要因素之一Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。下载安装安装 pandas 需要基础环境是 Python,开始前我们假定你已经安装了 Python 和 Pip。Windows系统安装使用 Python 包管理器pip来安装 Pandas,是一种最简单、最轻量级的方法。只需执行以下命令即可: pip install pandas 以上命令是在安装了python安装包,进入cmd下输入命令 执行 下载安装安装成功 打开 Python 交互解释器 ,并导入 pandas 模块,如下图 所示如果未出现错误提示,则表示已安装成功。 import pandas pandas.__version__ # 查看版本1.1.5Pandas简介与安装 pip install pandasIn [1]: import pandas as pd #导入Pandas包并取一个别名pdIn [2]: print(pd.__version__) #显示Pandas的版本号,测试Pandas是否加载到内存Out[2]: 1.2.4数据结构Pandas 数据结构,Pandas包含以下三个数据结构:系列(Series),数据帧(DataFrame),面板(Panel)。这些数据结构构建在Numpy数组之上,这意味着它们处理速度很快。Series类似于一维数组;DataFrame是类似表格的二维数组;Panel可以视为Excel的多表单Sheet(已经不用了)pd多维数据表= np多维数组+ 描述Series = 1D array(数据) + index(描述性说明)DataFrame = 2D array(数据) + index + columns (后两种分别为行或列的描述性说明)3.2 Series类型数据序列Seriespandas.Series( data, index, dtype, copy)序列Series是一维标签数组,能够容纳任何类型的数据(整数,字符串,浮点数,python对象等)。Pandas Series构造函数如下: 数据结构:序列(Series)序列序列是一种具有同质数据结构的一维数组。例如,以下序列是整数10,23,56 ...的集合 关键点 :同质数据,大小不可变 ,数据可变的值In [3]: a = pd.Series([2, 0, -4, 12] , name = A)#创建一个Series对象a In [4]: a#输出a的值Out[4]: 0 21 02 -43 12Name: A, dtype: int64序列Series创建空的序列从ndarray创建一个Series如果数据是ndarray,则传递的索引必须具有相同的长度。 如果没有传递索引值,那么默认的索引范围将是range(n),其中n是数组长度,即[0,1,2,3…. range(len(array))-1] - 1]。import pandas as pds = pd.Series()print (s)执行结果:Series([], dtype: float64)import pandas as pdimport numpy as npdata = np.array([a,b,c,d])s = pd.Series(data)print (s)输出结果:0 a1 b2 c3 ddtype: object序列SeriesIn [5]: a.values #获取Series中的数组值Out[5]: array([ 2, 0, -4, 12])In [6]: a.index #获取对应数据的索引值,此处类似于range(4)Out[6]: RangeIndex(start=0, stop=4, step=1)序列SeriesIn [7]: s = pd.Series(np.random.randn(5),#用NumPy数组充当数据源index=[
您可能关注的文档
- 数据分析与可视化 课件全套 电子 第1--7章 numpy_基础---时间序列数据分析.pptx
- 数据分析与可视化 课件 电子 第1、2章_numpy_基础、 numpy_高阶.pptx
- 数据分析与可视化 课件 电子 第5、6章 Matplotlib可视化分析、 可视化分析进阶.pptx
- 数据分析与可视化 课件 电子 第6、7章 可视化分析进阶、 时间序列数据分析.pptx
- 2024年-人教版PEP小学英语三年级下册Unit 3教案(英文版)[1].docx
- 2024年-新人教版一年级数学上册知识点总结.doc
- 【第二章】日系水手服分解及画法—美术课件.pptx
- 2024年-部编版四年级语文第四单元 达标检测卷.doc
- 竹林七贤嵇康角色练习(初级)—美术课件.pptx
- 2024年-部编版五年级语文26 忆读书(教案).doc
文档评论(0)