实验8 Pandas基础知识.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Pandas基础知识实验八

课程学习目标了解Pandas的基础知识初步了解Pandas的数据类型

Pandas简介Pandas为Python+data+analysis的组合缩写,是Python中基于NumPy和Matplotlib的第三方数据分析库,与NumPy和Matplotlib共同构成了Python数据分析的基础工具包,享有“数据分析三剑客”之名。正因为Pandas是在NumPy基础上实现,其核心数据结构与NumPy的Ndarray十分相似,但Pandas与NumPy的关系不是替代,而是互为补充。Pandas在数据处理上比NumPy更加强大和智能。

Pandas的特点Pandas是基于NumPy的一种工具,为了解决数据分析任务而创建。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使用户快速便捷地处理数据的函数和方法。Pandas是使Python成为强大而高效的数据分析环境的重要因素之一。Pandas的强大让人毋庸置疑,一个集数据审阅、处理、分析、可视化于一身的工具,非常好用。

Pandas处理数据分析的流程读取数据:Pandas提供强大的IO读取工具,csv格式、Excel文件、数据库等都可以非常简便地读取,对于大数据,pandas也支持大文件的分块读取。数据清洗:如何有效处理缺失值,Pandas把各种类型数据类型的缺失值统一称为NaN,Pandas提供许多方便快捷的方法来处理这些缺失值NaN。建模阶段:Pandas自动且明确的数据对齐特性,非常方便地使新的对象可以正确地与一组标签对齐,有了这个特性,Pandas就可以非常方便地将数据集进行拆分-重组操作。结果展示:Pandas提供了内置的绘图功能,可以直接使用DataFrame和Series对象的plot方法进行快速的可视化,同时也可以与Matplotlib结合进行更加复杂的可视化操作。读取数据-数据清洗-分析建模-结果展示

Pandas和NumPy的区别NumPy和Pandas在数据处理方面各有优劣,需要根据实际需求选择合适的库。如果需要处理结构化数据,如表格型数据或时间序列数据等,可以使用Pandas;如果需要进行数值计算、模型建立等科学计算问题,则可以使用NumPy。在实际应用中,两者也可以结合使用,以充分发挥各自的优势。如果装了Anaconda,Pandas不用单独安装即可使用。在JupterNotebook中,通常使用如下方法导入Pandas包:importpandasaspd

Pandas核心数据结构Pandas核心数据结构有两种——一维的Series和二维的DataFrame,两者的关系像表格中的行与整个表的关系。Series即一维数组,与Python中标准数据结构List很像,可以把它想象为表格中的列。对于列数据,用户可以做什么?可以取任意行的数据、可以取指定行的数据、还可以修改相应的数据,这在Series中也可以实现,对应的分别是Series的切片、索引和修改。DataFrame即二维数组,也可以说是表。同样的也可以把它理解成整个表格。想象一下,对于表格数据,用户可以做什么?可以对列增删改、可以对行增删改、当然对“单元格”数据也可以操作。

Pandas的主要功能Pandas支持了非常丰富的文件类型,即它可以读取和保存多种类型的数据,如:excel文件、csv文件、json文件、sql文件,甚至html文件等,这对用户获取数据很方便。

Pandas数据结构data:一维数组,ndarray类型或普通列表等;index:数据索引标签,如果不指定默认从0开始;dtype:数据类型;name:设置数据集名称;copy:是否拷贝数据,默认为False。一维数组Seriespandas.Series(data,index,dtype,name,copy)Series类似于表格中的行或列,可以保存任何数据类型。

例8.1通过列表创建一个数组存储几个人的名字。importpandasaspd#创建一个包含几个人的名字的列表aa=[Zhangsan,Lisi,Wangwu]#使用pd.Series将列表a转换为Pandas的Series对象#Series是一种类似于一维数组的对象,带有标签(索引)print(pd.Series(a))一维数组SeriesPandas数据结构观察结果可以发现,其自动编排索引,且默认索引从0开始,但是发现这里dtype是object,变量a中输入的是str类型,为什么会出现这个问题呢?其原因在于ndarray,在ndarray中,每个元素必须要有相同的字节,如int64,float64都是八字节,而st

文档评论(0)

弹弹 + 关注
实名认证
文档贡献者

人力资源管理师、教师资格证持证人

该用户很懒,什么也没介绍

版权声明书
用户编号:6152114224000010
领域认证该用户于2024年03月13日上传了人力资源管理师、教师资格证

1亿VIP精品文档

相关文档