Python快乐编程——数据分析与实战 课件 第7章 数据处理的基本手段.pptx

Python快乐编程——数据分析与实战 课件 第7章 数据处理的基本手段.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第7章 数据处理的基本手段合并数据集数据清洗数据标准化数据类型的转换合并数据集数据标准化数据类型的转换数据清洗7.27.47.17.3?点击查看本小节知识架构?点击查看本小节知识架构?点击查看本小节知识架构?点击查看本小节知识架构学习目标掌握数据清洗的方法掌握数据合并的方法掌握掌握3214掌握掌握数据类型转换的方法掌握掌握数据标准化的流程获取数据的最终目的是在数据中提取有效的信息,为管理者提供更好的决策数据。在世界 500 强企业中,如 IBM 、微软、谷歌等知名公司均设有独立的数据分析部门。自 2018 年起,国内各行业甚至政府部门都在完善数据的利用率,加速了数据分析与大数据的高速发展。本章将从数据的合并、清洗、标准化、类型转换等方面对数据分析的常用手段进行讲解。7.1 合并数据集返回目录主键合并数据7.1.1轴向数据合并7.1.2重叠数据的合并7.1.3索引键的合并7.1.47.1合并数据集在数据处理过程中,经常会对数据进行合并。将若干分散的同类型数据集进行合并处理,就像环卫工人将来自不同街区分类的垃圾进行集中加工,如 A 街区的可循环利用的垃圾与 B 街区可循环利用的垃圾进行合并处理, A 街区的不可循环利用的垃圾与 B 街区不可循环利用的垃圾进行合并处理。Pandas 提供了一些常用方法,用于不同情况下数据集合并的处理。具体方法如表所示。7.1.1主键合并数据根据主键合并数据是一种常见的数据合并形式,该合并方式将不同数据集中的数据项,根据相同或者不同的主键进行数据合并。 Pandas 提供了 merge ()函数用于数据合并,该函数的具体形式如下。7.1.1主键合并数据merge ()函数参数如表所示。7.1.1主键合并数据下面通过代码进行说明。首先,导入使用的 pandas 库并为其起别名,然后定义两组测试数据 df _ 1 、 df _ 2 ,具体代码如下。7.1.1主键合并数据查看定义好的测试数据结果如下。7.1.1主键合并数据使用 pandas 提供的 merge ()函数进行直接合并,具体代码如下。通过上述过程可以看出, merge ()函数隐式地合并数据。若开发者想要显式地合并数据,需要使用参数 on 指定键名称。上述结果与在 merge ()函数中添加参数 on=teacher的运行结果是一样的(因为两组数据具有相同的列名称 teacher )。7.1.1主键合并数据Pandas 同样支持根据不同列名称进行合并。开发者只需要使用 left _ on 、 right _ on 参数进行指定即可。上述代码中虽然课程的名字是相同的,但是 01 班的课程和 02 班的课程是不同的。不能直接使用 on 进行数据合并,如果想要使两者进行合并,需要使用 left _ on 参数和 right _ on 参数,具体形式如下。7.1.1主键合并数据上述代码中指定 df _ 1 数据中的“数据分析 01 班课程”列与 df _ 2 参数中的“数据分析 02班课程”进行数据合并。Pandas 允许开发者使用 how 参数设置数据合并的基本方式。how 参数默认情况下使用的是 inner 连接方式,该参数还可以接受“left ”“ right ”“ outer ”值。通俗地讲, inner 方式就是高中数学中的交集的概念;outer 对应的就是并集的概念;left 被称为左连接,表示以左侧数据键为主;right 使用的是右连接,表示以右侧数据键为主,具体代码如下。7.1.1主键合并数据7.1.1主键合并数据上述代码结果中,price 后默认添加了“_ x ”与“_ y ”后缀,这是为了区别该字段来源于同数据集中,Pandas 人性化地设置了 suffixes 参数,该参数用来设置对应的后缀,具体代码如下。注意:suffiexs 的参数个数应该与合并参数个数相同。如若不同,将会提示“ toomanyvaluestounpack ”的错误。7.1.2轴向数据合并轴向数据合并是数据处理中经常用到的另一种数据合并形式。该合并方式是数据沿指定数据轴堆叠数据的一种方式。具体如图所示。7.1.2轴向数据合并Pandas 中提供了 concat ()函数供开发者进行轴向数据合并操作,该函数具体如下。concat ()函数参数如表所示。7.1.2轴向数据合并下面通过代码进行基本说明。首先,创建 3 个 Series 数据对象,具体代码如下。通过使用 concat ()函数进行数据轴向合并,并查看结果,具体代码如下。7.1.2轴向数据合并通过上述代码可以看出,concat ()函数使用十分简单。开发者可以设置 axis 参数,选择不同的轴以改变合并方向,具体代码如下。7.1.2轴向数据合并上述代码中通过设置 axis 参数将数据沿 0 轴合并。

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档