数据预处理四43课件讲解.pptxVIP

  • 0
  • 0
  • 约2.48千字
  • 约 24页
  • 2026-02-03 发布于陕西
  • 举报

数据预处理大数据技术在财务中的应用授课人:边远达项目四

项目四学习目标理解数据清洗在数据分析流程中的核心地位与意义。知识目标掌握处理缺失值与重复值的基本方法与适用场景。理解数据合并的基本概念、类型与常见问题。掌握数据转换的常用技术与原理。

项目四学习目标能力目标能够运用数据分析工具独立完成对数据集的缺失值与重复值清洗。能根据分析需求,对数据进行适当转换与格式化,使其满足后续建模或分析工具的要求。

项目四学习目标素质目标培养数据敏感性与数据质量意识,理解数据清洗在数据分析中的重要性。形成严谨、细致的数据处理态度,注重流程规范与可复现性。增强在实际工作中发现问题、分析问题并系统性解决问题的综合素养。

清洗重复值数据清洗缺失值数据合并及清洗数据数据转换

大数据技术在财务中的应用项目四数据预处理任务一清洗重复值数据

任务一思维导图任务一清洗重复值数据引入案例知识准备1.1数据预处理概念1.2检测重复值案例解析任务分析任务实训任务小结1.3删除重复值

案例引入任务一认知大数据(1)美菱信息有限公司的一份财务数据(dataClean.xlsx)展开,该数据被识别为含有重复值。任务核心在于利用Python进行数据清洗,具体内容包括duplicated()函数或填充对其进行处理,以实现数据的有效清理与规范化。

课程导入任务分析任务核心:对美菱信息有限公司的财务数据(dataClean.xlsx)进行清洗主要挑战:数据集含有重复值任务要求:运用Python编程,具体通过使用duplicated()函数进行重复值识别,并采取相应策略(如删除重复项或填充数据)进行处理最终目标:实现数据的有效清理与规范化,为后续的财务分析提供高质量的数据基础。

数据预处理概念1.1PARTONE

1.1.1数据预处理概念与目的数据预处理概念数据预处理是指对采集到的数据进行加工整理,形成适合数据分析的样式,保证数据的一致性和有效性。基本目的基本目的是从大量的、可能杂乱无章的、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。

脏数据:一般指不符合要求以及不能直接进行相应分析的数据。1.1.2“脏数据”的概念常见“脏数据”类型缺失值重复值数据合并数据转换

1.1.3Pandas简介Pandas建立在Numpy之上的一种工具,该工具是为解决数据分析任务而创建的。Pandas纳入大量库和一些标准的数据模型,提供了高效操作大型数据集所需的工具。pandas也提供了大量能使我们快速便捷地处理数据的函数和方法。在Python代码中使用importpandasaspd语句导入该库。为了方便代码的阅读,一般采用pd这个缩写来表示Pandas库。

1.1.4Pandas数据结构Pandas是Python数据分析中非常重要的库,而Pandas库中又有两个非常重要的对象:一个是Series,一个是DataFrame。它们也是pandas库中非常常用的数据结构。

检测重复值1.2PARTONE

示例1.2.1创建有重复值的数据集

1.2.1创建有重复值的数据集示例使用duplicated()函数检测数据集中是否有重复值说明:True表示该行与前面的某行重复,False表示该行在数据集中不与其他行重复。

1.2.1创建有重复值的数据集示例使用duplicated().value_counts()命令统计重复行信息说明:系统先执行df.duplicated(),然后在df.duplicated()返回的布尔型Series数据基础上进行真假值个数统计。

1.2.1创建有重复值的数据集示例使用drop_duplicates()函数删除重复行说明:当数据中出现了重复值,大部分情况下是直接删除。

案例分析第一步:导入Excel表格1.使用数据处理工具(Python的pandas库)导入Excel文件;结论:从图1-2得出,该图展示了一个存在严重质量问题的财务数据集:数据中包含大量缺失值(税金及附加整列为空、2月份整行缺失、5月份财务费用缺失),同时存在明显重复记录(3月和5月各有两行完全相同的数据),且销售费用列仍包含货币符号导致格式不统一,表明该数据需要经过系统的清洗和去重处理才能用于分析。图1-1原数据图1-2读写数据

案例分析第二步:使用duplicated()函数判断是否存在重复项图1-3读写数据图1-2读写数据结论:从图1-3得出,其中包含4个False和2个True,表明在对数据集进行重复值检查时(,有4项不

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档