任务二清洗缺失值数据大数据技术在财务中的应用13课件讲解.pptxVIP

  • 1
  • 0
  • 约2.06千字
  • 约 19页
  • 2026-02-03 发布于陕西
  • 举报

任务二清洗缺失值数据大数据技术在财务中的应用13课件讲解.pptx

大数据技术在财务中的应用项目四数据预处理任务二清洗缺失值数据授课人:边远达

任务二思维导图引入案例任务分析知识准备案例解析任务实训任务小结2.1空值和缺失值的检测判断任务二清洗缺失值数据2.2删除空值:dropna()函数2.3填充空值:fillna()函数

任务分析引入案例引入案例与任务分析美尧信息有限公司的一份财务数据(dataClean.xlsx)展开,该数据被识别为含有缺失值的“脏数据”。任务核心在于利用Python进行数据清洗,具体内容包括检测缺失值,并运用相应方法如删除或填充对其进行处理,以实现数据的有效清理与规范化。围绕数据清洗的核心流程展开。首先从理论层面认识了脏数据与缺失值的概念,明确了数据预处理的目标。进而,重点学习了使用Python进行缺失值处理的两种关键技术:检测缺失值,并运用dropna()和fillna()函数进行删除或填充操作。最后,通过美尧信息有限公司的财务数据实例,将所学方法融入一个从问题识别到代码实现的完整实践过程,形成了理论结合实践的学习闭环。

空值和缺失值的检测判断2.1PARTONE

一、空值的检测判断isna()/isnull()和notna()/notnull()函数:函数返回的结果是True/False矩阵有如下数据:notnull()和isnull()的检测结果正好相反Python中None或NaN是空值,而空字符串、空列表等不属于空值。说明:

一、空值的检测判断使用df.isnull().any()方法判断数据集中的哪些“列”存在缺失值

二、填充空值有如下数据集使用fillna()函数填充空值填充策略,如常数填充、向前、向后填充等fillna()函数也可以通过inplace参数来确定是否对原始数据集进行填充更改

二、填充空值使用位于缺失值前面的数据进行填充三部和五部的空值都用其上一行的数据进行了填充。说明:

二、填充空值使用位于缺失值后面的数据进行填充三部的空值用其下一行数据进行了填充,五部没有下一行,未得到填充。说明:

二、填充空值使用指定的值填充三部和五部的空值都用给定的数据进行了填充(注意,五部仅填充了负责人姓名。说明:

二、填充空值有如下数据集使用平均值填充新建具有“年薪”列的数据集

二、填充空值使用平均值填充三部的年薪值用年薪列的均值((20+29+26+23)/4=24.5)进行了填充。说明:只对年薪一列求均值

案例解析图1-1原数据图1-2读写数据第一步:数据导入与初步检查1.使用数据处理工具(Python的pandas库)导入Excel文件;从图1-2得出,存在缺失值(NaN),尤其是2月整行数据缺失,5月的“财务费用”也为空。结论:

案例解析第二步:缺失值检测与整体统计从图1-3得出,通过fillna()函数对缺失值分析显示该数据集质量较差:其中税金及附加列完全为空,财务费用列近半数值缺失,其他关键财务指标也存在个别缺失值,表明此数据需要进行系统清洗才能用于可靠分析。结论:图1-3读写数据图1-2读写数据

案例解析第三步:删除非空元素数量小于2的行根据图1-2读写数据基础上,删除非空元素数量小于2的行图1-2读写数据图1-4读写数据从图1-4得出,通过使用dropna()函数删除了缺失值过多的行(特别是2月份整行数据因几乎全部为空被删除),但保留了5月份数据(仅财务费用缺失),使得数据集得到初步清理,不过仍存在部分缺失值和数据格式不一致的问题需要进一步处理。结论:

案例解析第四步:删除只要含有缺失值的列根据图1-6读写数据基础上,删除只要含有缺失值的列从图1-5得出,通过使用dropna()函数方法删除了包含任何缺失值的列,导致财务费用列因5月份存在空值而被完全移除,最终得到一个包含期间、营业收入、营业成本、销售费用和管理费用五列的完整数据集,所有剩余数据均无缺失值。结论:图1-4读写数据图1-5读写数据

案例解析第六步:以0填充所有缺失值根据图1-2读写数据基础上,以0填充所有缺失值从图1-6得出,通过导入必要的库、读取Excel数据、删除重复行以及使用fillna()函数方法填充缺失值,成功将原始数据中的空值(如2月份的整行缺失和税金及附加列的缺失)统一填充为0,最终得到了一个完整且规整的数据集,所有月份都包含了完整的财务指标数据。结论:图1-2读写数据图1-6读写数据注意:运行代码请打开图标“缺失值-案例代码.txt”

任务实训与任务小结任务实训利用所提供的Python代码,实现对科技公司财务数据中缺失值的自动化清洗处理。本次任务主要学习了数据预处理中处理空值与缺失值的核心方法。内容包括如何检测和判断空值与缺失值,并重点掌握了两种处理方法:使用dropna()函数直接删除空值

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档