Python数据处理、分析、可视化与数据化运营第4章 数据清洗和预处理.pptx

Python数据处理、分析、可视化与数据化运营第4章 数据清洗和预处理.pptx

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
04数据清洗和预处理Python数据处理、分析、可视化与数据化运营 宋天龙 个人微信号:tonysong2013本章学习目标掌握常见的数据审核方法以及用途掌握缺失值出现的常见应对错误了解如何判断和处理缺失值掌握去除重复值的方法掌握随机抽样和分层抽样方法了解常见的数据格式转换方法以及特定值的提取方法数据标准化和归一化的常用方法本章学习目标掌握数据离散化以及二元化处理方法了解分类特征处理的两种常用方法了解基于方差方法的特征选择的基本方法掌握常见的分词工具结巴分词的基本用法熟悉tf-idf的基本含义掌握使用tf-idf进行文本转向量的基本方法4.1 数据审核查看数据状态使用head方法打印输出前N条数据用于判断数据读取是否准确,尤其是汉字、特殊编码格式、数据分隔和列拆分等import pandas as pd # ①data = pd.read_csv(data.csv) # ②print(data.head(3)) # ③代码①导入pandas库,后续所有pandas功能都基于该操作。代码②使用pandas的read_csv方法读取数据文件,默认分隔符为逗号。代码③通过head方法打印输出前3条结果。4.1 数据审核审核数据类型使用dtypes方法查看DataFrame的数据类型用于分析不同的字段的读取类型,对类型的判断涉及后续字段的处理和转换,尤其对日期格式、带有ID列、分类型和数值型字符串的判断至关重要。print(data.dtypes)4.1 数据审核分析数据分布趋势使用describe查看集中性趋势和离散型趋势集中性趋势指数据向哪个区间或值靠拢,离散性趋势指数据差异程度或分离程度有多大。print(data.describe(include=all).round(2))4.2 缺失值处理查看缺失值记录使用isnull().any(axis=1)获得缺失值情况用法示例:na_records = data.isnull().any(axis=1) # 获取每行是否包含NA判断结果print(na_records.sum()) # NA记录的总数量print(na_records[na_records]==True) # NA记录的行号4.2 缺失值处理查看缺失值列使用isnull().any(axis=0)获得缺失值情况用法示例:na_cols = data.isnull().any(axis=0) # 获取每列是否包含NA判断结果print(na_cols.sum()) # NA列的总数量print(na_cols[na_cols]==True) # NA记录的列名4.2 缺失值处理缺失值处理填充缺失值——针对字符串类型用法示例:data[[level,sex]] = data[[level,sex]].fillna(others) 调用数据框的fillna方法填充缺失值。用“其他(others)”来标识这是一个缺失值的列。这种方式常用于将缺失值表示为一种规律,而非随机因素4.2 缺失值处理缺失值处理填充缺失值——针对数值型类型用法示例:data[age] = data[age].fillna(0) # 用0填充data[age] = data[age].fillna(data[age].mean()) # 均值填充data[age] = data[age].fillna(method=pad) # 用前一个数据填充data[age] = data[age].fillna(method=bfill) # 用后一个数据填充data[age] = data[age].interpolate(method=linear) # 用差值法填充,可指定不同的方法4.2 缺失值处理缺失值处理填充缺失值——针对数值型类型①固定值填充:用一个固定值填充,一般选择0。②均值填充:更多场景下选择的方法,这样可以降低自定义值的错误对整体数据的影响。③前/后一个数字填充:选择缺失值的前项或后项作为NA填充方法。④插值法:可指定不同的差值模型,默认是linear,还可设置为polynomial、from_derivatives、akima等多种模式。4.2 缺失值处理缺失值处理丢弃缺失值用法示例:data_dropna = data.dropna()丢弃缺失值是直接将含有NA值的记录丢弃,适用于NA值的记录较少,且整体样本量较大的情况。4.3 异常值处理基于经验值的判断和选择该方法用于对数据的分布有先验经验用法示例:data_sets = data[(data[age]0)(data[age]=100)]数据中的age,属于有订单的人群的年龄,一般是在0-100之间,因此可基于该方法直接选择该区间内的数据,从而实现去除异常数据的目的4.3 异常值处

文档评论(0)

132****9295 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档