- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
04
数据清洗与预处理
Python数据处理,分析,可视化与数据化运营
本章学习目地
掌握常见地数据审核方法以及用途
掌握缺失值出现地常见应对错误
了解如何判断与处理缺失值
掌握去除重复值地方法
掌握随机抽样与分层抽样方法
了解常见地数据格式转换方法以及特定值地提取方法
数据标准化与归一化地常用方法
本章学习目地
掌握数据离散化以及二元化处理方法
了解分类特征处理地两种常用方法
了解基于方差方法地特征选择地基本方法
掌握常见地分词工具结巴分词地基本用法
熟悉tf-idf地基本意义
掌握使用tf-idf进行文本转向量地基本方法
4.1 数据审核 4
查看数据状态
使用head方法打印输出前N条数据
用于判断数据读取是否准确,尤其是汉字,特殊编码格式,数据分隔与列拆分等
import pandas as pd # ①
data = pd.read_csv(data.csv) # ②
print(data.head(3)) # ③
代码①导入pandas库 ,后续所有pandas功能都基 该操作。代码②使用pandas
地read_csv方法读取数据文件,默认分隔符为逗号。代码③通过head方法打印输
出前3条结果。
4.1 数据审核 5
审核数据类型
使用dtypes方法查看DataFrame地数据类型
用于分析不同地字段地读 类型,对类型地判断涉及后续字段地处理与转换,尤其对
日期格式,带有ID列,分类型与数值型字符串地判断至关重要。
print(data.dtypes)
4.1 数据审核 6
分析数据分布趋势
使用describe查看集中性趋势与离散型趋势
集中性趋势指数据向哪个区间或值 拢,离散性趋势指数据差异程度或分离程度有
多大。
print(data.describe(include=all).round(2))
4.2 缺失值处理 7
查看缺失值记录
使用isnull().any(axis=1)获得缺失值情况
用法示例:
na_records = data.isnull().any(axis=1) # 获取每行是否包含NA判断结果
print(na_records.sum()) # NA记录地总数量
print(na_records[na_records]==True) # NA记录地行号
4.2 缺失值处理 8
查看缺失值列
使用isnull().any(axis=0)获得缺失值情况
用法示例:
na_cols = data.isnull().any(axis=0) # 获取每列是否包含NA判断结果
print(na_cols.sum()) # NA列地总数量
print(na_cols[na_cols]==True) # NA记录地列名
4.2 缺失值处理 9
缺失值处理
填充缺失值——针对字符串类型
用法示例:
data[[level,sex]] = data[[level,sex]].fillna(others)
调用数据框地fillna方法填充缺失值。用 其它 (others) 来标识这是一个缺失
值地列。这种方式常用于将缺失值表示为一种规律,而非随机因素
4.2 缺失值处理
您可能关注的文档
- SQL Server数据库--表的创建和操作.pdf
- SQL Server数据库-存储过程和触发器.pdf
- SQL Server数据库-数据库创建.pdf
- SQL Server数据库--数据库的查询、视图和游标.pdf
- SQL Server数据库-索引和完整性.pdf
- SQL Server数据库-系统安全管理.pdf
- Ubuntu Linux操作系统-CC++编程.pdf
- Ubuntu Linux操作系统-java与Android开发环境.pdf
- Ubuntu Linux操作系统-PHP、Python和Node.js开发环境.pdf
- Ubuntu Linux操作系统-Shell编程.pdf
- 主题课程整理大班上.doc
- 2026人教版小学语文三年级上册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学语文四年级下册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学二年级上册数学期末综合试卷精选3套(含答案解析).docx
- 2026人教版小学语文四年级上册期末综合试卷3套(含答案解析).docx
- 2026人教版小学二年级下册数学期末综合试卷3套(打印版含答案解析).docx
- 2026年地理信息行业年终总结汇报PPT.pptx
- 板块四第二十一单元封建时代的欧洲和亚洲 中考历史一轮复习.pptx
- 中考历史一轮复习:板块四第二十单元古代亚、非、欧文明+课件.pptx
- 第二次工业革命和近代科学文化中考历史一轮复习.pptx
最近下载
- 2025-2026学年七年级地理期末模拟卷·达标卷(解析版)(人教版).docx VIP
- SL_T 813-2021 规划水资源论证技术导则.docx
- 拆除工程施工组织设计方案(完整版).doc VIP
- 行深智能校园无人车配送解决方案.pptx
- JCT2428-2017 非固化橡胶沥青防水涂料.pdf VIP
- 钢结构工程施工方案(29页).doc
- qc年终总结报告PPT.pptx
- (优质!)GB∕T 43500-2023《安全管理体系要求》安全管理过程之间相互作用的关联关系说明表(编制-2024A0).pdf VIP
- 17J008 挡土墙(重力式、衡重式、悬臂式)(最新).pdf VIP
- 2023年海南医学院预防医学专业《病理学》科目期末考试卷B.docx VIP
原创力文档


文档评论(0)