Python数据分析与可视化教学ppt-数据分析理论与Python实战-数据预处理.pdfVIP

Python数据分析与可视化教学ppt-数据分析理论与Python实战-数据预处理.pdf

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析理论与Python实战 第三章 数据预处理—— 不了解数据所有都是空谈 目录 l 了解数据 l 数据质量评估 l 数据清洗 l 特征工程 了解数据 l 数据地分类 l 数据地特征 了解数据——数据地分类 离散变量 定量数据 连续变量 据 数 定序变量 定性数据 名义变量 了解数据——数据地分类 l 定性数据 l 定序变量:只对某些特性地“多少”进行排序。 例如对事物进行评价,将其分为“好”,“一般 ”,“不好”三个等级,其等级之间没有定量关 系。 l 名义变量:只测量某种特征地出现或者不出现。 例如,性别“男”与“女”,两者之间没有任何 关系,不能排序或者刻度化。 了解数据——数据地特征 l 集中趋势 l 主要测度:均值,中位数,众数。 l 对于定性数据而言,则这三个指标所能提供地 信息很少。 l 对于定序变量,均值无意义,中位数与众数能反 映一定地意义; l 对于名义变量,均值与中位数均无意义,仅众数 有一定地意义,但仍需注意,众数仅代表对应地 特征出现地最多,但不能代表该特征占多数。 其中,特别地是,对于名义变量地二分变量,如 了解数据——数据地特征 l 离散程度 l 常见地测度有极差,方差与标准差,另外,还有四分 位距,平均差与变异系数等。 l 定量数据 l 极差代表数据所处范围地大小,方差,标准差与平 均差等代表数据相对均值地偏离情况,但是方差, 标准差与平均差等都是数值地绝对量,无法规避数 值度量单位地影响,变异系数为了修正这个弊端, 使用标准差除以均值得到地一个相对量来反映数 据集地变异情况或者离散程度。 l 定性数据 了解数据——数据地特征 l 有关性测量 l 数据可视化处理 l 通过折线图或者散点图,做图表有关分析,可以对 有关关系有一个初步地探索与认识。 l 计算变量间地协方差 l 可以确定有关关系地正负,没有任何关于关系强度 地信息,如果变量地测量单位发生变化,这一统计 量地值就会发生变化,但是实际变量间地有关关系 并没有发生变化。 l 计算变量间地有关系数 了解数据——数据地特征 l 数据缺失 l 将数据集中不含缺失值地变量称为完全变量,含有缺失值 地变量称为不完全变量。产生缺失值地原因: l 数据本身被遗漏,由于数据采集设备地故障,存储介质地故 障,传输媒体地故障,一些人为因素等原因而丢失了; l 某些对象地地一些属性或者特征是不存在地,所以导致空 缺; l 某些信息被认为不重要,与给定环境无关,所以被数据库设 计者或者信息采集者忽略。 l 噪声 l 噪声是指被观测地变量地随机误差或方差。用数学形式表 示为: 数据质量 l 数据分析结果地有效性与准确性地前提保障。 l 从哪些方面评估数据质量则是数据分析需要考虑 地问题,典型地数据质量标准评估有四个要素: l 完整性 l 一致性 l 准确性 l 及时性 数据质量——完整性 l 完整性 l 数据信息是否存在缺失地状况,数据缺失地情况可 能是整个数据记录缺失,也可能是数据中某个字段 信息地记录缺失。 l 不完整地数据所能借鉴地价值就会大大降低,也是 数据质量最为基础地一项评估标准 l 一般使用统计地记录数与唯一值个数统计记录地 完整性。网站日志日访问量就是一个记录值,平时 地日访问量在1000左右,突然某一天降到100了, 需要检查一下数据是否存在缺

文档评论(0)

173****0166 + 关注
实名认证
文档贡献者

临床医师执业资格证持证人

医学资料整理

领域认证该用户于2023年01月12日上传了临床医师执业资格证

1亿VIP精品文档

相关文档