- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据挖掘技术与应用案例教程
数据挖掘基础数据探索与预处理分类回归分析聚类关联规则挖掘人工神经网络与深度学习综合案例——北京二手房数据挖掘
项目二数据探索与预处理
项目导读数据挖掘是以数据为中心展开的,数据质量的高低对数据挖掘的结果有着极大影响。在实际应用中,获取的原始数据经常分布不均衡且伴随着缺失值、异常值等情况。因此,在进行数据挖掘前需要全面了解和认识数据,并对数据进行针对性的预处理。本项目就来学习数据探索与预处理的相关知识,以及实现数据探索与预处理的常用方法,为后续的数据挖掘建模奠定良好的基础。
知识目标掌握数据质量分析与数据特征分析的常用方法。掌握缺失值、异常值和重复值的常用处理方法。掌握数据集成过程中常见问题的处理方法及数据合并的常用方法。掌握简单函数变换、数据规范化、数据离散化及数据编码的常用方法。掌握维度归约、数量归约、数据压缩的常用方法。项目目标技能目标能够对数据进行质量分析和特征分析。能够根据数据探索结果对数据进行数据清洗、数据集成、数据变换和数据归约操作。素养目标提高分析问题并选择合适解决方法的能力。养成事前做好充分准备的良好习惯。
全班学生以3~5人为一组进行分组,各组选出组长。组长组织组员扫码观看“认识数据”视频,讨论并回答下列问题。问题1:数据的元组指的是什么?数据的属性指的是什么?问题2:数据的类型有哪些?尝试列举几个日常生活中用到的数据。项目准备认识数据
项目导航2.3数据集成2.4数据变换2.5数据归约2.1数据探索2.2数据清洗
2.1数据探索
数据探索是数据预处理前重要的准备工作。2.1数据探索数据质量分析数据特征分析
2.1.1数据质量分析 数据质量分析缺失值分析异常值分析一致性分析数据质量分析的主要任务:检查原始数据中是否存在不符合要求或不能直接进行数据挖掘的数据。
2.1.1数据质量分析 1.缺失值分析 缺失值的存在会影响数据的完整性,从而影响数据挖掘结果的准确性。因此,缺失值分析是数据质量分析中必不可少的步骤之一。数据缺失数据采集传感器出现故障导致部分数据没有采集机器故障人为刻意隐瞒一些比较敏感的数据(如个人收入)如未婚者并不存在配偶信息人为因素某些属性不存在
2.1.1数据质量分析 1.缺失值分析 Pandas提供了isnull()函数用于检测缺失值,函数返回值为布尔类型,其中“False”表示非空值,“True”表示空值。isnull()函数的使用格式如下。DataFrame.isnull()Pandas还提供了sum()函数与isnull()函数的结合使用,用于统计每个属性的缺失值个数。sum()函数与isnull()函数的结合使用格式如下。DataFrame.isnull().sum()
2.1.1数据质量分析 1.缺失值分析 上述函数使用格式中的“DataFrame”是Pandas提供的核心数据结构之一。一个DataFrame对象由列索引、行索引和二维数据组成,可以看作电子表格或字典对象的扩展形式。在实际应用中,需将函数使用格式中的“DataFrame”替换为具体分析对象。
2.1.1数据质量分析 2.异常值分析 信用卡消费数据中存在异常值时,就需要特别注意该数据是否提示存在欺诈;患者药物使用的健康监测数据中存在异常值时,就需要特别注意该数据是否由药物的副作用引发;等等。【例如】数据中明显偏离绝大多数数值的数据称为异常值或离群点。异常值可能是数据录入错误、测量误差、数据损坏导致的,也可能是真实存在但属于偶然事件的正常值数据。异常值的出现往往是发现问题进而去改进的契机,因此,异常值不容忽视。
2.1.1数据质量分析 2.异常值分析 常用的异常值分析方法基于统计的方法基于偏差的方法基于箱形图分析的方法
2.1.1数据质量分析 2.异常值分析 通过为数据创建一个统计模型,来查看哪些数据是不合理的。常用的统计模型:最大值和最小值模型,用于判断数据是否超出合理范围。(1)基于统计的方法统计的年龄数据中最大值为300岁,超出人们认知的合理范围,属于异常值。【例如】
2.1.1数据质量分析 2.异常值分析 通过检查一组数据的主要特征来确定数据是否异常。常用的基于偏差的方法采用的是序列异常技术,这种技术主要适用于服从正态分布的数据,当某个数据与均值()的偏差超过三倍标准差()时,会被认定为异常值。(2)基于偏差的方法
2.1.1数据质量分析 2.异常值分析 高手点拨小概率事件是指什么样的事件?在服从正态分布的数据中,与均值的偏差超过的概率小于等于0.003(x为某个具体的数值),属于小概率事件。因此,在默认情况下,可以认定与均值的偏差超过的数据为异常值。
异常值下限下四分位数上四分位数中位数异常值上限基于箱形图分析异常值2.1.
您可能关注的文档
- 数据挖掘技术与应用案例教程项目3分类.pptx
- 数据挖掘技术与应用案例教程项目4回归分析.pptx
- 数据挖掘技术与应用案例教程项目5聚类.pptx
- 数据挖掘技术与应用案例教程项目6关联规则挖掘.pptx
- 数据挖掘技术与应用案例教程项目7人工神经网络与深度学习.pptx
- 数据挖掘技术与应用案例教程项目8综合案例——北京二手房数据挖掘.pptx
- 中文版3ds Max基础与应用案例教程[2022]项目八动画.pptx
- 中文版3ds Max基础与应用案例教程[2022]项目二基础建模.pptx
- 中文版3ds Max基础与应用案例教程[2022]项目九粒子系统与空间扭曲.pptx
- 中文版3ds Max基础与应用案例教程[2022]项目六摄影机与灯光.pptx
文档评论(0)