大数据解析与应用导论 课件 第2章 数据预处理及特征提取.pptx

大数据解析与应用导论 课件 第2章 数据预处理及特征提取.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据解析与应用导论课件

大数据解析与应用导论Introduction to Big Data Analytics and Application5.4.2.1.3.实例应用数据清洗 数据转换主成分分析2(算法)主成分分析1(基本概念)第二章 绪论数据预处理及特征提取 (一)什么是数据清洗数据清洗:对“脏数据”进行处理脏数据缺失值异常值海量原始数据中存在大量不完整,有异常的数据分析错误的数据会导致分析结果的偏差不一致的值(二)缺失值处理删去整条数据姓名身高体重…血糖值xxxxxx…xxxxxxxx…xxxxxx…xxxxxxxx…xxxxxxxx…xxxxxxxx…xx缺失值处理方法删除法的优点:简单,保证数据的准确性删除法的缺点:数据成本高,其余数据可能已包括大部分信息,删去浪费缺失数据:空单元表示NaN插补(二)缺失值处理替换法使用平均值,众数或固定值代替最近邻插补找到最相似样本,用对应值替代插补回归法根据变量间的相关关系回归插值法时间序列数据用牛顿法等插值(三)异常值处理异常值分析:检测数据是否有输入错误或者含有不合常理的数据影响模型影响分析结果简单统计量分析异常值检查3σ准则箱型图分析(三)异常值处理简单统计量分析计算数据的统计量,进行分析最常用的是最大值最小值并分析是否合理最大年龄是200?体重出现负数?(三)异常值处理3σ准则正态分布3倍标准差之外为异常1倍标准差之内:68.3%2倍标准差之内:95.5%3倍标准差之内:99.7%不符合标准分布:定义远离均值的多少倍标准差作异常值举个例子:均值是10,标准差是2,定义远离3倍标准差就是异常值在4~16之间的数字为正常(三)异常值处理箱型图分析箱型图外部为异常?上四分位数:全部数据中有1/4的数据比它大,记作下四分位数:全部数据中有1/4的数据比它小,记作~ 之间包含了一半的数据,记= 异常数据:小于,或者大于箱型图具有比较好的鲁棒性(四)一致性分析不一致性:数据的矛盾性和不相容性姓名上班方式…是否有车xxxxxx…xxxxx开车…否xxxxxx…xx姓名满意度…频率xxxxxx…xxxxx10…很少去xxxxxx…xx(五)总结缺失值处理一致性检查异常值处理数据是分析的对象和基础,了解数据特性,选择适合方法大数据解析与应用导论Introduction to Big Data Analytics and Application3.4.2.5.1.实例应用 主成分分析2第二章 数据预处理及特征提取 数据清洗 数据转换 主成分分析1 (一)数据变换简介数据变换主要是对数据进行规范化处理,将数据转换成适当的形式,以适用于挖掘任务及算法的需要原始数据适当形式的数据数据变换(二)简单函数变换简单函数变换是对原始数据进行某些数学函数变换,常用的变换包含平方、开方、取对数、差分运算等:??原始数据?适当形式的数据?数据变换简单的函数变换常用来将原始数据变换成易于处理的适当形式数据,例如:(1)时间序列分析:简单的对数变换、差分运算;(2)取值范围较为宽泛的分布:对数变换(三)数据归一化数据归一化:消除指标间量纲和取值范围差异常用的数据归一化方法:“最小-最大规范化”和“零-均值规范化”最小-最大规范化? 其中,为原始数据的最小值,为原始数据最大值;通过对原始数据进行线性变换,使数据均落在区间内 缺点:新数据的加入使得 会发生变化。数据归一化方法零-均值规范化? 其中,为原始数据的均值,为原始数据的标准差;将原始数据变换到均值为0,标准差为1的分布中。 优点:适用于数据最大值、最小值未知情况,最为常用。(四)连续数据离散化连续数据离散化:将连续数据变换成分类属性连续数据离散化两个子任务:①确定区间数;②如何将连续数据映射到各个区间内。区间10区间9区间8区间7区间6区间5区间4区间3区间2区间1(四)连续数据离散化等宽法 数据的值域区间等宽连续数据离散化方法等频法 相同数量的数据放入每个区间聚类划分法聚类+分别处理(五)属性构造属性构造:利用原有数据构造新的属性。通过构造新的属性,并加入到现有的属性集合中,属性构造能够提取更有用的信息,挖掘更深层次的模式,提升数据挖掘的效果。身高()???BMI()?体重()(六)数据变换小结简单函数变换数据归一化原始数据适当形式的数据数据变换方法数据变换连续数据离散化属性构造…大数据解析与应用导论Introduction to Big Data Analytics and Application3.4.2.5.1.实例应用 主成分分析2第二章 数据预处理及特征提取 数据清洗 数据转换 主成分分析1 (一)主成分分析简介增加计算效率简化原始数据数据 多维度 高信息 杂降维尽可能保留原始数据的信息保留计算精度大数据处理的难点(一)主成分分析简介主成分分析(Princip

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档