- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
⼤数据预处理技术
学学 习习了了⽜⽜琨琨⽼⽼ 师师的的课课程程后后整整理理 的的学学 习习笔笔记记 ,,⽤⽤ 于于 ⽇⽇后后复复 习习
⼀⼀、、⼤⼤数数据据预预处处理理 的的⼏⼏个个 骤骤
1.数据预处理 2.数据清洗 3.数据集成 4.数据归约 5.数据变换 6.数据离散化 7.⼤数据预处理
⼆⼆、、数数据据预预处处理理
现实中的数据⼤多是 “脏”数据 :
①不完整 缺少属性值或仅仅包含聚集数据
②含噪声 包含错误或存在偏离期望的离群值 ⽐如 :salary= “- 10”,明显是错误数据
③不⼀致 ⽤于商品分类的部门编码存在差异 ⽐如age= “42”Birthday= “03/07/ 1997”
⽽我们在使⽤数据过程中对数据有如下要求:
⼀致性、准确性、完整性、时效性、可信性、可解释性
由于获得的数据规模太过庞⼤,数据不完整、重复、杂乱,在⼀个完整的数据挖掘过程中,数据预处理要花费60%左右的时间。
三三、、数数据据清清洗洗
1.缺失值的处理 :
①忽略元组 :若有多个属性值缺失或者该元祖剩余属性值使⽤价值较⼩时,应选择放弃
②⼈⼯填写:该⽅法费时,数据庞⼤时⾏不通
③全局常量填充 :⽅法简单,但有可能会被挖掘程序愚以为形成了⼜去的概念
④属性中⼼度量填充 :对于正常的数据分布⽽⾔可以使⽤均值,⽽倾斜数据分布应使⽤中位数
⑤最可能的值填充 :使⽤回归、基于推理的⼯具或者决策树归纳确定。
2.噪声数据与离群点 :
噪声 :被测量的变量的随机误差或者⽅差 (⼀般指错误的数据)
离群点 :数据集中包含⼀些数据对象,他们与数据的⼀般⾏为或模型不⼀致。 (正常值,但偏离⼤多数数据)
分箱 (binning):通过考察数据周围的值来光滑有序数据值,这些有序的值被分布到⼀些 “桶”或箱中,由于分箱⽅法只是考虑近邻的值,
因此是局部光滑。
分箱的⽅法 :
等宽分箱 :每个 “桶”的区间宽度相同
等深分箱 :每个 “桶”的样本个数相同
回归 (regression) :⽤⼀个函数拟合数据来光滑数据。
线性回归找出拟合两个属性 (变量)的最佳直线 ;多元线性回归涉及多个属性,将数据拟合到多维曲⾯
下图即对数据进⾏线性回归拟合 :
离群点 :
2.1 离群点的分类
①全局离群点 :个别数据离整体数据较远
②集体离群点 :⼀组数据与其他数据分布⽅式不同
③情景离群点
2.2 离群点检测的⽅法
①基于统计的离群点检测 :假设给定的数据集服从某⼀随机分布 (如正态分布等),⽤不⼀致性测试识别异常。
如果某个样本点不符合⼯作假设,那么认为它是离群点 ;如果它符合备选假设,则认为它是符合某⼀备选假设分布的离群点。
②基于密度的局部离群点检测 :通过基于局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现。
③基于距离的离群点检测 :如果样本空间D⾄少有N个样本点与对象O的距离⼤于d,那么对象O是以⾄少N个样本点和距离d为参数的基于距
离的离群点。
④基于偏差的离群点检测 :通过检查⼀组对象的主要特征来识别离群点,那些些不符合这种特征的数据对象被判定为离群点。
2.3 传统离群点检测的缺点 :
①基于统计的算法 :不适合多维空间,预先要知道样本空间中数据集的分布特征
②基于距离的算法 :参数的选取⾮常敏感,受时间复杂度限制,不适⽤于⾼维稀疏数据集。
③基于偏差的算法 :实际应⽤少,在⾼维数据集中,很难获得该数据集的主要特征。
四四、、数数据据集集成成
1.数数据据属属性性 ::
①标称属性 :属性值是⼀些符号或事物的名称,经常看做分类属性,如头发颜⾊ :黄⾊、⿊⾊、棕⾊
②⼆元属性 :是⼀种标称属性,只有两个类别 0或1 true or false
③序数属性 :其可能的值时间具有有意义的序或秩评定,如客户满意度 :0-很满意 1-不能太满意...
④数值属性 :定量的,可度量的量,⽤整数换实数值表⽰。
2.离离散散属属性性与与连连续续属属性性
1.离散属性 :具有有限或⽆限可数个值,可以是数值属性,如性别、员⼯号
2.连续属性 :⾮离散的,⼀般⽤浮点变量表⽰。
3.数数据据集集成成
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机的集中,从⽽为企业提供全⾯的数据共享。数据集成时,模式集成和
对象匹配⾮常重要,如何将来 ⾃于多个信息源的等价实体进⾏匹配即实体识别问题。
在进⾏数据集成时,同⼀数据在系统中多次重复出现,需要消除数据冗余,针对不同特征或数据间的关系进⾏相关性分析。
相关性分析时⽤⽪尔逊相
文档评论(0)