- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.1 数据预处理
引言
• 原始数据是知识和信息提取的源泉,对数据挖掘而言非常重要
• 但是,数据挖掘过程中,不完全性、冗余性和模糊性数据不仅不
能满足数据挖掘算法需求,其产生的噪声干扰还直接影响数据挖
掘结果
• 因此,数据预处理是数据挖掘实现过程中的关键环节
原始数据中存在的问题
• 数据不完整
• 数据存在NA、存在模糊信息、数据设置具有一定的随机性质等等
• 数据缺少关键属性
• 数据含噪声
• 噪声是测量误差中的随机部分,可能涉及值的扭曲或者附加的谬误对象
• 错误数据
• 如源于人工录入数据失误、机器故障 、不同系统的一些特殊约定
• 数据不一致
• 指标设定缺乏统一标准和定义,或同一个变量在不同数据源中以不同格式存在
(如有的以文本型,有的以数值型)
• 数据编码、结构不一致
• 不同来源获取的数据,数据编码、结构、计量单位可能不同
数据预处理的功能
• 数据清理
• 数据集成
• 数据变换
• 数据归约
• 下面一一展开
数据预处理的功能:数据清理
• 指在数据中消除错误和不一致、解决对象识别问题的过程,包括空值处理、
噪声数据处理及不一致数据处理等。
无监督 :用样本数据训练算法,经过一定时间的学习后,自动完成数据清理工作
数据清理
有监督 :在领域专家指导下,分析手机数据,去除明显错误的噪声数
据和重复记录,填补缺失值
(1) 偏差检测
(2) 编码和数据表示的不一致检测
(3) 字段过载
(4) 根据唯一性规则、连续性规则和空值规则考察数据
数据预处理的功能:数据集成
• 将多个文件或多数据库中的异构数据合并,然后存放在一个一致的数据存储中,
解决语义模型问题,主要涉及数据冲突、不一致数据的处理
• 为什么需要数据集成?数据挖掘中,数据可能来自多个数据源,造成数据中存
在属性的同名不同义、同义不同名、单位不统一、类型不一致等问题
• 数据集成要解决的问题
• 实体识别问题 eg: A数据库中的GDP_num与B数据库中的GDP_number是同一数据吗?
• 消除冗余问题
• 冗余指重复存在的信息,本无须进行重复处理。有些冗余较为隐蔽,须通过相关分析发现:
2
i r o e
− − ij ij
=1 2 X 2
• 相关系数: = , 皮尔逊X 检验: ,
−1) e
i 1 j 1 ij
• 是联合事件(A , B ) 的观测频度(实际计数), 是(A , B ) 的期望频度
i i i i
• 数据值冲突的检测与处理
• 在多个数据源中,同一实体的属性值不同(表现在数据值、数据类型、数量单位或编码等),
eg: 由于货币计量单位不
文档评论(0)