网站大量收购独家精品文档,联系QQ:2885784924

3.1 数据预处理 分享.pdf

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.1 数据预处理 引言 • 原始数据是知识和信息提取的源泉,对数据挖掘而言非常重要 • 但是,数据挖掘过程中,不完全性、冗余性和模糊性数据不仅不 能满足数据挖掘算法需求,其产生的噪声干扰还直接影响数据挖 掘结果 • 因此,数据预处理是数据挖掘实现过程中的关键环节 原始数据中存在的问题 • 数据不完整 • 数据存在NA、存在模糊信息、数据设置具有一定的随机性质等等 • 数据缺少关键属性 • 数据含噪声 • 噪声是测量误差中的随机部分,可能涉及值的扭曲或者附加的谬误对象 • 错误数据 • 如源于人工录入数据失误、机器故障 、不同系统的一些特殊约定 • 数据不一致 • 指标设定缺乏统一标准和定义,或同一个变量在不同数据源中以不同格式存在 (如有的以文本型,有的以数值型) • 数据编码、结构不一致 • 不同来源获取的数据,数据编码、结构、计量单位可能不同 数据预处理的功能 • 数据清理 • 数据集成 • 数据变换 • 数据归约 • 下面一一展开 数据预处理的功能:数据清理 • 指在数据中消除错误和不一致、解决对象识别问题的过程,包括空值处理、 噪声数据处理及不一致数据处理等。 无监督 :用样本数据训练算法,经过一定时间的学习后,自动完成数据清理工作 数据清理 有监督 :在领域专家指导下,分析手机数据,去除明显错误的噪声数 据和重复记录,填补缺失值 (1) 偏差检测 (2) 编码和数据表示的不一致检测 (3) 字段过载 (4) 根据唯一性规则、连续性规则和空值规则考察数据 数据预处理的功能:数据集成 • 将多个文件或多数据库中的异构数据合并,然后存放在一个一致的数据存储中, 解决语义模型问题,主要涉及数据冲突、不一致数据的处理 • 为什么需要数据集成?数据挖掘中,数据可能来自多个数据源,造成数据中存 在属性的同名不同义、同义不同名、单位不统一、类型不一致等问题 • 数据集成要解决的问题 • 实体识别问题 eg: A数据库中的GDP_num与B数据库中的GDP_number是同一数据吗? • 消除冗余问题 • 冗余指重复存在的信息,本无须进行重复处理。有些冗余较为隐蔽,须通过相关分析发现: 2 i r o e − −  ij ij  =1 2 X 2 • 相关系数: = , 皮尔逊X 检验:  , −1) e i 1 j 1 ij • 是联合事件(A , B ) 的观测频度(实际计数), 是(A , B ) 的期望频度 i i i i • 数据值冲突的检测与处理 • 在多个数据源中,同一实体的属性值不同(表现在数据值、数据类型、数量单位或编码等), eg: 由于货币计量单位不

文档评论(0)

刘建明 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档