Q_youedata004数据预处理规范.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据预处理规范 贵州优易合创大数据资产运营有限公司发布 1 保密级别:□绝密 □机密 □秘密 ■内部公开 数据预处理规范 贵州优易合创大数据资产运营有限公司 2 变更记录 版本号 修改点说明 变更日期 变更人 审批人 2018/8/ V1.0 创建 王晓敏 欧朝泉 30 修改点说明的内容有如下几种:创建、修改(+修改说明)、删除(+删除说明) 3 目录 5 5 6 6 7 8 8 8 9 9 10 10 11 11 11 11 13 4 数据预处理规范 在现代的科研和实际工作中,各行各业都需要对采集到的各种各样的数据进 行处理。如何从这些海量的数据之中发现更深层次、更重要的信息,使之能够描 述数据的整体特征,可以预测发展趋势,从而生成决策。这就需要进行数据挖掘。 在数据挖掘的过程中如果只着眼于数据挖掘算法的探讨,而忽视了对数据预 处理的研究,在一定程度上往往会失去数据挖掘的某些重要意义。因为实际系统 中的数据一般都具有不完整性、冗余性和模糊性,很少能直接满足数据挖掘算法 的要求。另外,海量的数据中无意义的成分很多,严重影响了数据挖掘算法的执 行效率,而且由于其中的噪音干扰还会造成挖掘结果的偏差。因此,对不理想的 原始数据进行有效的预处理,已经成为数据挖掘系统实现过程中的关键问题。 数据挖掘与知识发现过程中的第一个步骤就是数据预处理。统计发现:在整 个数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅占总 工作量的10%左右。对数据进行预处理,不但可以节约大量的空间和时间,而且 得到的挖掘结果能更好地起到决策和预测作用。目前数据预处理的常用步骤包括 数据清理、数据集成和数据变换、数据归约。 1 数据预处理的原因与形式 数据的正确性、一致性、完整性、可靠性的要求。现实世界的数据存在以下 问题:(1)不完整的:缺少属性值或某些感兴趣的属性,或仅包含聚集数据;(2) 含噪声的:包含错误或存在偏离期望的离群值;(3)不一致的:采用的编码或表 示不同,如属性名称不同;(4)冗余的:如属性之间可以相互导出。 数据错误的不可避免性:(1)数据输入和获得过程数据错误;(2)数据集成 所表现出来的错误;(3)数据传输过程所引入的错误;(4)据统计有错误的数据 占到总数据的5%左右。 错误数据的危害:(1)高昂的

文档评论(0)

10301556 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档