- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据预处理
1 数据清理
数据清洗是清除错误和不一致数据的过程, 当然,数据清洗不是简单的用更新数据记录,
在数据挖掘过程中, 数据清洗是第一步骤, 即对数据进行预处理的过程 。数据清洗的任务是
过滤或者修改那些不符合要求的数据。 不 符合要求的数据主要有不完整的数据、 错误的数据
和重复的数据 3 大类。
各种不同的挖掘系统都是针对特定的应用领域进行数据清洗的。包括:
1) 检测并消除数据异常
2) 检测并消除近似重复记录
3) 数据的集成
4) 特定领域的数据清洗
项目中的数据来源于数据仓库, 其中数据是不完整的、 有噪声和不一致的 。数据清理过
程试图填充缺失的值, 光滑噪声并识别离群点, 并纠正数据中的不一致 。数据清洗的目的是
为挖掘提供准确而有效的数据, 提高挖掘效率。 下面介绍数据清理的过程, 该过程依照云平
台的处理流程。
2 缺失值处理
对于数据集中的数据,存在有这样两种情况:
1) 数据中有大量缺失值的属性, 我们通常采取的措施是直接删除, 但是在有些系统进
行 ETL 处理时,不能直接处理大量的缺失值。
2) 对于比较重要的属性, 也会存在少量缺失值, 需要将数据补充完整后进行一系列的
数据挖掘。
针对这两种不完整的数据特征,在数据清洗时采取了以下两种方式对数据填补:
1) 将缺失的属性值用同一个常数替换,如“ Unknown ”。这种方式用于处理上述的
第一种数据特征的数据, 先用一个替换值将空值进行约束替换。 处理后的数据对后期挖掘工
作没有价值会选择删除。
2) 利用该属性的最可能的值填充缺失值。 对于第二种数据特征的数据, 事先对每个属
性进行值统计, 统计其值的分布状态和频率, 对该属性的所有遗漏的值均利用出现频率最高
的那个值来填补。
对缺失数据进行填补后, 填入的值可能不正确, 数据可能会存在偏置, 并不是十分可靠
的。然而, 该方法使用了该属性已有数据的大部分信息来预测缺失值。 在估计缺失值时,通
过考虑该属性的值的整体分布与频率,保持该属性的整体分布状态。
1
3 数据选择
在对数据进行第一步缺失值清理后, 会考虑删除掉冗余属性、 或者与挖掘关系不大的属
性,这称为人工选择。
属性的人工选择和数据消减是不同的, 即使两者的目的都是缩小所挖掘数据的规模, 但
却不会影响 (或基本不影响)最终的挖掘结果。都属于属性的降维,但是现有的数据消减包
括:数据聚合、消减维度、数据压缩和数据块消减。而人工属性选择是物理降维方式,通过
对业务的理解和相关人员的沟通,对数据集中的数据进行初步的筛选。
4 数据变换
数据变换是数据清理过程的第二步, 是对数据的一个标准化的处理。 大部分数据需要进
行数据变换。
数据变换是不同来源所得到的数据可能导致不一致, 所以需要进行数据变换, 构成一个
适合数据挖掘决的描述形式。在项目中我们进行数据转换包含的处理内容有:
(1) 属性的数据类型转换。
当属性之间的取值范围可能相差很大时, 要进行数据的映射处理, 映射关系可以去平方
根、标准方差以及区域对应。
当属性的取值类型较小时,
文档评论(0)