数据挖掘 第2章 据预处理.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘 第2章 据预处理

Chapter 2: Data Preprocessing Why preprocess the data?(数据预处理的必要性) Descriptive data summarization(描述性数据汇总) Data cleaning (数据清洗) Data integration and transformation(数据集成和转换) Data reduction(数据规约) Discretization and concept hierarchy generation(数值离散化和概念分层) Summary(小结) 第二章 数据预处理 2.1 预处理的必要性 目前,数据挖掘的研究工作大都集中在算法的探讨而忽视对数据处理的研究。事实上,数据预处理对数据挖掘十分重要,一些成熟的算法对其处理的数据集合都有一定的要求:比如数据的完整性好,冗余性小,属性的相关性小等。 数据预处理是数据挖掘的重要一环,而且必不可少。要使挖掘算法挖掘出有效的知识,必须为其提供干净,准确,简洁的数据。然而,实际应用系统中收集的数据通常是“脏”数据 1、杂乱性 如性别: A数据库 male=1 , female=2 B数据库 male=‘男’ ,female=‘女’ C数据库 male=‘M’ , female=‘F’ 2、重复性 同一客观事物在数据库中存在两个以上相同的物理描述 假设某周刊有100000个订户,邮件列表中0.1%的记录是重复的,主要是一个名字有不同的写法 Jon Doe 和John Doe 因此,每周需要印刷和邮寄100份额外的刊物,假设每周的邮寄和印刷费用是两圆,公司每年将浪费10000元以上 3、不完整性 由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定,原因可能有: (1)有些属性的内容有时没有 (家庭收入,参与销售事物数据中的顾客信息) (2)有些数据当时被认为是不必要的 (3)由于误解或检测设备失灵导致相关数据没有记录下来 (4)与其它记录内容不一致而被删除 (5)忽略了历史数据或对数据的修改 4、噪声数据 数据中存在着错误或异常(偏离期望值),血压和身高为0就是明显的错误,当数据缺失且用默认值来填充缺失项时,很容易发生这类错误。 (1)数据采集设备有问题 (2)数据录入过程中发生了人为或计算机错误 (3)传输过程中发生错误 4.2 数据预处理的功能 数据清理(清洗) ------可以去掉数据中的噪声,纠正不一致 数据集成 -----将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库或数据立方体 数据变换(转换) --- 将一种格式的数据转换为另一格式的数据(如规范化) 数据归约(消减) ----可以通过聚集、删除冗余特性或聚类等方法来压缩数据 这里需要指出的是:上述的各种数据预处理方法,并不是相互独立的,而是相互关联的,如消除数据冗余既可以看成是一种形式的数据清洗,也可以看成是一种数据消减。 Chapter 2: Data Preprocessing 2.1 Why preprocess the data? 2.2 Descriptive data summarization 2.3 Data cleaning 2.4 Data integration and transformation 2.5 Data reduction 2.6 Discretization and concept hierarchy generation Summary Mining Data Descriptive Characteristics Motivation To better understand the data: central tendency, variation and spread Data dispersion characteristics median, max, min, quantiles, outliers, variance, etc. Numerical dimensions correspond to sorted intervals Data dispersion: a

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档