- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据预处理普通高等教育“十一五”国家级规划教材商务智能原理与方法(第三版)第六章
01数据预处理简介
(2)错误/噪声数据(Erroneous/NoisyData)是指那些不准确的数据。(4)不一致数据(InconsistentData)是指在不同的数据集中描述同一属性时采用的数据形式不同。(1)缺失数据(MissingData)是指需要且感兴趣的数据没有具体的数值,产生这样问题的原因主要有两种。第一种是主观原因,即没有采集到相关数据。(3)冗余数据(Redundant/DuplicatedData)是指重复的或可相互替代的信息多次出现。(5)数据庞杂也是当今真实数据的一个典型问题,也是大数据时代的一个重要特征。数据预处理简介数据预处理的原因
正是因为数据缺失、数据错误、数据冗余、数据不一致和数据庞杂等诸多问题在真实数据中频繁出现,数据预处理已成为商务智能中必不可少的一个关键环节。它通过对不完整、有错误、有冗余、不一致和庞杂的真实数据进行必要的处理,可以提高数据的准确性和实用性。数据预处理简介数据预处理的目的
数据清洗主要针对数据的准确性问题,包含减轻或消除数据缺失和数据错误两方面的问题,主要方法是填补缺失数据和消除噪声数据。1.数据清洗数据的集成、规范与归纳主要针对数据的实用性问题,包含减轻或消除数据不一致性。2.数据集成、规范与归纳数据消减主要针对数据的实用性问题,重点是解决数据庞杂且规模过大的问题。3.数据消减数据预处理的方法数据预处理简介
02数据清洗
(1)人工处理法(ManualCleaning)是指当一个记录的属性值缺失时,通过查找原始的记录,或者请教专家手工填补所缺失的数值。这种方法的好处是,当缺失数据比较少时,填补数值的准确度相对较高。但是当缺失的数据比较多时,采用人工处理的方法效率太低,而且更容易出错,可行性差。数据清洗(2)自动处理法(AutomatedCleaning)是指当一个记录的属性值有缺失时,通过已有的程序自动处理缺失。这种方法的好处是,当缺失数据规模很大时,在效率上优于人工处理方法。但是在很大程度上依赖于处理缺失数据的程序,缺乏灵活性和智能性,在处理少量缺失数据的时候不如人工处理准确度高。缺失数据处理1.根据处理主体分类
(1)对于缺失数据最直接的做法就是直接忽略。直接忽略法是指,当有一个记录的属性值有缺失时,则在数据分析中直接删除此记录,不予考虑。(2)填补默认值法是对直接忽略法的改进,即对于那些对数据分析影响不大的缺失数据统一填补一个适当的默认值(DefaultValue),以避免浪费大量数据。(3)针对补充默认值法可进一步进行改进,即根据已有数据科学合理地推算缺失的数据,得到依据其他数据填补缺失值的方法。数据清洗2.根据处理方法分类
1.分箱方法(1)等深分箱,即每个箱的数值个数相等。(2)等宽分箱,即每个箱中的数值跨度相同。2.机器学习方法机器学习的方法是指利用聚类、回归分析、贝叶斯计算、决策树和人工神经元网络等机器学习方法对数据进行自动平滑处理。3.人机结合方法人机结合方法是对机器学习方法的改进,通过将计算机检查和人工检查相结合的方法来综合发现异常数据。数据清洗噪声数据处理
03数据集成、规范与归纳
数据集成是将不同数据源的数据,如各种数据库文件、网页文件等结合在一起,形成一个统一的数据集合,并且为之后的数据处理(如聚合(Aggregation)、在线分析处理(OLAP)及知识发现)打下必要的数据基础。引发不一致数据的原因主要有两种:第一种是由不同的数据结构引发的数据不一致。第二种是由不同的语义结构引起的数据不一致。数据集成、规范与归纳数据集成处理
是对初始化后的数据进行线性映射。1.最小最大化方法通过移动属性值的小数点规范化属性的取值,确保其范围为[-1,+1]。2.十基数方法现在在各种数据挖掘算法中被广泛使用,通过使用属性的均值和标准差进行属性规范化。3.标准差方法数据规范化处理数据集成、规范与归纳
(1)按照要求选出适当的数据。(2)选出的数据能够进行适当的属性概化和降维。(3)可以将选出的数据合理地展示,即数据表示。数据集成、规范与归纳数据归纳处理
属性概化实际上是对属性值的概括过程。对数据最好的概括方法之一就是将相同或相似的数据归类。1.属性概化在属性概化过程中通常会发现一些问题。2.属性降维选出客户感兴趣的数据,对通过属性概化和降维后得到的结果还需要通过合理的方法表示出来,即数据表示。3.数据表示数据归纳处理数据集成、规范与归纳
04数据消减
在大规模的数据集合中,尤其是经过数据集成后的数据集合中往往会出现冗余数据。冗余数据主要有两种。数据消减一种是数据记录本身有
您可能关注的文档
- 商务智能原理与方法(第三版) 课件 ch01 引言.pptx
- 商务智能原理与方法(第三版) 课件 ch02 商务智能应用.pptx
- 商务智能原理与方法(第三版) 课件 ch03 商务智能过程.pptx
- 商务智能原理与方法(第三版) 课件 ch04 数据平台.pptx
- 商务智能原理与方法(第三版) 课件 ch05 构建商务智能环境.pptx
- 商务智能原理与方法(第三版) 课件 ch07 关联规则.pptx
- 商务智能原理与方法(第三版) 课件 ch08 分类分析.pptx
- 商务智能原理与方法(第三版) 课件 ch09 聚类分析.pptx
- 商务智能原理与方法(第三版) 课件 ch10 社会网络分析.pptx
- 商务智能原理与方法(第三版) 课件 ch11 概率图模型.pptx
- 商务智能原理与方法(第三版) 课件 ch12 神经元网络.pptx
- 商务智能原理与方法(第三版) 课件 ch13 多模态数据表征.pptx
- 商务智能原理与方法(第三版) 课件 ch14 信息提取与洞察.pptx
- 商务智能原理与方法(第三版) 课件 ch15 关联分类.pptx
- 商务智能原理与方法(第三版) 课件 ch16 不确定性知识发现.pptx
文档评论(0)