- 1、本文档共98页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章数据预处理
;第5章 数据预处理;数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但有潜在的有用信息和知识的过程。
数据挖掘:为企业决策者提供重要的、有价值的信息或知识,从而为企业带来不可估量的经济效益。
;;
数据挖掘的必要性:
在海量的原始数据中,存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。;;;5.1数据预处理基本功能 ;5.1.1 数据清理 ;5.1.1.1噪声数据处理 ;5.1.1.2空缺值的处理 ;5.1.1.3清洗脏数据 ;;5.1.2.1 实体识别问题 ;5.1.2.2冗余问题 ;5.1.2.3 数据值冲突检测与处理 ;5.1.3 数据变换 ;;;5.1.4 数据归约 ;5.1.4.1 维归约 ;5.1.4.2数据压缩 ;5.1.4.3数值归约 ;;5.1.4.4 概念分层 ;;5.2数据预处理的方法 ;5.2.1基于粗集理论的简约方法 ;;;例如:表5.1 优秀人才决策表给出了某部门的员工数据记录集,通过对员工的政治表现、工作能力、科研能力等确定优秀人才人选。
;;;;5.2.2复共线性数据的预处理方法 ;;5.2.2.1.相关概念;;;;5.2.2.2.ε-复共线性数据预处理算法 ;;;;;;;说明:
算法中把特征值存放在Lpt数组,特征向量存放在Eigenvalue数组中。
一般qn,所以算法的主要计算代价在第一步计算相关系数矩阵中,计算量为q*n=O(n)
下面的算法描述了主分量矩阵的计算过程。 ;;;;;5.2.2.3.实验 ;;数据矩阵X存在复共线性,执行PCMC子程序,计算主分量矩阵。
由λ1/∑λi=0.957t,k=1,即主分量只需取一个,即λ1=3.827对应的评分量。
计算得P1*4=(0.259,0.257,0.258,0.258)
计算消除复共线性后的数据矩阵Z:
Z1*10=P×X=(73.8,76.9,82.0,83.9,93.3,96.3,103.6,111.5,115.7,118.9)
然后,就可以使用新的数据矩阵挖掘其与因变量Y之间的函数关系,最终将结果再代回到自变量X即可。 ;5.2.3基于Hash函数取样的抽样技术数据预处理 ;;;;总体的分布函数构造Hash函数,由于以下原因:
完全地计算总体数据去得到精确分布的计算量太大;
即使处理完整个总体的数据,由于数据噪声,得到总体的分布也只是近似的。
所以,SHF利用随机抽样的一些性质,使用总体的估计 分布函数???代替其精确分布。
;;;5.2.3.2 各类型变量分布函数的估计 ;;;;;5.2.3.3 Hash函数的构造 ;;5.2.3.4 分层取样 ;;;5.2.3.5 基于Hash函数取样的数据预处理算法 ;;;5.2.3基于遗传算法的预处理方法;;;;;;;5.2.4基于神经网络数据预处理方法 ;;;;;;;;;;5.2.5Web挖掘数据预处理方法 ;;;;;
文档评论(0)