第五章数据预处理.ppt

下载文档

0
0
约 98页
2017-04-28 发布于北京
举报
版权申诉
保障服务

第五章数据预处理.ppt

1、本文档共98页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第五章数据预处理

;第5章数据预处理;数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但有潜在的有用信息和知识的过程。数据挖掘：为企业决策者提供重要的、有价值的信息或知识，从而为企业带来不可估量的经济效益。 ;; 数据挖掘的必要性：在海量的原始数据中，存在着大量杂乱的、重复的、不完整的数据，严重影响到数据挖掘算法的执行效率，甚至可能导致挖掘结果的偏差。;;;5.1数据预处理基本功能 ;5.1.1　数据清理 ;5.1.1.1噪声数据处理 ;5.1.1.2空缺值的处理 ;5.1.1.3清洗脏数据 ;;5.1.2.1 实体识别问题 ;5.1.2.2冗余问题 ;5.1.2.3 数据值冲突检测与处理 ;5.1.3　数据变换 ;;;5.1.4　数据归约 ;5.1.4.1 维归约　 ;5.1.4.2数据压缩 ;5.1.4.3数值归约　 ;;5.1.4.4 概念分层　 ;;5.2数据预处理的方法 ;5.2.1基于粗集理论的简约方法 ;;;例如：表5.1　优秀人才决策表给出了某部门的员工数据记录集，通过对员工的政治表现、工作能力、科研能力等确定优秀人才人选。 ;;;;5.2.2复共线性数据的预处理方法 ;;5.2.2.1.相关概念;;;;5.2.2.2.ε－复共线性数据预处理算法 ;;;;;;;说明：算法中把特征值存放在Lpt数组，特征向量存放在Eigenvalue数组中。一般qn，所以算法的主要计算代价在第一步计算相关系数矩阵中，计算量为q*n=O(n) 下面的算法描述了主分量矩阵的计算过程。 ;;;;;5.2.2.3.实验 ;;数据矩阵X存在复共线性，执行PCMC子程序，计算主分量矩阵。由λ1/∑λi＝0.957t，k=1,即主分量只需取一个，即λ1＝3.827对应的评分量。计算得P1＊4=(0.259,0.257,0.258,0.258) 计算消除复共线性后的数据矩阵Z： Z1＊10＝P×X＝(73.8,76.9,82.0,83.9,93.3,96.3,103.6,111.5,115.7,118.9) 然后，就可以使用新的数据矩阵挖掘其与因变量Y之间的函数关系，最终将结果再代回到自变量X即可。 ;5.2.3基于Hash函数取样的抽样技术数据预处理 ;;;;总体的分布函数构造Hash函数，由于以下原因：完全地计算总体数据去得到精确分布的计算量太大；即使处理完整个总体的数据，由于数据噪声，得到总体的分布也只是近似的。所以，SHF利用随机抽样的一些性质，使用总体的估计分布函数???代替其精确分布。 ;;;5.2.3.2 各类型变量分布函数的估计 ;;;;;5.2.3.3 Hash函数的构造 ;;5.2.3.4 分层取样 ;;;5.2.3.5 基于Hash函数取样的数据预处理算法 ;;;5.2.3基于遗传算法的预处理方法;;;;;;;5.2.4基于神经网络数据预处理方法 ;;;;;;;;;;5.2.5Web挖掘数据预处理方法 ;;;;;