数据的预处理与后处理(第五章).pptVIP

下载本文档

3
0
约 19页
2017-08-18 发布于河南
举报
版权申诉

数据的预处理与后处理(第五章).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据的预处理和后处理第五章 5.1 数据预处理的内涵数据集的准备和变换是数据挖掘过程最重要的步骤之一；原始数据很难直接用于数据挖掘；文献中通常不被重视；应用中需花费大量时间和精力；可看做是与挖掘相独立的过程；数据收集预处理挖掘后处理结果解释 5.2 数据预处理的步骤对象表示属性：对象的形式化描述分类离散型（符号的、标称的、分类的）连续型（连续的）结构型（复合的）对象收集和映射确定属性的名称和取值范围 5.2 数据预处理的步骤缩放大型数据集处理大型数据库算法仅假定数据均存在主存中调度方法：窗口式（顺序）批量式（按某一属性提取）增量式（减轻模型建立的负担） 5.2 数据预处理的步骤噪声和错误外部错误：随机错误和噪声（干扰）内部错误：算法精度和实用性未知属性值未知或缺失的属性值来源：收集过程中被遗忘或丢失不适当的或不存在的（混合类型的对象，煤、天然气）不相关属性（研究问题的不同，喜好、支出情况）数据库设计缺陷（未对某属性进行设定） 5.2 数据预处理的步骤数据离散化某些算法仅处理分类数据：将数据划分成几个类处理连续值某些算法仅能处理离散值：划分属性值分类：划分属性选择和定序：剔除无关属性属性变换：简化数据量和便于计算检验：一致性、合理性 5.3 离散化方法离散化：将连续变量划分成不同类别划分方法：非监督的/监督的，全局的/局部的非监督方法：与算法独立，仅根据数据集信息划分。等宽划分（较多使用）等频划分（较少使用）基于聚类的划分（较多使用）识别对象间的相似度，相似对象划分成同类目标：类内距离小，类间距离大。 5.3 离散化方法划分方法：非监督的/监督的，全局的/局部的监督方法：与算法相关，模型建立过程中进行划分。基于熵的划分基于统计方法的划分监督方法的特点（与非监督方法比较）更准确划分与选择的模型有关速度较慢 5.3.1 离散化方法-人工方法人工方法将连续区间划分为几个子区间，对每个区间进行标号；工资收入：（见p87）低、中、高气温：取值范围[-10, 40] 划分为冷、正常、热主要面临的问题：截断点的选择子区间表示 5.3.2 离散化方法-分箱分箱假设有年龄的集合：{0,4,12,16,16,18,24,26,28} 等宽分箱子区间宽度相同取宽度为10：{0,4}，{12,16,16,18}，{24,26,28} 等频分箱子集元素个数相同取密度（频度）为3： {0,4,12},{16,16,18},{24,26,28} 离散化方法-基于熵基于熵的分箱（二元化）原则：使得箱尽可能纯 S={0,4,12,16,16,18,24,26,28} Entropy(S)=-plog(p)-nlog(n) 假设有一个划分则此划分的信息为：信息增益为： X Y 0 p 4 p 12 p 16 n 16 n 18 p 24 n 26 n 28 n 5.3.3 离散化方法-基于熵方法分割点必然在不同类之间分割点取为上下属性值的均值注意：不可破坏实例顺序按不同属性分箱可得到不同结果 X Y 0 p 4 p 12 p 16 n 16 n 18 p 24 n 26 n 28 n 5.4 特征提取特征提取是预处理的任务特点：独立于数据挖掘方法进行一次，可在以后多次挖掘中使用计算开销较小、能处理大数据量离线工作，可组合使用主要内容：主成分分析 5.4 特征提取定义：通过某种函数映射，从原有的特征中提取新的特征集；假设原有n个特征（属性）从中提取m个新特征必须满足mn 数学描述为：线性回归的特征提取目标：新特征集最小包含的信息最全 5.4 特征提取-PCA 主成分分析-PCA 原理：设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法，也是数学上处理降维的一种方法。数学描述为：其中F为线性函数主要过程计算协方差矩阵、特征值按特征值计算重要性按重要性选择新特征集 5.4 特征提取-PCA 计算步骤 (R分析) ① 列出观测资料矩阵X； ② 计算样本相关矩阵R； ③ 计算R的特征值和特征向量--求正交变换； ④ 计算贡献率(按特征值计算)及累计贡献率； ⑤ 确定主分量个数，建立主分量方程(系数为特征向量). 5.5 缺失数据处理方法缺失数据：数据库中不完整的记录缺失的原因问题过于敏感、拒绝回答问题超出受访者知识范围问题过于含糊、不确定缺失数据的内因完全随机缺失、随机缺失、非随机缺失缺失收据的处理丢弃根据某种