网站大量收购闲置独家精品文档,联系QQ:2885784924

厦门大学数据挖掘课件之第3章讲 数据准备1.ppt

厦门大学数据挖掘课件之第3章讲 数据准备1.ppt

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
厦门大学数据挖掘课件之第3章讲 数据准备1.ppt

第三章 数据准备;§3.1 问题的提出; 数据准备是模型开发过程中最重要的步骤之一.从最简单的分析到最复杂的模型,所使用的数据质量是项目成功的关键.好的数据和有效的技术一样,决定着一个模型产生有力结果的能力.因此,在本章我们探讨数据的准备. ;§3.2 数据选择; 如果所需的数据是从外部数据源或另外一个的内部数据源获得的,那么这些数据必须是ASCII格式的.ASCII文件也就是平面文件(flat file)或文本文件,行记录或观察样本,列或字段表示与记录相关的特征或变量.ASCII文件有两种基本的长度记录格式,即固定长度格式和可变长度格式.;二、原始数据的表述;每个样本都用几个特征来描述,每个特征有不同类型的值。 常见的类型有:数值型和分类型。 数值型包括实型变量和整型变量 注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。 ;分类型变量的两个值可以相等或不等。 一个有两个值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。; 三、数据分类 一种基于变量值的数据分类方法就是定性(qualitative)和定量(quantitative).定性数据也可以看作是离散型数据,是用描述性术语来区分值.例如,性别通常分为男性(M)和女性(F).有一种特殊的定性数据就是周期型数据,例如星期、月或年中的日期.; 定量型也叫连续型或度量型,是以数字值为特征,用于开发预测.如果建立了优先规则,定性型数据也可以转换成定量型数据.如,性别就可以规定性别值为1和2,1表示“M”或男性,2表示“F”或女性.;定量型共有四种; 2. 序数数据(ordinal data). 序数数据是表示有相对重要性的类别的数值数据,可用于给强度、重要性分等级.例如,用1-5表示用户对某产品的质量评价,分别表示很差、较差、中等、较好、很好.;;; 另一种数据分类维度是基于数据与时间有关的行为特性.我们把那些不随时间的变化而变化的数据称为静态数据.而另一部分随时间变化而变化的属性值,我们称之为动态数据或时间数据.在大多数的数据挖掘算法中都使用的静态数据,若要使用动态数据,则需要进行特殊的考虑和预处理. 这方面的内容将在后面介绍.;§3.3 数据预处理;Date; 有些情况下的平整算法比较复杂,这将在以后的章节详细讨论.减少不同的数值数目意味着同时减少了数据空间的维度,这对数据挖掘的方法十分有利.这样的平整方法可用于将连续型特征分解成一系列离散二元“真假”值的特征.; 2. Bin方法. Bin方法也就是分箱方法,是通过利用相应被平滑数据点的“邻居”(即周围的值),对一组排序数据进行平滑.排序成的这些数据被分配到一些“桶”或箱中.由于Bin方法考察的是相邻的值,因此它进行局部平滑.;下面给出了一些Bin的方法技术;Date;Date;; 4.计算机与人工检查结合. 这也是一种识别孤立点的方法.例如:在实际应用中,使用信息理论度量可以帮助识别手写符号库中的异常模式.度量值反映要判断的字符与已知的符号要相比的“差异”程度.孤立点模式可能是提供有用的信息(识别有用的数据异常),也可能是错误的信息.将所识别出的孤立点输出到一个列表中,然后使用人工对这一列表中的孤立点进行检查,识别出真正的垃圾,这种人机结合的方法要比单单使用人工来搜索整个数据库快得多了.在其后的数据挖掘中,这些垃圾模式将由数据库中清除掉. ;; 6.样条方法 样条方法是以适当控制通过一组给定的数据点的曲线.B样条(Basic splines)在样版权法的理论和应用研究中起着很基本的作用.局部性质是B样条曲线最重要的性质之一,在部分参数区域上的一点到多与k+1个控制顶点有关,与其他的无关,因此改变这部分的控制顶点至多影响到这部分的曲线,其余不会受到影响.它在每曲线段内部是无限次可微,并且随着次数k的升高,曲线会越来越光滑.通过用B样条去拟合数据,可以经过调整增加曲线的光滑度去除噪声.;二、异常的分析;Date;2.距离检测法;Date;;Date;三、缺失数据;Date;Date;Date;Date; 我们看一个替代的例子 注 1:缺点是替代值并不是正确值,会引起数据的偏差。 注 2:假设这些丢失值对最终的数据挖掘结果没有任何影响,我们可以将一个丢失值的样本扩展成为一组人工样本(会引起样本的组合爆炸)。 例如:如果一个三维样本被假定为 ,

文档评论(0)

youngyu0329 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档