厦门大学数据挖掘数据准备教程.pptVIP

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
根据所用程序的结果和所给的阈值, 可选择S3和S5作为异常点。 三、缺失数据 我们看一个替代的例子 注 1:缺点是替代值并不是正确值,会引起数据的偏差。 注 2:假设这些丢失值对最终的数据挖掘结果没有任何影响,我们可以将一个丢失值的样本扩展成为一组人工样本(会引起样本的组合爆炸)。 例如:如果一个三维样本被假定为 ,其中第二个特征值丢失,这样在特征定义 内产生5个人工样本: §3.4 数据变换 一、 标准化 一些数据挖掘方法,需要对数据进行标准化以获得最佳的效果。 1、小数缩放 小数缩放移动小数点,但是要仍然保持原始数据的特征。典型的缩放是保持数值在-1和1范围内。可以用格式描述 2、最小-最大标准化 最小-最大标准化的格式: 注:这种转换可能会导致标准化值无意识的集中。 3、标准差标准化 标准差标准化的格式是 其中: 是均值; 是标准差 二、高维度问题 大多数数据挖掘问题的出现是因为有大量的样本具有不同类型的特征。此外,这些样本往往是高维度的,这就意味着它们有相当大数目的可测量特征。 大型数据集中这种高维现象会产生“高维祸根”(维数灾),这种现象可以用高维空间几何学来解释,这是数据挖掘问题的典型。 1、数据集的大小随维数呈指数增长,这个数据集在一个n维空间中生成数据点的相同密度 例如:n个数据点的一维样本,其密度令人满意的,那么,要在k维空间中获得同样的密度,需要nk 个数据点。 高维空间的物体比低维空间的物体拥有更大的面积。高维数据有四大属性: * * 第三章 数据准备 §3.1 问题的提出 §3.2 数据选择 §3.3 数据预处理 §3.4 数据变换 §3.1 问题的提出 我们在上面已经提及到,随着各种技术的不断发展,收集数据的技术和渠道日益广泛,比如银行业通过信用卡消费记录,连锁超市通过POS机记录销售情况,企业通过专题市场调查或者直接通过向外购买数据来搜集信息等等,这些收集到的数据储存到企业的数据库或数据仓库中,构成了企业用于数据挖掘的源数据.但是由于各种各样的原因,如市场调查中的无回答,数据输入错误等,导致了源数据的各种质量问题.例如,数据缺失、异常点的出现等,都会为数据的挖掘带来困难. 二、原始数据的表述 数据样本是数据挖掘过程的基本组成部分 每个样本都用几个特征来描述,每个特征有不同类型的值。 常见的类型有:数值型和分类型。 数值型包括实型变量和整型变量 注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。 分类型变量的两个值可以相等或不等。 一个有两个值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。 例如:如果变量“眼睛颜色”有4个值:黑色、蓝色、绿色、褐色。 特征值 编码 黑色 1000 蓝色 0100 绿色 0010 褐色 0001 三、数据分类 一种基于变量值的数据分类方法就是定性(qualitative)和定量(quantitative).定性数据也可以看作是离散型数据,是用描述性术语来区分值.例如,性别通常分为男性(M)和女性(F).有一种特殊的定性数据就是周期型数据,例如星期、月或年中的日期. 定量型也叫连续型或度量型,是以数字值为特征,用于开发预测.如果建立了优先规则,定性型数据也可以转换成定量型数据.如,性别就可以规定性别值为1和2,1表示“M”或男性,2表示“F”或女性. 定量型共有四种 1、标称数据(nominal data). 表示类别或属性的数值数据,如表示性别的数字值.表示性别的数字值(1或2)就是标称数据值.标称数据的一个重要特性是它没有相关重要性.如,即使男性=1,女性=2,也不意味着女性的值是男性的2倍或更高.对于建模来说,只有两个值的标称变量应编码为0和1. 另一种数据分类维度是基于数据与时间有关的行为特性.我们把那些不随时间的变化而变化的数据称为静态数据.而另一部分随时间变化而变化的属性值,我们称之为动态数据或时间数据.在大多数的数据挖掘算法中都使用的静态数据,若

文档评论(0)

youngyu0329 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档