厦门大学数据挖掘数据准备演示教学.pptVIP

厦门大学数据挖掘数据准备演示教学.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
厦门大学数据挖掘数据准备演示教学.ppt

根据所用程序的结果和所给的阈值, 可选择S3和S5作为异常点。 三、缺失数据 我们看一个替代的例子 注 1:缺点是替代值并不是正确值,会引起数据的偏差。 注 2:假设这些丢失值对最终的数据挖掘结果没有任何影响,我们可以将一个丢失值的样本扩展成为一组人工样本(会引起样本的组合爆炸)。 例如:如果一个三维样本被假定为 ,其中第二个特征值丢失,这样在特征定义 内产生5个人工样本: §3.4 数据变换 一、 标准化 一些数据挖掘方法,需要对数据进行标准化以获得最佳的效果。 1、小数缩放 小数缩放移动小数点,但是要仍然保持原始数据的特征。典型的缩放是保持数值在-1和1范围内。可以用格式描述 2、最小-最大标准化 最小-最大标准化的格式: 注:这种转换可能会导致标准化值无意识的集中。 3、标准差标准化 标准差标准化的格式是 其中: 是均值; 是标准差 二、高维度问题 大多数数据挖掘问题的出现是因为有大量的样本具有不同类型的特征。此外,这些样本往往是高维度的,这就意味着它们有相当大数目的可测量特征。 大型数据集中这种高维现象会产生“高维祸根”(维数灾),这种现象可以用高维空间几何学来解释,这是数据挖掘问题的典型。 1、数据集的大小随维数呈指数增长,这个数据集在一个n维空间中生成数据点的相同密度 例如:n个数据点的一维样本,其密度令人满意的,那么,要在k维空间中获得同样的密度,需要nk 个数据点。 高维空间的物体比低维空间的物体拥有更大的面积。高维数据有四大属性: * * 第三章 数据准备 §3.1 问题的提出 §3.2 数据选择 §3.3 数据预处理 §3.4 数据变换 §3.1 问题的提出 我们在上面已经提及到,随着各种技术的不断发展,收集数据的技术和渠道日益广泛,比如银行业通过信用卡消费记录,连锁超市通过POS机记录销售情况,企业通过专题市场调查或者直接通过向外购买数据来搜集信息等等,这些收集到的数据储存到企业的数据库或数据仓库中,构成了企业用于数据挖掘的源数据.但是由于各种各样的原因,如市场调查中的无回答,数据输入错误等,导致了源数据的各种质量问题.例如,数据缺失、异常点的出现等,都会为数据的挖掘带来困难. 数据准备是模型开发过程中最重要的步骤之一.从最简单的分析到最复杂的模型,所使用的数据质量是项目成功的关键.好的数据和有效的技术一样,决定着一个模型产生有力结果的能力.因此,在本章我们探讨数据的准备. §3.2 数据选择 一、数据读取 数据准备的第一步骤就是获得具有可用格式的数据.根据所开发的模型类型的不同,可以将所有的数据中提取或者从外部数据源中寻找数据.如果要用现有的数据进行数据的开发,就可以直接从数据仓库里提取需要的数据.一般这些数据都具有可用的形式,如SAS数据集.如果在外部列表或潜在客户文件上开发模型,就可以在数据记录 格式上进行一些选择. 如果所需的数据是从外部数据源或另外一个的内部数据源获得的,那么这些数据必须是ASCII格式的.ASCII文件也就是平面文件(flat file)或文本文件,行记录或观察样本,列或字段表示与记录相关的特征或变量.ASCII文件有两种基本的长度记录格式,即固定长度格式和可变长度格式. 分类型变量的两个值可以相等或不等。 一个有两个值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。 例如:如果变量“眼睛颜色”有4个值:黑色、蓝色、绿色、褐色。 特征值 编码 黑色 1000 蓝色 0100 绿色 0010 褐色 0001 三、数据分类 一种基于变量值的数据分类方法就是定性(qualitative)和定量(quantitative).定性数据也可以看作是离散型数据,是用描述性术语来区分值.例如,性别通常分为男性(M)和女性(F).有一种特殊的定性数据就是周期型数据,例如星期、月或年中的日期. 定量型也叫连续型或度量型,是以数字值为特征,用于开发预测.如果建立了优先规则,定性型数据也可以转换成定量型数据.如,

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档