厦门大学数据挖掘数据准备.ppt

下载文档 降价啦

15
0
约5.51千字
约 58页
2017-06-06 发布于江西
举报
版权申诉
保障服务

厦门大学数据挖掘数据准备.ppt

1、本文档共58页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

厦门大学数据挖掘数据准备

第三章数据准备 §3.1 问题的提出 §3.2 数据选择 §3.3 数据预处理 §3.4 数据变换 §3.1 问题的提出我们在上面已经提及到，随着各种技术的不断发展，收集数据的技术和渠道日益广泛，比如银行业通过信用卡消费记录，连锁超市通过POS机记录销售情况，企业通过专题市场调查或者直接通过向外购买数据来搜集信息等等，这些收集到的数据储存到企业的数据库或数据仓库中，构成了企业用于数据挖掘的源数据.但是由于各种各样的原因，如市场调查中的无回答，数据输入错误等，导致了源数据的各种质量问题.例如，数据缺失、异常点的出现等，都会为数据的挖掘带来困难. 数据准备是模型开发过程中最重要的步骤之一.从最简单的分析到最复杂的模型，所使用的数据质量是项目成功的关键.好的数据和有效的技术一样，决定着一个模型产生有力结果的能力.因此，在本章我们探讨数据的准备. §3.2 数据选择一、数据读取如果所需的数据是从外部数据源或另外一个的内部数据源获得的，那么这些数据必须是ASCII格式的.ASCII文件也就是平面文件(flat file)或文本文件，行记录或观察样本，列或字段表示与记录相关的特征或变量.ASCII文件有两种基本的长度记录格式，即固定长度格式和可变长度格式. 二、原始数据的表述每个样本都用几个特征来描述，每个特征有不同类型的值。常见的类型有：数值型和分类型。数值型包括实型变量和整型变量注：具有数值型值的特征有两个重要的属性：其值有顺序关系和距离关系。分类型变量的两个值可以相等或不等。一个有两个值的分类型变量原则上可以转化成一个二进制的数值型变量，这种数值型变量有两个值：0或1；而有N值的分类型变量原则上可以转化成一个二进制的数值型变量，这种数值型变量有N个值。例如：如果变量“眼睛颜色”有4个值：黑色、蓝色、绿色、褐色。特征值编码黑色 1000 蓝色 0100 绿色 0010 褐色 0001 三、数据分类一种基于变量值的数据分类方法就是定性(qualitative)和定量(quantitative).定性数据也可以看作是离散型数据，是用描述性术语来区分值.例如，性别通常分为男性(M)和女性(F).有一种特殊的定性数据就是周期型数据，例如星期、月或年中的日期. 定量型也叫连续型或度量型，是以数字值为特征，用于开发预测.如果建立了优先规则，定性型数据也可以转换成定量型数据.如，性别就可以规定性别值为1和2，1表示“M”或男性，2表示“F”或女性. 定量型共有四种 1、标称数据(nominal data). 表示类别或属性的数值数据，如表示性别的数字值.表示性别的数字值(1或2)就是标称数据值.标称数据的一个重要特性是它没有相关重要性.如，即使男性=1，女性=2，也不意味着女性的值是男性的2倍或更高.对于建模来说，只有两个值的标称变量应编码为0和1. 2. 序数数据(ordinal data). 序数数据是表示有相对重要性的类别的数值数据，可用于给强度、重要性分等级.例如，用1-5表示用户对某产品的质量评价，分别表示很差、较差、中等、较好、很好. 3. 间隔数据(interval data). 间隔数据是有相对重要性，没有0点的数值数据.对它而言，加、减是有意义的操作.例如，可以用更详细的数字来分析产品质量的好坏，可以用0-100之间的数字具体分析产品之间的差距. 4. 连续数据(continuous data). 连续数据是开发预测模型时最常用的数据，适用于所有基本的算术运算，包括加、减、乘、除.大多数业务数据如销售额、余款、差额等都是连续数据. 另一种数据分类维度是基于数据与时间有关的行为特性.我们把那些不随时间的变化而变化的数据称为静态数据.而另一部分随时间变化而变化的属性值，我们称之为动态数据或时间数据.在大多数的数据挖掘算法中都使用的静态数据，若要使用动态数据，则需要进行特殊的考虑和预处理. 这方面的内容将在后面介绍. §3.3 数据预处理一、噪声数据的处理噪声(noise)是一个被测变量中的随机误差或偏差.下面我们将要讨论给定一个数值型属性，要如何平滑数据去除噪声的方法. 1.数据的平整一个数值型的特征y可能包括许多不同的值，这些数据之间的小小差异也许并不重要，但是却有可