数据挖掘课件-人大第二章数据准备幻灯片.ppt

数据挖掘课件-人大第二章数据准备幻灯片.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 数据准备 本章目标: 分析原始大型数据集的基本表述和特征。 对数值型属性应用不同的标准化技术。 了解数据准备的不同技术,包括属性转化。 比较去除丢失值的不同方法。 构造时间相关数据的统一表达方法。 比较不同异常点探测技术。 实现一些数据预处理技术。 2.1????原始数据的表述 常见的数据类型: 数据挖掘过程的基本对象是数据样本,每个样本都用几个特征来描述,每个特征有不同的类型的值。常见类型:数值型和分类型。数值型的值包括实型变量和整型变量。 数值型:其特征是其值有顺序关系和距离关系。 分类型:其特征是变量间是否相等,且可用二进制数来表述。 基于变量值的变量分类法:连续型变量和离散型变量. 连续型变量也称为定量型或度量型变量。可用间隔尺度或比例尺度来衡量。温度尺度属间隔尺度,没有绝对零点。高度、长度和工资属比例尺度,有绝对零点, 离散型变量也称为定性型变量。可用名义尺度或有序尺度来衡量。顾客类型标志和邮编属名义尺度,排名属有序尺度。 周期变量是一种特殊的离散变量,存在距离关系不存在顺序关系。星期、月属周期变量。 基于数据的与时间有关的行为特性的类型:静态数据和动态数据。 在数据挖掘初始阶段面对的数据也许有潜在的杂乱性,存在着丢失值、失真、误记录和不适当的样本。因此在必须根据已有的数据甚至是丢失值的数据进行建模。这样就可能避免在挖掘前处理丢失值问题。 2.2 原始数据的特性 另一个问题是必须有处理“非常值”的机制,来消除“非常值”对最终结果的影响,数据可能并不是来自我们假定的总体。异常点是典型的例子。 失真的数据、方法上错误的步骤、滥用挖掘工具、模型太理想化、超出各种不确定性和模糊性的数据来源的模型可能导致挖掘方向的错误。因此挖掘不只是简单在应用一系列工具于已知问题,而是一种批判性的鉴定、考查、检查以及评估过程。 挖掘过程中一个最关键的步骤是对初始数据集的预备和转换,数据预备有两个中心任务: 1.把数据组织成一种标准形式,使其能被挖掘工具和其他基于计算机的工具处理(一个关系表) 2.准备数据集使之能得到最佳的挖掘效果 1.标准化 挖掘中基于n维空间距离计算的方法需要对数据进行标准化处理来达到最佳效果,将数据按比例对应到特定的范围,否则距离测量将会超出平均起来数值更大的那些特征。标准化常用技术: 2.3 原始数据的转换 (1)小数缩放:小数缩放移动小数点,但大多数原始数据保持不变。设缩放区间为[-1,1],其变换公式为: K是保证缩放后的值落在指定区间的最小比例。方法为:在原数据集中选择绝对值最大者,取K使该值绝对值〈1,然后将该因子施加于所有数据进行缩放。 (2)最小-最大标准化:小数缩放存在这样一个问题,假设数据集在150到250之间,缩放后数据在0.15到0.25之间,只落在[-1,1]中的一个小的子区间中,为了使值在整个标准区间中有较好的分布,采用最小-最大公式: (3)标准差标准化:该方法对距离测量非常有效,但把原数据转化为未被认可的形式。对于特征v,其均值mean(v)和标准差sd(v)由整个数据集计算产生。那么样本I,用下式对其进行转化: 例如数据集是v={1,2,3},mean(v)=2,sd(v)=1,则标准化后的新集合为v*={-1,0,1}。 2.数据平整 对许多挖掘技术来讲,值之间小小的区别并不重要,但可能会降低挖掘过程的性能并影响最终结果。这些值也可认为是同一潜在值的随机变差。因此,有时它对变量的值的平整处理很有用。 设样本集合为:{0.93,1.01,1.001,3.02,2.99,5.03,5.01,4.98} 平整后的集合为: {1.0,1.0,1.0,3.0,3.00,5.0,5.0,5.0} 这个简单转化并没有降低质量,但特征的不同实数值的数目却减少到了3个。 在挖掘中特征中不同值的数目的降低意味着数据空间维数的降低,这一点对于基于逻辑的挖掘特别有用。 3.差值和比率 即使是对特征很小的改变也能显著地提高挖掘的性能。差值和比率可使目标说明得到改进,尤其是应用于输出特征的时候。 例如:在生产过程控制中,用最终优化s(t+1)-s(t)的相对改动的目标比优化输出s(t+1)的绝对量相比更加有效。   比率是另一种简单的特征转换方法。用s(t+1)/s(t)作为挖掘的输出,而不是s(t+1),这意味着特征的值的增长或减少的水平也能提高挖掘的性能。   例如,在医学数据中,病人有两个特征,身高和体重,作为不同诊断的输入参数,许多应用表明,若用体重和身高的加权比的特征进行转换,诊断结果会更好。 在大型数据集中,丢失数据某些特征的值是可能,要得到完整的数据案例的子集是困难的,对丢失数据的处理有许多方法,可减少子集,去掉丢失值的样本,或把丢失值补上。 2.4

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档