厦门大学数据挖掘数据准备.ppt

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2020/5/24 31 2020/5/24 32 根据所用程序的结果和所给的阈值, 可选择 S 3 和 S 5 作为异常点。 2020/5/24 33 2020/5/24 34 三、缺失数据 2020/5/24 35 2020/5/24 36 2020/5/24 37 2020/5/24 38 2020/5/24 39 我们看一个替代的例子 ? 注 1 :缺点是替代值并不是正确值,会引起数据 的偏差。 ? 注 2 :假设这些丢失值对最终的数据挖掘结果没 有任何影响,我们可以将一个丢失值的样本扩展成为 一组人工样本(会引起样本的组合爆炸)。 例如 :如果一个三维样本被假定为 ,其 中第二个特征值丢失,这样在特征定义 内产生 5 个人工样本: } 3 1 { ? ? X ] 4 3 2 1 0 [ } 3 4 1 { }, 3 3 1 { }, 3 2 1 { }, 3 1 1 { }, 3 0 1 { 1 4 3 2 1 ? ? ? ? ? X X X X X 2020/5/24 40 § 3.4 数据变换 一、 标准化 一些数据挖掘方法,需要对数据进 行标准化以获得最佳的效果。 1 、小数缩放 小数缩放移动小数点,但是要仍然 保持原始数据的特征。典型的缩放是保 持数值在 -1 和 1 范围内。可以用格式描述 k i i X X 10 / ? ? 2020/5/24 41 2 、最小 - 最大标准化 最小 - 最大标准化的格式: 注:这种转换可能会导致标准化值无意识的集中。 ) m in( ) m ax( ) m in( i i i i i X X X X X ? ? ? ? 2020/5/24 42 3 、标准差标准化 标准差标准化的格式是 其中: 是均值; 是标准差 S X X X i i ? ? ? X S 2020/5/24 43 二、高维度问题 ? 大多数数据挖掘问题的出现是因为有大量的 样本具有不同类型的特征。此外,这些样本 往往是高维度的,这就意味着它们有相当大 数目的可测量特征。 ? 大型数据集中这种高维现象会产生“ 高维祸 根 ”(维数灾),这种现象可以用高维空间 几何学来解释,这是数据挖掘问题的典型。 2020/5/24 1 第三章 数据准备 § 3.1 问题的提出 § 3.2 数据选择 § 3.3 数据预处理 § 3.4 数据变换 2020/5/24 4 § 3.2 数据选择 一、数据读取 数据准备的第一步骤就是获得具有可用格式 的数据 . 根据所开发的模型类型的不同,可以将所 有的数据中提取或者从外部数据源中寻找数据 . 如 果要用现有的数据进行数据的开发,就可以直接 从数据仓库里提取需要的数据 . 一般这些数据都具 有可用的形式,如 SAS 数据集 . 如果在外部列表或 潜在客户文件上开发模型,就可以在数据记录 格式上进行一些选择 . 2020/5/24 5 如果所需的数据是从外部数据源或另外 一个的内部数据源获得的,那么这些数据必 须是 ASCII 格式的 . ASCII 文件也就是平面文 件 (flat file) 或文本文件,行记录或观察样本, 列或字段表示与记录相关的特征或变 量 .ASCII 文件有两种基本的长度记录格式, 即固定长度格式和可变长度格式 . 2020/5/24 6 二、原始数据的表述 数据样本是数据挖掘过程的基本组成部分 2020/5/24 7 ? 每个样本都用几个特征来描述,每个特征有不 同类型的值。 ? 常见的类型有: 数值型和分类型 。 ? 数值型包括 实型变量和整型变量 ? 注: 具有数值型值的特征有两个重要的属性: 其值有顺序关系和距离关系 。 2020/5/24 8 ? 分类型变量的两个值可以相等或不等。 ? 一个有两个值的分类型变量原则上可以转化 成一个二进制的数值型变量,这种数值型变 量有两个值: 0 或 1 ; 而有 N 值的分类型变量 原则上可以转化成一个二进制的数值型变量, 这种数值型变量有 N 个值。 2020/5/24 9 例如 :如果变量“眼睛颜色”有 4 个值: 黑色、蓝色、绿色、褐色。 特征值 编码 黑色 1000 蓝色 0100 绿色 0010 褐色 0001 2020/5/24 10 三、数据分类 一种基于变量值的数据分类方法就是 定性 (qualitative) 和定量 (quantitative). 定 性数据也可以看作是离散型数据,是用描 述性术语来区分值 . 例如,性别通常分为男 性 (M) 和女性 (F). 有一种特殊的定性数据就 是周期型数据,例如星期、月或年中的日 期 . 2020/5/24 11 定量型也叫连续型或度量型, 是以 数字值为特征,用于开发预测 . 如果建 立了优先规则,定性型数据也可以转

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档