数据预处理任务及方法..doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据预处理任务及方法. 数据预处理任务及方法. PAGE / NUMPAGES 数据预处理任务及方法. null 非监督式的离散化( Unsupervised Discretization) 分类中离散化方法的一个很 大的区别是是否使用类别信息。 使用了类别信息的成为监督 式的离散化 ( supervised) ,没有使用类别信息的成为非监督式的方法( Unsupervised) 。 等 宽方法( equal width)将范围内的属性划分成一个用户指定的区间数量,每个区间都有 相同的宽度( width ) 。这样的方法受离群值影响很大。因此,等频方法(等深方法) (equal frequency,equal depth) ,是将相同数量的对象分到每个区间中,这也很常用。 监督式的离散化( Supervised Discretization) 使用额外的信息 (类标签)通常会产生更好的结果。无类标签知识构造的区间通常会包 含混合的类标签。从概念上讲,分割的简单的方法是最大化区间纯度( purity ) 。实际中,这样的方法需要人工选择区间的纯度和最小的区间大小。 为了克服这样的困难, 一些统计的 方法被用来解决这些问题。先将每个类的值都作为单独的区间,再根据统计测试,合并临近 的相似区间( adjacent intervals)获取更大的区间。基于熵( entropy)的方法是很好的。 有太多值得类别属性( Categorical Attributes with Too Many Values) 类别属性有时候会产生很多的值。 如果类别属性的是顺序的,可以利用类似连续属性离 散化的方法。 如果类别属性是分类的, 则要利用一些领域知识。 如一个大学可以有很多学院。 学院名称可能有很多的值, 这种情况我们可以将很多的学院联合在一起组成更大的组, 如工 程类,社会科学类,生物科学 类等。如果领域知识无法使用就要根据实际情况进行操作。只 有在类别合并时会 提高分类精确度时我们才可以合并。 五、变量转换 变量转换是将一个变量下的值 作统一变换。也就是,对于每一个对象,转换是针对对象 中变量的所有的值进行的。例如,如果一个变量的值的数量级是重要的,我们就可以取变量 值的绝对值。在这里我们只讨论两种重要的变量转换:简单函数转换( simple functional transformations)和正规化( normalization) 。 简单函数法 这种方法就是针对每个值做单独的函数处理。例如 x 是一个变量,纳闷这种变换可能是 null

文档评论(0)

187****4751 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档