数据预处理任务及方法.docVIP

  • 1
  • 0
  • 约1.01千字
  • 约 3页
  • 2020-04-14 发布于湖北
  • 举报
null 非监督式的离散化(Unsupervised Discretization) 分类中离散化方法的一个很大的区别是是否使用类别信息。 使用了类别信息的成为监督 式的离散化(supervised) ,没有使用类别信息的成为非监督式的方法(Unsupervised) 。 等宽方法(equal width)将范围内的属性划分成一个用户指定的区间数量,每个区间都有 相同的宽度(width) 。这样的方法受离群值影响很大。因此,等频方法(等深方法) (equal frequency,equal depth) ,是将相同数量的对象分到每个区间中,这也很常用。 监督式的离散化(Supervised Discretization) 使用额外的信息(类标签)通常会产生更好的结果。无类标签知识构造的区间通常会包 含混合的类标签。从概念上讲,分割的简单的方法是最大化区间纯度(purity) 。实际中, 这样的方法需要人工选择区间的纯度和最小的区间大小。 为了克服这样的困难, 一些统计的 方法被用来解决这些问题。先将每个类的值都作为单独的区间,再根据统计测试,合并临近 的相似区间(adjacent intervals)获取更大的区间。基于熵(entropy)的方法是很好的。 有太多值得类别属性(Categorical Attributes with Too Many Values) 类别属性有时

文档评论(0)

1亿VIP精品文档

相关文档