第7章 关联分析 级概念.pptVIP

  • 13
  • 0
  • 约1.34万字
  • 约 101页
  • 2017-08-18 发布于贵州
  • 举报
(C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 关联分析: 高级概念 关联分析处理事务数据 处理分类属性 处理分类属性 为了提取这样的模式,我们需要将标称属性和对称二元属性转换成“项”,使得已有的关联规则挖掘算法可以使用。 这种类型的变化可以通过为每个不同的属性-值对创建一个新的项来实现。 例如: 标称属性文化程度可以用三个二元项取代 文化程度=大学 文化程度=研究生 文化程度=高中 类似的,对称二元属性性别可以转换成一对二元项:性别=男、性别=女。 处理分类属性 将关联分析用于二元化后的数据时,需要考虑如下问题。 (1)有些属性值可能不够频繁,不能成为频繁模式的一部分。如:州名。 解决办法:将相关的属性值分组,形成少数类别。例如,每个州名都可以用对应的地理区域取代。例如:分别用中西部、太平洋西北部、西南部和东海岸取代。 处理分类属性 将关联分析用于二元化后的数据时,需要考虑如下问题。 (2)某些属性值的频率可能比其他属性高很多。如:假定85%的被调查人都有家庭计算机,如果为每个频繁出现在数据中的属性值创建一个二元项,我们可能产生许多冗余模式。 {家庭计算机=是,网上购物=是

文档评论(0)

1亿VIP精品文档

相关文档