数据挖掘中的关联分析.pptVIP

  • 19
  • 0
  • 约4.33千字
  • 约 19页
  • 2017-11-25 发布于湖北
  • 举报
数据挖掘中的关联分析

关联分析中各种属性的处理 知识回顾 1.分类属性的处理 1.1概念介绍 1.2处理方法 1.3分类属性二元化的不足 2.连续属性的处理 2.1基于离散化的方法 2.1基于统计学的方法 2.3基于非离散化的方法 关联规则挖掘假定输入数据由称作项的二元属性组成。还假定项在事物中出现比不出现更重要。这样,项被看作非对称的二元属性,且只有频繁模式才被认为是有趣的。 例: 6-2购物篮数据的二元0/1表示 从上述的购物篮数据中,我们可得出{尿布}?{啤酒}这一有趣的规则。 这一频繁项集的得出,我们可以运用:Apriori算法、Hash树法、FP增长算法等等。 关于该规则的支持度和置信度的计算如下: 上面规则的支持度s={尿布、啤酒}支持度计数/事物个数=3/5=0.6 上面规则的置信度c={尿布、啤酒}支持度计数/{尿布}支持度计数=3/4=0.75 1、处理分类属性 1.1概念介绍 上面的因特网调查数据中,像性别、家庭计算机、网上聊天、网上购物和关注隐私这些属性,我们称为对称二元属性;而像文化程度、州称之为标称属性。 1.2处理方法 对于对称二元属性,可以转化成一对二元属性如:性别分为男和女,而对于标称属性,则可以用多个二元项取代,例如:文化程度=大学,文化程度=研究生,文化程度=高中。通过这样将分类属性和对称二元属性转化成“项”之

文档评论(0)

1亿VIP精品文档

相关文档