数据挖掘中的关联分析.pptVIP

下载本文档

19
0
约4.33千字
约 19页
2017-11-25 发布于湖北
举报

数据挖掘中的关联分析.ppt

数据挖掘中的关联分析

关联分析中各种属性的处理知识回顾 1.分类属性的处理 1.1概念介绍 1.2处理方法 1.3分类属性二元化的不足 2.连续属性的处理 2.1基于离散化的方法 2.1基于统计学的方法 2.3基于非离散化的方法关联规则挖掘假定输入数据由称作项的二元属性组成。还假定项在事物中出现比不出现更重要。这样，项被看作非对称的二元属性，且只有频繁模式才被认为是有趣的。例： 6-2购物篮数据的二元0/1表示从上述的购物篮数据中，我们可得出{尿布}?{啤酒}这一有趣的规则。这一频繁项集的得出，我们可以运用：Apriori算法、Hash树法、FP增长算法等等。关于该规则的支持度和置信度的计算如下：上面规则的支持度s={尿布、啤酒}支持度计数/事物个数=3/5=0.6 上面规则的置信度c={尿布、啤酒}支持度计数/{尿布}支持度计数=3/4=0.75 1、处理分类属性 1.1概念介绍上面的因特网调查数据中，像性别、家庭计算机、网上聊天、网上购物和关注隐私这些属性，我们称为对称二元属性；而像文化程度、州称之为标称属性。 1.2处理方法对于对称二元属性，可以转化成一对二元属性如：性别分为男和女，而对于标称属性，则可以用多个二元项取代，例如：文化程度=大学，文化程度=研究生，文化程度=高中。通过这样将分类属性和对称二元属性转化成“项”之

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘中的关联分析.pptVIP