数据挖掘关联技术浅述.docVIP

  • 22
  • 0
  • 约3.56千字
  • 约 8页
  • 2018-11-16 发布于福建
  • 举报
数据挖掘关联技术浅述

数据挖掘关联技术浅析   数据挖掘(Data Mining)是一个处理过程,它利用一种或多种计算机技术,从数据库的数据中自动分析并提取知识。数据挖掘的目的是确定数据的趋势和模式。   关联技术用于发现数据库中属性之间的有趣联系。和传统的产生式规则不同,关联规则可以有一个或多个输出属性。同时,一个规则的输出属性可以是另一规则的输入属性。关联规则是用于购物篮分析的常用技术,是因为可以找寻潜在的令人感兴趣的所有的产品组合。由此,有限数目的属性可能生成上百条关联规则。      Income range($) Magazine promotion Watch promotion Life insurance promotion Credit card insurance sex age   40-50K yes no no no male 45   30-40K yes yes yes no female 40   40-50K no no no no male 42   30-40K yes yes yes yes male 43   50-60K yes no yes no female 28   20-30K no no no no female 55   30-40K yes no yes yes male 35   20-30K no yes no no male 27   30-40K yes no no no female 43   30-40K yes yes yes no female 41   40-50K no yes yes no male 43   20-30K no yes yes no female 29   50-60K no yes yes no female 39   40-50K yes yes no no male 55   20-30K no no yes yes female 19         我们将Agrawal等人描述的apriori关联规则算法应用到上表数据中。该算法检查了项目篮,并为那些包含项目最少的篮子生成规则。Apriori算法不处理数值型数据。因此,在应用该算法之前,我们将属性年龄转化为离散的分类值:超过15,超过20,超过30,超过40,和超过50。例如,age=over40是年龄在40和49岁(包含40和49)之间。我们将属性选项限制为income range,credit card insurance,sex和age。这里是通过表的数据应用apriori算法所产生的3条关联规则:   (1) IF sex=female age=over40 credit card insurance=NO THEN life=insurance promotion=YES   (2) IF sex=male age=over40 credit card insurance=NO THEN life=insurance promotion=NO   (3) IF sex=female age=over40 THEN credit card insurance=NO life=insurance promotion=YES   3条规则的准确度都达到100%并且正确的覆盖了所有数据实例的20%。对于规则3,20%的覆盖率告诉我们,每5个人是年龄超过40的女性,她没有信用卡保险,且她们都是通过寿险促销活动获得寿险的。注意,规则3中的信用卡保险和寿险促销都是输出属性。   关联规则存在的问题是,对于潜在有趣的规则,我们可能发现某个规则的值很小。   在关联规则系统中,规则本身是“如果条件怎么样,怎么样,怎么样,那么结果或情况就怎么样”的简单方式。可以表示为“A=B”关联规则,它包括两2部分:左部A称为前件,又部B称为后件。前件可以包括一个或多个条件,在某个给定的正确率中,要使后件为真,前件中的所有条件必须同时为真。后件一般只包含一种情况,而不是多种情况。   例如,购买计算机有购买财务软件趋向的关联规则,以及年龄在30至40岁之间并且年收入早42000元至50000元之间的客户购买高清晰度彩电电视机趋向的关联规则可以分别表示为:   Buys(x,“computer”)=buys(x,“financial_management_software”) (11.1)   Age(“30…60”)∧income(“42000…50000”)=buys(x,“high_resolution_TV”)(11.2)   其中x为表示客户的变量。   关联规则在实际应用中根据值类型,数据维,层次的不同,可以分成各种类型的规则。

文档评论(0)

1亿VIP精品文档

相关文档