- 22
- 0
- 约3.56千字
- 约 8页
- 2018-11-16 发布于福建
- 举报
数据挖掘关联技术浅述
数据挖掘关联技术浅析
数据挖掘(Data Mining)是一个处理过程,它利用一种或多种计算机技术,从数据库的数据中自动分析并提取知识。数据挖掘的目的是确定数据的趋势和模式。
关联技术用于发现数据库中属性之间的有趣联系。和传统的产生式规则不同,关联规则可以有一个或多个输出属性。同时,一个规则的输出属性可以是另一规则的输入属性。关联规则是用于购物篮分析的常用技术,是因为可以找寻潜在的令人感兴趣的所有的产品组合。由此,有限数目的属性可能生成上百条关联规则。
Income range($) Magazine promotion Watch promotion Life insurance promotion Credit card insurance sex age
40-50K yes no no no male 45
30-40K yes yes yes no female 40
40-50K no no no no male 42
30-40K yes yes yes yes male 43
50-60K yes no yes no female 28
20-30K no no no no female 55
30-40K yes no yes yes male 35
20-30K no yes no no male 27
30-40K yes no no no female 43
30-40K yes yes yes no female 41
40-50K no yes yes no male 43
20-30K no yes yes no female 29
50-60K no yes yes no female 39
40-50K yes yes no no male 55
20-30K no no yes yes female 19
我们将Agrawal等人描述的apriori关联规则算法应用到上表数据中。该算法检查了项目篮,并为那些包含项目最少的篮子生成规则。Apriori算法不处理数值型数据。因此,在应用该算法之前,我们将属性年龄转化为离散的分类值:超过15,超过20,超过30,超过40,和超过50。例如,age=over40是年龄在40和49岁(包含40和49)之间。我们将属性选项限制为income range,credit card insurance,sex和age。这里是通过表的数据应用apriori算法所产生的3条关联规则:
(1) IF sex=female age=over40 credit card insurance=NO THEN life=insurance promotion=YES
(2) IF sex=male age=over40 credit card insurance=NO THEN life=insurance promotion=NO
(3) IF sex=female age=over40 THEN credit card insurance=NO life=insurance promotion=YES
3条规则的准确度都达到100%并且正确的覆盖了所有数据实例的20%。对于规则3,20%的覆盖率告诉我们,每5个人是年龄超过40的女性,她没有信用卡保险,且她们都是通过寿险促销活动获得寿险的。注意,规则3中的信用卡保险和寿险促销都是输出属性。
关联规则存在的问题是,对于潜在有趣的规则,我们可能发现某个规则的值很小。
在关联规则系统中,规则本身是“如果条件怎么样,怎么样,怎么样,那么结果或情况就怎么样”的简单方式。可以表示为“A=B”关联规则,它包括两2部分:左部A称为前件,又部B称为后件。前件可以包括一个或多个条件,在某个给定的正确率中,要使后件为真,前件中的所有条件必须同时为真。后件一般只包含一种情况,而不是多种情况。
例如,购买计算机有购买财务软件趋向的关联规则,以及年龄在30至40岁之间并且年收入早42000元至50000元之间的客户购买高清晰度彩电电视机趋向的关联规则可以分别表示为:
Buys(x,“computer”)=buys(x,“financial_management_software”) (11.1)
Age(“30…60”)∧income(“42000…50000”)=buys(x,“high_resolution_TV”)(11.2)
其中x为表示客户的变量。
关联规则在实际应用中根据值类型,数据维,层次的不同,可以分成各种类型的规则。
您可能关注的文档
- 数列高考试题常见题型及其分析.doc
- 数字信息发展背景下广播电视技术优化剖析.doc
- 数字入诗及其教学意义剖析.doc
- 数字减影血管造影系统经济效益剖析.doc
- 数字出版业发展剖析.doc
- 数字出版时代高校对编辑出版人才培养浅述.doc
- 数字出版时代学术期刊话语权流变及剖析.doc
- 数字出版资源平台总结.doc
- 数字切片扫描技术浅述.doc
- 数字化内业制图测站纠错问题剖析.doc
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
最近下载
- TD_T 1041-2013土地整治工程质量检验与评定规程.pdf
- 中国脑血管疾病分类2015中华医学会神经病学分会、中华医学会神经病学分会脑血管病学组(发布时间:2017-03).pdf VIP
- 工厂节能降耗培训课件.pptx
- 节约用水介绍课件.pptx
- 2026春新版人教版八年级下册单词默写单词表(全)U1-U8英译中.docx
- 水环境治理与净化项目背景概述,包括对项目的详细描述,包括规模、位置和设计特点.docx VIP
- 风力发电项目背景概述,包括对项目的详细描述,包括规模、位置和设计特点.docx VIP
- 《大魔法书》(Grand Grimoire).pdf VIP
- 山东省青岛市李沧区2024-2025学年八年级上学期期末考试数学试卷 (原卷版+解析版).docx VIP
- 临床医学考试题目及答案.doc VIP
原创力文档

文档评论(0)