24-关联分析基础.pptx

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第二十四讲关联分析基础主讲:王彦1数据挖掘

30三月2024数据挖掘导论2关联分析自然界中某种事物发生时其他事物也会发生的这样一种联系称之为关联。反映事件之间依赖或关联的知识称为关联型知识(又称依赖关系)关联是两个或多个变量取值之间存在的一类重要的可被发现的某种规律性。关联可分为简单关联、时序关联、因果关联。

关联分析关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的模式通常用关联规则或频繁项集的形式表示。关联分析(Association?Analysis)关联分析是发现事物之间关联关系的分析过程。典型应用——就是购物篮分析。购物篮分析确定顾客在一次购物中可能一起购买的商品,发现其购物篮中不同商品之间的联系,分析顾客的购买习惯,从而发现购买行为之间的关联。关联关系以一组特殊的规则形式出现——关联规则(AssociationRules)数据挖掘3

关联规则关联分析可以应用于生物信息学、医疗诊断、网页挖掘、科学数据分析等以零售业为例,体育用品商场通过对销售数据进行关联分析通常可以发现这些数据中常常隐含形式如下的规律——“购买篮球的顾客中有70%的人同时购买篮球运动服,所有交易中有40%的人同时购买篮球和篮球运动服”等等。这些规律即关联规则。数据挖掘4RulesDiscovered:{Diaper}--{Beer}

频繁项集(FrequentItemset)项集(Itemset)包含0个或多个项的集合例子:{Milk,Bread,Diaper}k-项集如果一个项集包含k个项支持度计数(Supportcount)(?)包含特定项集的事务个数例如:?({Milk,Bread,Diaper})=2支持度(Support)包含项集的事务数与总事务数的比值例如:s({Milk,Bread,Diaper})=2/5频繁项集(FrequentItemset)满足最小支持度阈值的所有项集

关联规则(AssociationRule)Example:关联规则关联规则是形如X?Y的蕴含表达式,其中X和Y是不相交的项集例子:

{Milk,Diaper}?{Beer}关联规则的强度支持度Support(s):确定项集的频繁程度置信度Confidence(c):确定Y在包含X的事务中出现的频繁程度

关联规则(AssociationRule)一般表现为蕴涵式规则形式:X→Y。其中——X和Y分别称为关联规则的前提或先导条件和结果或后继。关联规则与产生式规则有两点不同在某条关联规则中以前提条件出现的属性可以出现在下一条关联规则的结果中。传统的用于分类的产生式规则的结果中仅能有一个属性,而关联规则中则允许其结果包含一个或多个属性。数据挖掘7

关联规则挖掘问题关联规则挖掘问题:给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,minsup和minconf是对应的支持度和置信度阈值挖掘关联规则的一种原始方法是:Brute-forceapproach:计算每个可能规则的支持度和置信度这种方法计算代价过高,因为可以从数据集提取的规则的数量达指数级从包含d个项的数据集提取的可能规则的总数R=3d-2d+1+1,如果d等于6,则R=602

挖掘关联规则大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个主要的子任务:频繁项集产生(FrequentItemsetGeneration)其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。规则的产生(RuleGeneration)其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则(strongrule)。

关联分析—例子根据顾客实际购买行为数据(下表,值1表示购买了该种商品;值0表示未购买该种商品),分析顾客网络购物中购买图书、运动鞋、耳机、DVD和果汁五种商品时,是否存在购买行为上的关联。数据挖掘10序号BookSneakerEarphoneDVDJuice1111112111103011004010115001106101107101118010119001111010001若得到4条关联关系1.如果顾客购买Sneaker运动鞋,则也会购买Earphone耳机2.如果顾客购买了Book图书,则也会购买Juice果汁。3.如果顾客购买了Book和DVD,则也会购买Earphone。4.如果顾客购买Book、Sneaker和Earphon,则也会购买DVD。使用置信度度量每个关联规则在前提条件下结果发生可能性。关联关系(1)的置信度为:3/5=60%。使用支持度度量包

文档评论(0)

金华 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档