第 6 章 关联分析.pptx

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Python数据挖掘与机器学习第6章关联规则挖掘

OverviewFrequentItemsetsAssociationRulesSequentialPatterns2

ARealExample

第6章关联规则挖掘关联规则分析用于在一个数据集中找出各数据项之间的关联关系,广泛用于购物篮数据、生物信息学、医疗诊断、网页挖掘和科学数据分析中。关联规则分析又称购物篮分析,最早是为了发现超市销售数据库中不同商品之间的关联关系。采用关联模型比较典型的案例:“尿布与啤酒”的故事飓风与蛋挞28十月20244

第6章关联规则挖掘5关联规则分析通过量化的数字描述某物品的出现对其他物品的影响程度,是数据挖掘中较活跃的研究方法之一。目前,常用的关联规则分析算法如表6-1所示。

频繁项集、闭项集和关联规则关联规则分析最早是为了发现超市销售数据库中不同商品间的关联关系。频繁模式(FrequentPattern)是指频繁出现在数据集中的模式(如项集,子序列或子结构)。挖掘频繁模式可以揭示数据集的内在的、重要的特性,可以作为很多重要数据挖掘任务的基础,比如:28十月20246

频繁项集、闭项集和关联规则1.关联规则的表示形式模式可以用关联规则(AssociationRule)的形式表示。例如购买计算机也趋向于同时购买打印机,可以用如下关联规则表示。规则的支持度(Support)和置信度(Confidence)是规则兴趣度的两种度量,分别反映规则的有用性和确定性。28十月20247

频繁项集、闭项集和关联规则2.频繁项集和闭项集同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强关联规则。28十月20248

频繁项集、闭项集和关联规则一般来说,关联规则的挖掘可以看作两步的过程:(1)找出所有频繁项集,该项集的每一个出现的支持度计数≥min_sup;(2)由频繁项集产生强关联规则,即满足最小支持度和最小置信度的规则。28十月20249

频繁项集、闭项集和关联规则由于第2步的开销远小于第1步,因此挖掘关联规则的总体性能由第1步决定。第1步主要是找到所有的频繁k项集,而在找频繁项集的过程中,需要对每个k项集,计算支持度计数以发现频繁项集,k项集的产生过程如图6.128十月202410

频繁项集、闭项集和关联规则因此,项集的个数太大严重影响算法的效率。为了克服这一困难,引入闭频繁项集和极大频繁项集的概念。项集X在数据集D中是闭的(Closed),如果不存在X的真超项集Y使得Y与X在D中具有相同的支持度计数。28十月202411

频繁项集挖掘方法发现频繁项集是挖掘关联规则的基础。Apriori算法通过限制候选产生发现频繁项集,FP-growth算法发现频繁模式而不产生候选。28十月202412

Apriori算法28十月202413Apriori算法是Agrawal和Srikant于1994年提出,是布尔关联规则挖掘频繁项集的原创性算法,通过限制候选产生发现频繁项集。Apriori算法使用一种称为逐层搜索的迭代方法,其中k项集用于探索(k+1)项集。具体过程描述如下:首先扫描数据库,累计每个项的计数,并收集满足最小支持度的项找出频繁1项集记为L1。然后使用L1找出频繁2项集的集合L2,使用L2找出L3,迭代直到无法再找到频繁k项集为止。找出每个Lk需要一次完整的数据库扫描。Apriori算法使用一种称为先验性质的特性进行搜索空间的压缩,即频繁项集的所有非空子集也一定是频繁的。

Apriori算法Apriori算法产生k项频繁集的过程主要包括连接和剪枝两步。28十月202414

Apriori算法Apriori算法产生k项频繁集的过程主要包括连接和剪枝两步。(2)剪枝Ck是Lk的超集,Ck的成员不一定全部是频繁的,但所有频繁的k项集都包含在Ck中。为了减少计算量,可以使用Apriori性质,即如果一个k项集的(k-1)子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除。这种子集测试可以使用所有频繁项集的散列树快速完成。28十月202415

Apriori算法28十月202416

由频繁项集产生关联规则28十月202417

由频繁项集产生关联规则28十月202418

提高Apriori算法的效率Apriori算法使用逐层搜索的迭代方法,随着k的递增不断寻找满足最小支持度阈值的“k项集”,第k次迭代从k-1次迭代的结果中查找频繁k项集,每一次迭代都要扫描一次数据库。而且,对候选项集的支持度计算非常繁琐。为了进一步提高Apriori算法的效率,一般采用减少对数据的扫描次数、缩小产生的候选项集以及改进对候选项集的支持度计算方法等策略。

文档评论(0)

弹弹 + 关注
实名认证
内容提供者

人力资源管理师、教师资格证持证人

该用户很懒,什么也没介绍

版权声明书
用户编号:6152114224000010
领域认证该用户于2024年03月13日上传了人力资源管理师、教师资格证

1亿VIP精品文档

相关文档