大型数据库中的关联规则挖掘.ppt

  1. 1、本文档共90页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品(图6.1)之间联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。 例如,在同一次去超级市场,如果顾客购买牛奶,他也购买面包(和什么类型的面包)的可能性有多大?通过帮助零售商有选择地经销和安排货架,这种信息可以引导销售。例如,将牛奶和面包尽可能放近一些,可以进一步刺激一次去商店同时购买这些商品。 购物篮分析 假定作为 AllElectronics 的分店经理,你想更加了解你的顾客的购物习惯。例如,你想知道“什么商品组或集合顾客多半会在一次购物时同时购买?”为回答你的问题,你可以在你的商店顾客事务零售数据上运行购物篮分析。分析结果可以用于市场规划、广告策划、分类设计。 例如,购物篮分析可以帮助经理设计不同的商店布局。一种策略是:经常一块购买的商品可以放近一些,以便进一步刺激这些商品一起销售。例如,如果顾客购买计算机也倾向于同时购买财务软件,将硬件摆放离软件陈列近一点,可能有助于增加二者的销售。 另一种策略是:将硬件和软件放在商店的两端,可能诱发买这些商品的顾客一路挑选其它商品。例如,在决定购买一台很贵的计算机之后,去看软件陈列,购买财务软件,路上可能看到安全系统,可能会决定也买家庭安全系统。 购物篮分析也可以帮助零售商规划什么商品降价出售。如果顾客趋向于同时购买计算机和打印机,打印机降价出售可能既促使购买打印机,又促使购买计算机。 6.1.2 基本概念 设 I = { i1 , i2 ,..., im }是项的集合。设任务相关的数据D 是数据库事务的集合,其中每个事务T是项的集合,使得T ? I。每一个事务有一个标识符,称作TID。设A 是一个项集,事务T 包含A当且仅当A ? T。 关联规则是形如A ? B 的蕴涵式,其中A ? I,B ? I,并且A ∩ B = ?。规则A ?B 在事务集D 中成立,具有支持度s,其中s 是D 中事务包含A ∪ B(即,A 和B 二者)的百分比。 6.1.2 基本概念 它是概率P(A ∪ B)。规则A ? B 在事务集D 中具有置信度c,如果D 中包含A 的事务同时也包含B的百分比是c。这是条件概率P(B|A)。 support (A ? B ) = P(A ∪ B) (6.2) confidence (A ? B ) = P(B|A) (6.3) 6.1.2 基本概念 同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。为方便计,我们用0%和100%之间的值,而不是用0 到1 之间的值表示支持度和置信度。 项的集合称为项集。包含k 个项的项集称为k-项集。集合{computer, financial_management_software}是一个2-项集。项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数。 项集满足最小支持度min_sup,如果项集的出现频率大于或等于min_sup 与D 中事务总数的乘积。如果项集满足最小支持度,则称它为频繁项集。频繁k -项集的集合通常记作Lk。 剪枝步:Ck 是Lk 的超集;即,它的成员可以是,也可以不是频繁的,但所有的频繁k-项集都包含在Ck 中。扫描数据库,确定Ck 中每个候选的计数,从而确定Lk(即,根据定义,计数值不小于最小支持度计数的所有候选是频繁的,从而属于Lk)。 然而,Ck 可能很大,这样所涉及的计算量就很大。为压缩Ck,可以用以下办法使用Apriori 性质:任何非频繁的(k-1)-项集都不是可能是频繁k-项集的子集。 因此,如果一个候选k-项集的(k-1)-子集不在 Lk - 1 中,则该候选也不可能是频繁的,从而可以由Ck 中删除。这种子集测试可以使用所有频繁项集的散列树快速完成。 例 6.1 让我们看一个Apriori 的具体例子。该例基于图6.2 的AllElectronics 的事务数据库。数据库中有9 个事务,即|D| = 9。Apriori 假定事务中的项按字典次序存放。我们使用图6.3 解释Apriori算法发现D 中的频繁项集。 6.2.3 提高Apriori的有效性 (1)基于散列的技术(散列项集计数):一种基于散列的技术可以用于压缩候选k-项集Ck (k 1)。 例如,当扫描数据库中每个事务,由C1 中的候选1-项集产生频繁1-项集L1 时,我们可以对每个事务产生所有的2-项集,将它们散列(即,映射)到散列表结构的不同桶中,并增加对应的桶计数(图6.6)。 在散列表中对应的桶计数低于支持度阈值的2-项集不可能是频繁2-项集,因而应当由候选项集中删除。 这种基于散列的技术可以大大压缩要考察的k-项集(特别

文档评论(0)

guadihaoying + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档