大数据经典算法的Apriori讲解.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Apriori algorithm 小组成员 吴国泉、唐思远、赵清伟、张波 购物篮分析:引发性例子 Questions 哪组商品顾客可能会在一次购物时同时购买 关联分析 Solutions 1:经常同时购买的商品可以摆近一点,以便进 步刺激这些商品一起销售。 2:规划哪些附属商品可以降价销售,以便刺激主 体商品的捆绑销售。 关联分析的基本概念 关联规则是形如A→B的蕴含式,Ac1,B∈1,且A∩B= 支持度)规则A→B在事务集D中成立,支持度S 是事务包含AUB的百分比。 Support(A→B=P(AUB) (置信度)置信度C是D中同时包含A的事务同时也包 含B的百分比。 Confidence(A→B)=P(A∪B)/P(A) (k项集)包含k个项的项集称为k项集,频繁k项集的 集合记作L,候选k项集的集合记作C。 由频繁项集产生强关联规则 (1)K维数据项集Lκ是频繁项集的必要条件是它所 有K-1维子项集也为频繁项集,记为Lk1 (2)如果K维数据项集Lk的任意一个K-1维子集Lx1, 不是频繁项集,则K维数据项集L本身也不是最大数 据项集。 (3)L是K维频繁项集,如果所有K-1维频繁项集集 合Lk1中包含Lk的K-1维子项集的个数小于K,则L不 可能是K维最大频繁数据项集。 (4)同时满足最小支持度阀值和最小置信度阀值的 规则称为强规则 Apriori算法说明 在 Apriori算法中,寻找最大项目集的基本思 想是:算法需要对数据集进行多步处理.第一步, 简单统计所有含一个元素项目集出现的频率, 并找出那些不小于最小支持度的项目集,即 维最大项目集L1从第二步开始循环处理直 再没有最大项目集生成 循环过程是:第k步中,根据第k-1步生成的 (k-1)维最大项目集产生k维侯选项目集Ck然后 对数据库进行搜索,得到侯选项目集的项集支 持度,与最小支持度比较,从而找到k维频繁项 目集Lk 连接步 为找出L,通过将L1与自身连接产生候选k项集 的集合C。设l1和2是Lk的成员。记]表示中的 第j项。假设 Apriori算法对事务集中的项按字典次序 排序,即对于(k-1)项集,[1][2]-…k41]。将Lk1 与自身连接,如果(1[1]=2[1])(l1[2]=2[2]) (l1k2]=2k2](l1k-1]l2k-1),那认为1和l2是 连接。连接1和l2产生的结果是{11JA1[2]……k ]2k-1]} 剪枝步 C是Lk的超集,也就是说,C的成员可能是也可 能不是频繁的。通过扫描所有的事务(交易),确 定C中每个候选的计数,判断是否小于最小支持度 计薮,如果不是,则认为该候选是频繁的。为了压 缩C可以利用 Apriori性质:任一频繁项集的所有非 空子集也必须是频繁的,如果某个候选的非空子集 不是频繁的,那么该候选肯定不是频繁的,从而可 以将其从C中删除 Aprior〕算法实例 交易ID 高品m列表3 T1004 I1,I2,I54 T2004 I2,I4 T3004 I2,I3 14004 I1,12,I4 T5004 I1,I3 T6004 T7004 I1,I34 T800 11,12,13,154 T9004 某商场的交易记录 咖皮持康计牧 一挤度计效] 归描D,对每 个候选计数 t较候选支持度计数{12 与最小支持度计数{1 [141 由L产生候 支持度让数 灵支拉度计数 选 I,I2,对每,I ,13个候选计数{,1s 4124 比较候选支持度计数,13 I1,I, pIl, 14F u.I5 与最小支持度计警uzs I1,I5} 2,I u2,4 I2.I5 112, 151 13,I4 113, 151 010 持数 由2产生候 比较候选支持度计数 n,sl个候选计数n,2 与穀小支度计数 ,I2,I 2 图5-3候选项集和频繁项集的产生,最小支持计数为2 (a)连接:C=l2l2={l,12},{1,13),(1,15},(12,B3,(12.14),(12,15}M n,12}I,l3}.{1,15),{12,3},{I2,4},(12,15} ={(112,13},{,12,B5),(1,13,B5),(12,13,14),(12,13,15},{n2,l4,l5} (b)使用 Apron性质剪枝:频紧项集的所有非空子集也必须是频繁的,候选项集的子集有不频繁的吗? ■(112,1)的2项子集是(1,2),(1,3)和(12,13).{1,12,13}的所有2项子集都是L的元素 因此,{11,D2,I3}保留在C3中 ■{11,12,15}的2项子集是(1,12),(I,15)和(m2,15)。{11,12,15}的所有2项子集都是L2的元素 因此,(11,12,15}保留在C3中

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档