- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Apriori algorithm
小组成员
吴国泉、唐思远、赵清伟、张波
购物篮分析:引发性例子
Questions
哪组商品顾客可能会在一次购物时同时购买
关联分析
Solutions
1:经常同时购买的商品可以摆近一点,以便进
步刺激这些商品一起销售。
2:规划哪些附属商品可以降价销售,以便刺激主
体商品的捆绑销售。
关联分析的基本概念
关联规则是形如A→B的蕴含式,Ac1,B∈1,且A∩B=
支持度)规则A→B在事务集D中成立,支持度S
是事务包含AUB的百分比。
Support(A→B=P(AUB)
(置信度)置信度C是D中同时包含A的事务同时也包
含B的百分比。
Confidence(A→B)=P(A∪B)/P(A)
(k项集)包含k个项的项集称为k项集,频繁k项集的
集合记作L,候选k项集的集合记作C。
由频繁项集产生强关联规则
(1)K维数据项集Lκ是频繁项集的必要条件是它所
有K-1维子项集也为频繁项集,记为Lk1
(2)如果K维数据项集Lk的任意一个K-1维子集Lx1,
不是频繁项集,则K维数据项集L本身也不是最大数
据项集。
(3)L是K维频繁项集,如果所有K-1维频繁项集集
合Lk1中包含Lk的K-1维子项集的个数小于K,则L不
可能是K维最大频繁数据项集。
(4)同时满足最小支持度阀值和最小置信度阀值的
规则称为强规则
Apriori算法说明
在 Apriori算法中,寻找最大项目集的基本思
想是:算法需要对数据集进行多步处理.第一步,
简单统计所有含一个元素项目集出现的频率,
并找出那些不小于最小支持度的项目集,即
维最大项目集L1从第二步开始循环处理直
再没有最大项目集生成
循环过程是:第k步中,根据第k-1步生成的
(k-1)维最大项目集产生k维侯选项目集Ck然后
对数据库进行搜索,得到侯选项目集的项集支
持度,与最小支持度比较,从而找到k维频繁项
目集Lk
连接步
为找出L,通过将L1与自身连接产生候选k项集
的集合C。设l1和2是Lk的成员。记]表示中的
第j项。假设 Apriori算法对事务集中的项按字典次序
排序,即对于(k-1)项集,[1][2]-…k41]。将Lk1
与自身连接,如果(1[1]=2[1])(l1[2]=2[2])
(l1k2]=2k2](l1k-1]l2k-1),那认为1和l2是
连接。连接1和l2产生的结果是{11JA1[2]……k
]2k-1]}
剪枝步
C是Lk的超集,也就是说,C的成员可能是也可
能不是频繁的。通过扫描所有的事务(交易),确
定C中每个候选的计数,判断是否小于最小支持度
计薮,如果不是,则认为该候选是频繁的。为了压
缩C可以利用 Apriori性质:任一频繁项集的所有非
空子集也必须是频繁的,如果某个候选的非空子集
不是频繁的,那么该候选肯定不是频繁的,从而可
以将其从C中删除
Aprior〕算法实例
交易ID
高品m列表3
T1004
I1,I2,I54
T2004
I2,I4
T3004
I2,I3
14004
I1,12,I4
T5004
I1,I3
T6004
T7004
I1,I34
T800
11,12,13,154
T9004
某商场的交易记录
咖皮持康计牧
一挤度计效]
归描D,对每
个候选计数
t较候选支持度计数{12
与最小支持度计数{1
[141
由L产生候
支持度让数
灵支拉度计数
选
I,I2,对每,I
,13个候选计数{,1s
4124
比较候选支持度计数,13
I1,I,
pIl, 14F
u.I5
与最小支持度计警uzs
I1,I5}
2,I
u2,4
I2.I5
112, 151
13,I4
113, 151
010
持数
由2产生候
比较候选支持度计数
n,sl个候选计数n,2
与穀小支度计数
,I2,I
2
图5-3候选项集和频繁项集的产生,最小支持计数为2
(a)连接:C=l2l2={l,12},{1,13),(1,15},(12,B3,(12.14),(12,15}M
n,12}I,l3}.{1,15),{12,3},{I2,4},(12,15}
={(112,13},{,12,B5),(1,13,B5),(12,13,14),(12,13,15},{n2,l4,l5}
(b)使用 Apron性质剪枝:频紧项集的所有非空子集也必须是频繁的,候选项集的子集有不频繁的吗?
■(112,1)的2项子集是(1,2),(1,3)和(12,13).{1,12,13}的所有2项子集都是L的元素
因此,{11,D2,I3}保留在C3中
■{11,12,15}的2项子集是(1,12),(I,15)和(m2,15)。{11,12,15}的所有2项子集都是L2的元素
因此,(11,12,15}保留在C3中
文档评论(0)