- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Apriori 算法例子
Apriori 算法例子
算法 integerstringeach 数据库 c
Apriori 介绍
Apriori 算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k 项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁 1 项集,该集合记做 L1, 然后利用 L1 找频繁 2 项集的集合 L2,L2 找 L3,如此下去, 直到不能再找到任何频繁 k 项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。
其中,Apriori 算法具有这样一条性质:任一频繁项集的所有非空子集也必须是频繁的。因为假如 P(I)lt; 最小支持度阈值,当有元素 A 添加到 I 中时,结果项集(A∩I)不可能比 I 出现次数更多。因此 A∩I 也不是频繁的。
连接步和剪枝步
在上述的关联规则挖掘过程的两个步骤中,第一步往往是总 体性能的瓶颈。Apriori 算法采用连接步和剪枝步两种方式来找出所有的频繁项集。
连接步
为找出 Lk(所有的频繁 k 项集的集合),通过将 Lk-1(所有的频繁k-1 项集的集合)与自身连接产生候选k 项集的集合。候选集合记作 Ck。设 l1 和 l2 是 Lk-1 中的成员。记 li[j]表示li 中的第j 项。假设 Apriori 算法对事务或项集中的项按字典次序排序,即对于(k-1)项集 li, li[1]lt;li[2]lt;……….lt;li[k-1]。将 Lk-1 与自身连接,如果(l1[1]=l2[1])amp;amp;( l1[2]=l2[2])amp;amp;… a
mp;amp; (l1[k-2]=l2[k-2])amp;amp;(l1[k-1]lt;l2[k-1]), 那认为 l1 和 l2 是可连接。连接 l1 和 l2 产生的结果是
{l1[1],l1[2],……,l1[k-1],l2[k-1]}。
剪枝步
CK 是 LK 的超集,也就是说,CK 的成员可能是也可能不是频繁的。通过扫描所有的事务(交易),确定 CK 中每个候选的计数,判断是否小于最小支持度计数,如果不是,则认为该候选是频繁的。为了压缩 Ck,可以利用 Apriori 性质:任一频繁项集的所有非空子集也必须是频繁的,反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的, 从而可以将其从 CK 中删除。
(Tip:为什么要压缩 CK 呢?因为实际情况下事务记录往往是保存在外存储上,比如数据库或者其他格式的文件上,在 每次计算候选计数时都需要将候选与所有事务进行比对,众 所周知,访问外存的效率往往都比较低,因此 Apriori 加入了
所谓的剪枝步,事先对候选集进行过滤,以减少访问外存的 次数。)
Apriori 算法实例交易 ID
商品 ID 列表
T100
I1,I2,I5
T200
I2,I4
T300
I2,I3
T400
I1,I2,I4
T500
I1,I3
T600
I2,I3
T700
I1,I3
T800
I1,I2,I3,I5
T900
I1,I2,I3
您可能关注的文档
- 20192020年中考科学模拟试卷卷 浙教版.docx
- 20192020年中考英语真题试题 .docx
- 20192020学年安徽省合肥市蜀山区八年级期末物理试卷.docx
- 20192020学年北京市首师大附中高一期中数学试卷.docx
- 20192020学年度第一学期六年级德育工作总结.docx
- 20192020学年高中化学人教版必修第二册教案731 乙醇.docx
- 20202021年度语文教研室工作计划.docx
- 20202021学年骨干教师个人发展规划.docx
- 20202021学年广州市2021届高三年级10月阶段训练英语试题.docx
- 20212022年第届全国希望杯数学竞赛试题高一.docx
最近下载
- 2025年闽教版(2024)小学英语四年级上册(全册)教学设计(附目录P123).docx
- 人教版高中英语第三册Unit 1 FESTIVALS AND CELEBRATIONS教学设计.docx VIP
- 数据结构常用算法数据结构算法.pdf VIP
- 20世纪人类最伟大的100项科学发明.doc VIP
- 北师大版九年级上册数学第一次月考试卷及答案.docx VIP
- 脊柱外科进修汇报.pptx VIP
- 2025年最新版个人征信报告(含水印)模板【可修改】 .pdf VIP
- 金刚砂地坪施工技术交底.pdf VIP
- 人教版英语2024七年级上册全册单元知识清单(背诵版).pdf VIP
- 股权设计与股权激励.pdf VIP
文档评论(0)