- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* Apriori算法简介 尤全增 ultimateyou@ 概要 技术背景 1 算法描述 2 算法缺陷 3 算法优化 4 * 背景 关联规则是Agrawal等人1993年首次提出来的,最初关联规则挖掘问题是在分析零售业事务数据库时提出来的,目的是为了发现交易数据库中不同商品之间的联系规则. * 关联规则描述 关联规则形式: 通常表示当项目 产生时,在同一个事务集中也经常产生项目 。 例子: * 算法描述(关联规则基本概念) 项目集合 事务数据库 唯一标识TID, 支持度 设 ,则 support( )= 频繁项目集 最大频繁项目集 (Maximum Large Itemsets) * 算法描述(关联规则基本概念介绍) 信任度(Confidence) 关联规则 定义如下: 其中, D在I上满足最小支持度和最小信任度(Minconfidence)的关联规则称为强关联规则. 关联规则挖掘问题就是通过用户指定Minsupport和Minconfidence来寻找强关联规则的过程. * 两个子问题 发现频繁项目集 通过用户指定的最小支持度,寻找所有频繁项目集,一般的只关心最大频繁项目集.发现频繁项目集是形成关联规则的基础. 生成关联规则 通过用户指定的最小可信度,寻找Confidence不小于Minconfidence的关联规则. * 项目集空间理论 定理1 如果项目集X是频繁项目集,那么它的所有非空子集都是频繁项目集. 定理2 如果项目集X是非频繁项目集,那么它的所有超集都是非频繁项目集. 定理3 设项目集X,X’是项目集X的一个子集,如果规则 是强规则,则规则 一定是强规则. * Apriori算法描述(一) Apriori(发现频繁项目集) 输入:数据集D;最小支持数Minsupport 输出:频繁项目集L (1) (2) (3) 是k个元素的候选集 (4) (5) 是所有包含在t里面的候选集 (6) (7) (8) (9) (10) (11) * Apriori算法描述(二) (候选集生成算法) 输入:(k-1)-频繁项目集 输出:k-候选项目集 (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) * Apriori算法简介(三) TID Itemset TID Itemset 1 A,B,C,D 2 B,C,E 3 A,B,C,E 4 B,D,E 5 A,B,C,D 表1 样本数据库 对上表中的事务数据库应用Apriori算法的执行过程(minsupport=40%即minsup_count=2) 生成 生成 得到 同上,则有 频繁项目集: 最大频繁项目集: * 关联规则生成算法 输入:频繁项目集;最小信任度 输出:强关联规则 * 算法缺陷 多次扫描事务数据库,需要很大的I/O负载 对每次循环看k,候选集 中的每个元素都必须通过扫描数据库一次. 可能产生庞大的候选集 由 产生k-候选集 是指数级增长的.这样对时间和主存空间都是一种挑战. * 算法改进(一) 基于分割(Partition)的思想 首先将大容量的数据库从逻辑上分成几个互不相交的块,每个块应用掘算法(如Apriori)生成局部的频繁项目集,然后把这些局部的频繁项目集作为候选的全局频繁项目集,通过测试它们的支持度得到最终的全局频繁项目集. 定理:设数据集D被分割为D1,D2D3…,Dn,全局最小支持度为minsupport,对应的最小支持数为 minsup_
您可能关注的文档
- 晚唐诗人李商隐的诗.ppt
- 风光互补LED光源系统解决方案.ppt
- 第一章§3焊接变形.ppt
- 3-1拉格朗日中值定理与函数单调性判别法.ppt
- 第3节选择类排序.ppt
- 大肠菌群的测定(DC法).ppt
- PPMS样品旋转杆选件.ppt
- OTDR学习资料.ppt
- 射频调制第四章接收发送结构2-1.ppt
- 生活习惯与青春痘.ppt
- 2025年广西中考地理二轮复习:专题四+人地协调观+课件.pptx
- 2025年广西中考地理二轮复习:专题三+综合思维+课件.pptx
- 2025年中考地理一轮教材梳理:第4讲+天气与气候.pptx
- 第5讲+世界的居民课件+2025年中考地理一轮教材梳理(商务星球版).pptx
- 冀教版一年级上册数学精品教学课件 第1单元 熟悉的数与加减法 1.1.6 认识1-9 第6课时 合与分.ppt
- 2025年中考一轮道德与法治复习课件:坚持宪法至上.pptx
- 2025年河北省中考一轮道德与法治复习课件:崇尚法治精神.pptx
- 八年级下册第二单元+理解权利义务+课件-2025年吉林省中考道德与法治一轮复习.pptx
- 精品解析:湖南省娄底市2019-2020学年八年级(上)期中考试物理试题(原卷版).doc
- 2025年中考地理一轮教材梳理:第10讲+中国的疆域与人口.pptx
文档评论(0)