- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                关联规则分析 高级人工智能
                    AA12 关联规则 史忠植 高级人工智能第十二章  史忠植    中国科学院计算技术研究所 内容提要  引言 Apriori 算法 Frequent-pattern tree 和FP-growth 算法 多维关联规则挖掘 相关规则 关联规则改进 总结 关联规则  关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。关联规则表示了项之间的关系。 示例: cereal, milk ? fruit  “买谷类食品和牛奶的人也会买水果.”  商店可以把牛奶和谷类食品作特价品以使人们买更多的水果.  市场购物篮分析 分析事务数据库表       我们是否可假定? Chips = Salsa       Lettuce = Spinach  基本概念 通常, 数据包含:  关联规则挖掘 在事务数据库,关系数据库和其它信息库中的项或对象的集合之间,发现频繁模式,关联,相关,或因果关系的结构. 频繁模式: 数据库中出现频繁的模式(项集,序列,等等) 基本概念 项集  事务  关联规则         - 事务数据集 (例如右图) 事务标识 TID      每一个事务关联着一个标识,称作TID.  关联规则的度量 支持度s D中包含A和 B 的事务数与总的事务数的比值     规则 A?B 在数据集D中的支持度为s, 其中s 表示D中包含A?B (即同时包含A和B)的事务的百分率.   关联规则的度量  可信度 c D中同时包含A和B的事务数与只包含A的事务数的比值   关联规则的度量 关联规则根据以下两个标准(包含或排除): 最小支持度 – 表示规则中的所有项在事务中出现的频度  最小可信度 - 表示规则中左边的项(集)的出现暗示着右边的项(集)出现的频度 市场购物篮分析  I是什么? 事务ID B的T是什么? s(Chips=Salsa) 是什么? c(Chips=Salsa)是什么? 频繁项集 项集 – 任意项的集合 k-项集 – 包含k个项的项集 频繁 (或大)项集 – 满足最小支持度的项集  若I包含m个项,那么可以产生多少个项集? 强关联规则 给定一个项集,容易生成关联规则. 项集: {Chips, Salsa, Beer} Beer, Chips = Salsa Beer, Salsa = Chips Chips, Salsa = Beer 强规则是有趣的 强规则通常定义为那些满足最小支持度和最小可信度的规则. 关联规则挖掘 两个基本步骤 找出所有的频繁项集 满足最小支持度 找出所有的强关联规则 由频繁项集生成关联规则 保留满足最小可信度的规则 内容提要  引言 Apriori 算法 Frequent-pattern tree 和FP-growth 算法 多维关联规则挖掘 相关规则 关联规则改进 总结 Apriori算法 IBM公司Almaden研究中心的R.Agrawal 等人在1993年提出的AIS和SETM。 在1994年提出Apriori和AprioriTid。Apriori和AprioriTid算法利用前次过程中的数据项目集来生成新的候选数据项目集,减少了中间不必要的数据项目集的生成,提高了效率 生成频繁项集 Na?ve algorithm  n - |D| for each subset s of I do     l - 0     for each transaction T in D do         if s is a subset of T then             l - l + 1     if minimum support = l/n then         add s to frequent subsets 生成频繁项集 na?ve algorithm的分析 I 的子集: O(2m)  为每一个子集扫描n个事务 测试s为T的子集: O(2mn)  随着项的个数呈指数级增长! 我们能否做的更好? Apriori 性质 定理(Apriori 性质): 若A是一个频繁项集,则A的每一个子集都是一个频繁项集.  证明:设n为事务数.假设A是l个事务的子集,若 A’ ? A , 则A’ 为l’ (l’ ? l )个事务的子集.因此, l/n ≥s(最小支持度), l’/n ≥s也成立. Apriori 算法 Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法.算法名字是缘于算法使用了频繁项集的性质这一先验知识. 思想: Apriori 使用了一种称作level-wise搜索的迭代方法,其中k-项集被用作寻找(k+1)-项集. 	首先,找出频繁1-项集,以L1表示.L1用来寻找L2,即频
                您可能关注的文档
- 湖南省2018届中考历史总复习 模块六 世界现代史 第四单元 战后主要资本主义国家的发展变化课件 新人教版.ppt
- 湖南省2018届中考历史总复习 模块四 世界古代史 第三单元 文明的冲撞与融合课件 新人教版.ppt
- 湖南省2018届中考历史总复习 模块四 世界古代史 第一单元 上古人类文明课件 新人教版.ppt
- 湖南省2018届中考历史总复习 模块六 世界现代史 第六单元 亚非拉国家的独 立和振兴课件 新人教版.ppt
- 湖南省2018年度中考历史总复习 第一部分 教材知识梳理 模块一 中国古代史 第一单元 中华文明的起源课件 岳麓版.ppt
- 湖南省2018届中考历史总复习 模块四 世界古代史 第二单元 中古亚欧文明课件 新人教版.ppt
- 湖南省2018年度中考历史总复习 第一部分 教材知识梳理 模块一 中国古代史 第三单元 统一国家的建立课件 岳麓版.ppt
- 湖南省2018年度中考历史总复习 第一部分 教材知识梳理 模块一 中国古代史 第七单元 统一多民族国家的巩固和社会的危 机课件 岳麓版.ppt
- 湖南省2018年度中考历史总复习 第一部分 教材知识梳理 模块一 中国古代史 第五单元 繁荣与开 放的社会课件 岳麓版.ppt
- 湖南省2018年度中考历史总复习 第一部分 教材知识梳理 模块一 中国古代史 第六单元 经济重心的南移与民族关系的发展课件 岳麓版.ppt
最近下载
- GB50702-2011砌体结构加固设计规范.docx VIP
- SY-BA-29-2011整车后碰撞试验规范.doc VIP
- 2024年广西玉林市中考物理模拟试卷五.docx VIP
- 2025吉林省国资委监管企业招聘527人(2号)考试备考题库及答案解析.docx VIP
- 2024年广西玉林市中考物理试卷与参考答案.docx VIP
- XX卫生院“十五五”发展规划(2025年-2029年).docx VIP
- 第四章 熔化焊与热切割安全用电教案 邢建章.docx VIP
- 弟子规全文带拼音排版好可直接打印.doc VIP
- 污泥处理系统设计计算.pdf VIP
- (高清版)DB32∕T 4025-2021 污水处理中恶臭气体生物净化工艺设计规范.pdf VIP
 原创力文档
原创力文档 
                        

文档评论(0)