- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章关联分析讲解
第六章 关联分析基本概念与算法 关联分析的基本概念 Apriori算法 FP增长算法 关联模式的评估 目录 关联分析的基本概念 Itemset A collection of one or more items Example: {Milk, Bread, Diaper} k-itemset An itemset that contains k items Support count (?) Frequency of occurrence of an itemset E.g. ?({Milk, Bread,Diaper}) = 2 Support Fraction of transactions that contain an itemset E.g. s({Milk, Bread, Diaper}) = 2/5 Frequent Itemset An itemset whose support is greater than or equal to a minsup threshold 项集:包含0个或多个项的集合。 支持度计数:包含特定项集的事务个数。 支持度:未定义。 频繁项集:满足最小支持度阈值的所有项集。 关联规则 形如X-Y的蕴含表达式。 {牛奶,啤酒}-{尿布} 偶然么? 支持度:同时包含X,Y的事务的比例 可信么? 置信度:在包含X的事务中,Y出现的比例 关联分析的基本概念 关联规则挖掘: 第一步:产生频繁项集; 因为规则的支持度仅依赖于XUY的支持度。 第二部:产生关联规则。 难点在第一步,指数空间内的搜索。 关联分析的基本概念 问题: 为什么n个项的数据集中所有的可能规则为: 3^n-2^(n+1)+1 关联分析的基本概念 先验原理: 如果一个项集是频繁的,那么它的所有子集也一定是频繁的。 Apriori算法 反单调性: 一个项集的支持度不会超过其子集的支持度。 基于支持度的剪枝: 如果某个项集是非频繁的,其超集也一定是非频繁的。 Apriori算法 剪枝实例: Apriori算法 蛮力法 C(6,1)=6 C(6,2)=15 C(6,3)=20 41 剪枝 C(6,1)=6 C(4,2)=6 1 13 Apriori算法 Apriori-gen 子函数 蛮力法:枚举所有C(d,k)个k-项集合; Fk-1×F1方法:组合频繁(k-1)-项集和频繁-1项集。 Fk-1×Fk-1方法:合并前k-2项相同的两个频繁k-1项集。 后两者依赖字典序以避免重复生成候选。 Apriori算法 支持度计数(1) 蛮力法: 对每个事务与当前项做比较,并更新当前第k-候选集中每个元素的支持度计数。 Apriori算法 支持度计数(2) 枚举事务的k-项集并与候选的频繁项集比对 核心思想:各项字典排序,生成有序排列 Apriori算法 支持度计数(3) 使用Hash树进行支持度计数 由候选项集构成Hash树,再让每条事务来遍历。 Apriori算法 1,确定Hash函数,本例为h(p)=p mod 3 ; 2,由hash函数确定候选项集的Hash树; 3,对每一条事务,采用同样的函数遍历Hash树; 4,如果叶子上的候选项集是该事务的子集,则支持度+1; 复杂度分析(1) 影响复杂度的可能因素: 支持度阈值:频繁项集的数量和长度。 项数:储存开销,候选项集数。 事务数:每次Hash剪枝都要扫描数据集。 事务的平均宽度:频繁项集的长度和支持度计数时的遍历Hash树次数。 Apriori算法 复杂度分析(2) 生成候选集。 采用Fk-1×Fk-1方法,每次合并前需要检查其前k-2项目是否相同,即需要做k-2次比较。 在坏的情况下,需要对每一对k-1项集都要进行合并,且每次都需要比较到k-2次的时候才能决定是否合并。 Apriori算法 复杂度分析(3) 针对每个k-项候选集构造Hash树并储存。 K-项集存入的Hash树的深度为k,因此时间复杂度为: Apriori算法 复杂度分析(4) 候选集剪枝(计算支持度计数之前)。 每一个候选k-项集由两个k-1项集合并产生,要附加的候选剪枝步骤来确保该候选的其余k-2个子集是频繁的。 因此这一步的复杂度为: ??? ×|Fk-1| Apriori算法 复杂度分析(5) 支持度计数。 每个事务平均将产生C(w,k)个k-项集。 每个k-项集在Hash树查找对应叶子的花费是O(k)。 书中认为其开销为: ; O(N*Σ(k*C(w,k))) Apriori算法 复杂度
您可能关注的文档
最近下载
- 导学案:1.3位置变化快慢的描述—速度.docx VIP
- 2024监理规范知识竞赛练习试题及答案.doc VIP
- 1-3位置变化快慢的描述 速度 【解析版】(人教版2019).doc VIP
- 5.1《倍的认识》课件(共23张PPT) 人教版 三年级上册数学.pptx VIP
- 冀教版小学数学四年级下册【全册】课时练+单元测试卷(含答案).pdf VIP
- 2024威海热电集团有限公司招聘试题及答案解析.docx
- 课时1.3 位置变化快慢的描述—速度(练习)-高中物理同步(人教版2019必修第一册).docx VIP
- HG/T 20275-2017 - 化工设备工程施工及验收规范.pdf VIP
- hg20675-1990t化工企业静电接地设计规程.(完整).doc VIP
- 2025上饶市四股桥乡“回村任职大学生” 选聘考试备考题库及答案解析.docx VIP
文档评论(0)