关联规则演示文件修改版.ppt

  1. 1、本文档共118页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则演示文件修改版

划分算法在购物篮中的应用:数据库被划分成两个分区,第一个分区包含两个事务,第二个分区包含三个事务, 采用10%的支持度计算出的大项目集L1和L2为: L1 = {{面包},{果冻},{花生酱}, {面包,果冻}, {面包,花生酱}, {果冻,花生酱}, {面包,果冻,花生酱}} L2 = {{啤酒},{面包},{牛奶},{花生酱}, {啤酒,面包}, {啤酒,牛奶},{面包,牛奶},{面包,花生酱}, {牛奶,花生酱}, {面包,牛奶,花生酱}} 如果项目分布均匀分布在各个分区中,则大部分局部大项目集在全局都是大的,如果数据分布是不均匀的,则错误候选的比例就会大。 4.5 频繁模式增长(FP)算法 由于Apriori算法和Apriori算法的变形都需要产生大量的候选项集,Apriori算法的变形虽然使其得到一定程度的改善,但并未根本改观。 例如:如果生成一个长度为100的频繁模式,如{a1,a2,…,a100},,那么产生的候选集的数量至少为: 100 ? ( ) = 2100 – 1 ? 1030 i=1 计算的复杂性成指数增长。 Han等人引入“频繁模式增长”(简称FP-增长)的概念,可以不产生候选就能够找出所有的频繁项集。 i 100 4.5.1 FP-增长算法的基本思想 FP-增长算法的基本思想是: 采用分治策略,将提供频繁项集的数据库压缩到一棵频繁模式树,但还是保留项集关联信息;然后,将这种压缩后的数据库分成一组条件数据库,每个关联一个频繁项,并分别挖掘每个数据库。 即:首先进行数据库投影,得到频繁项,然后通过构造一个压缩的数据库结构—FP树来对它进行挖掘。 〖例〗使用频繁模式增长的方法,来考虑下面的例子。 TID 项ID的列表 T100 T200 T300 T400 T500 T600 T700 T800 T900 I1,I2,I5 I2,I4 I2,I3 I1,I2,I4 I1,I3 I2,I3 I1,I3 I1,I2,I3,I5 I1,I2,I3 第一遍扫描数据库D的结果与Apriori相同,它导出频繁1-项集的集合,并得到它们的支持度计数。设最小支持度计数为2。频繁项的集合按照支持度计数的递减顺序排序。即: L=[I2:7,I1:6,I3:6,I4:2,I5:2]。 构造FP-树:首先,创建树的根节点,用“null”标记。第二遍扫描数据库D。每个事务中的项按照L中的次序处理并对每个事务创建一个分枝。 例如:第一个事务“T100:I1,I2,I5”按L的次序包含三个项{I2,I1,I5},导致构造树的第一个分枝〈(I2:1),(I1:1),(I5:1)〉。该分枝具有三个节点,其中,I2作为根的子女链接,I1链接到I2,I5链接到I1。 第二个事务T002按L的次序包含I2和I4,它导致一个分枝,其中,I2链接到根,I4链接到I2。然而,该分枝应当与T100已存在的路径共享前缀〈I2〉。这样,将节点I2的计数增加1,并创建一个新节点(I4:1),它作为(I2:2)的子女链接。一般地,当为一个事务考虑增加分枝时,沿着共同前缀上的每个节点的计数增加1,为跟随在前缀之后的项创建节点并链接。 null I5:1 I2:7 I1:2 I1:4 I3:2 I4:1 I3:2 I4:1 I5:1 I3:2 TID 支持度计数 结点链 I2 7 ? I1 6 ? I3 6 I4 2 ? I5 2 ? 存放压缩的频繁模式信息的FP-树 为方便树的遍历,创建一个项头表,使得每个项通过一个节点链指向它在树中的出现位置(节点)。扫描所有的事务之后得到的树,带有相关节点链。这样,数据库频繁模式的挖掘问题就转换成挖掘FP-树的问题。 FP-树挖掘:由长度为1的频繁模式(初始后缀模式)开始,构造它的条件模式基,然后构造FP—树,并递归地在该树上进行挖掘。通过后缀模式与由FP—树产生的频繁模式连接实现模式增长。 注:条件模式基是一个子数据集,由FP—树中与后缀模式一起出现的前缀路径集组成。 FP-树挖掘总结:L中的最后一项,而不是第一项开始。通过上述方法我们可以知道: 对于I5有两个分枝。这些路径由分枝(I2,I1,I5:1),(I2,I1,I3 I5:1)形成。这样,考虑I5为后缀,它的两个对应的前缀路径是(I2,I1:1),(I2,I1,I3:1),它们形成I5的条件模式基。它的条件FP-树只包含单个路径(I2:2,I1:2);不包含I3,因为它的支持度计数为1,小于最小支持度计数。该单个路径产生频繁模式的所有组合:I2 I5:2,I1 I5:2,I2 I1 I5:2。 〖例〗通过创建条件模式基挖掘F

文档评论(0)

phljianjian + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档