关联规则演示文件修改版.ppt

下载文档 降价啦

1
0
约1.72万字
约 118页
2017-02-08 发布于上海
举报
版权申诉
保障服务

关联规则演示文件修改版.ppt

1、本文档共118页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关联规则演示文件修改版

划分算法在购物篮中的应用：数据库被划分成两个分区，第一个分区包含两个事务，第二个分区包含三个事务，采用10%的支持度计算出的大项目集L1和L2为： L1 = {{面包}，{果冻}，{花生酱}， {面包，果冻}， {面包，花生酱}， {果冻，花生酱}， {面包，果冻，花生酱}} L2 = {{啤酒}，{面包}，{牛奶}，{花生酱}， {啤酒，面包}， {啤酒，牛奶}，{面包，牛奶}，{面包，花生酱}， {牛奶，花生酱}， {面包，牛奶，花生酱}} 如果项目分布均匀分布在各个分区中，则大部分局部大项目集在全局都是大的，如果数据分布是不均匀的，则错误候选的比例就会大。 4.5 频繁模式增长（FP）算法由于Apriori算法和Apriori算法的变形都需要产生大量的候选项集，Apriori算法的变形虽然使其得到一定程度的改善，但并未根本改观。例如：如果生成一个长度为100的频繁模式，如{a1,a2,…,a100}，，那么产生的候选集的数量至少为： 100 ? ( ) = 2100 – 1 ? 1030 i=1 计算的复杂性成指数增长。 Han等人引入“频繁模式增长”（简称FP-增长）的概念，可以不产生候选就能够找出所有的频繁项集。 i 100 4.5.1 FP-增长算法的基本思想 FP-增长算法的基本思想是：采用分治策略，将提供频繁项集的数据库压缩到一棵频繁模式树，但还是保留项集关联信息；然后，将这种压缩后的数据库分成一组条件数据库，每个关联一个频繁项，并分别挖掘每个数据库。即：首先进行数据库投影，得到频繁项，然后通过构造一个压缩的数据库结构—FP树来对它进行挖掘。〖例〗使用频繁模式增长的方法，来考虑下面的例子。 TID 项ID的列表 T100 T200 T300 T400 T500 T600 T700 T800 T900 I1，I2，I5 I2，I4 I2，I3 I1，I2，I4 I1，I3 I2，I3 I1，I3 I1，I2，I3，I5 I1，I2，I3 第一遍扫描数据库D的结果与Apriori相同，它导出频繁1-项集的集合，并得到它们的支持度计数。设最小支持度计数为2。频繁项的集合按照支持度计数的递减顺序排序。即： L=[I2：7，I1：6，I3：6，I4：2，I5：2]。构造FP-树：首先，创建树的根节点，用“null”标记。第二遍扫描数据库D。每个事务中的项按照L中的次序处理并对每个事务创建一个分枝。例如：第一个事务“T100：I1，I2，I5”按L的次序包含三个项{I2，I1，I5}，导致构造树的第一个分枝〈（I2：1），（I1：1），（I5：1）〉。该分枝具有三个节点，其中，I2作为根的子女链接，I1链接到I2，I5链接到I1。第二个事务T002按L的次序包含I2和I4，它导致一个分枝，其中，I2链接到根，I4链接到I2。然而，该分枝应当与T100已存在的路径共享前缀〈I2〉。这样，将节点I2的计数增加1，并创建一个新节点（I4：1），它作为（I2：2）的子女链接。一般地，当为一个事务考虑增加分枝时，沿着共同前缀上的每个节点的计数增加1，为跟随在前缀之后的项创建节点并链接。 null I5:1 I2:7 I1:2 I1:4 I3:2 I4:1 I3:2 I4:1 I5:1 I3:2 TID 支持度计数结点链 I2 7 ? I1 6 ? I3 6 I4 2 ? I5 2 ? 存放压缩的频繁模式信息的FP－树为方便树的遍历，创建一个项头表，使得每个项通过一个节点链指向它在树中的出现位置（节点）。扫描所有的事务之后得到的树，带有相关节点链。这样，数据库频繁模式的挖掘问题就转换成挖掘FP-树的问题。 FP-树挖掘：由长度为1的频繁模式（初始后缀模式）开始，构造它的条件模式基，然后构造FP—树，并递归地在该树上进行挖掘。通过后缀模式与由FP—树产生的频繁模式连接实现模式增长。注：条件模式基是一个子数据集，由FP—树中与后缀模式一起出现的前缀路径集组成。 FP-树挖掘总结：L中的最后一项，而不是第一项开始。通过上述方法我们可以知道：对于I5有两个分枝。这些路径由分枝(I2,I1,I5:1),(I2,I1,I3 I5:1)形成。这样，考虑I5为后缀，它的两个对应的前缀路径是(I2,I1:1),(I2,I1,I3:1),它们形成I5的条件模式基。它的条件FP-树只包含单个路径(I2:2,I1:2);不包含I3，因为它的支持度计数为1，小于最小支持度计数。该单个路径产生频繁模式的所有组合：I2 I5：2，I1 I5：2，I2 I1 I5：2。〖例〗通过创建条件模式基挖掘F