第二章+关联规则挖掘_20140918综述.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * */91 FP-增长(FP-growth) 频繁模式增长(FP-增长): 它采取如分治策略 将提供频繁项集的数据库压缩到一棵频繁模式树(或FP-树),但仍保留项集关联信息; 将这种压缩后的数据库分成一组条件数据库(一种特殊类型的投影数据库),每个关联一个频繁项,并分别挖掘每个数据库。 * */91 FP-树构造 数据库的第一次扫描与Apriori相同,它导出频繁项(1-项集)的集合,并得到它们的支持度计数(频繁性)。设最小支持度计数为2。 频繁项的集合按支持度计数的递减序排序。结果集或表记作L。 AllElectronics某分店的事务数据的频繁项L = [I2:7, I1:6, I3:6, I4:2, I5:2]。 * */91 FP-树构造 L = [I2:7, I1:6, I3:6, I4:2, I5:2]。 TID List of item_ID’s T100 T200 T300 T400 T500 T600 T700 T800 T900 I1,I2,I5 I2,I4 I2,I3 I1,I2,I4 I1,I3 I2,I3 I1,I3 I1,I2,I3,I5 I1,I2,I3 * */91 FP-树构造 将这种压缩后的数据库分成一组条件数据库(一种特殊类型的投影数据库),每个关联一个频繁项,并分别挖掘每个数据库。 * */91 FP-树挖掘 由长度为1的频繁模式(初始后缀模式)开始,构造它的条件模式基(一个“子数据库”, 由FP-树中与后缀模式一起出现的前缀路径集组成)。 然后,构造它的(条件)FP-树,并递归地在该树上进行挖掘。模式增长通过后缀模式与由条件FP-树产生的频繁模式连接实现。 * */91 FP-树挖掘算法 算法:FP-增长。使用FP-树,通过模式段增长,挖掘频繁模式。 输入:事务数据库D;最小支持度阈值min_sup。 输出:频繁模式的完全集。 方法: 按以下步骤构造FP-树: 扫描事务数据库D一次。收集频繁项的集合F和它们的支持度。对F按支持度降序排序,结果为频繁项表L。 创建FP-树的根结点,以“null”标记它。对于D中每个事务Trans,执行: 选择Trans中的频繁项,并按L中的次序排序。设排序后的频繁项表为[p | P],其中,p是第一个元素,而P是剩余元素的表。调用insert_tree([p | P], T)。该过程执行情况如下。如果T有子女N使得N.item-name = p.item-name,则N的计数增加1;否则创建一个新结点N,将其计数设置为1,链接到它的父结点T,并且通过结点链结构将其链接到具有相同item-name的结点。如果P非空,递归地调用insert_tree(P, N)。 FP-树的挖掘通过调用FP_growth(FP_tree, null)实现。该过程实现如下: * */91 FP-树挖掘算法 procedure FP_growth(Tree, ?) if Tree 含单个路径P then for 路径P中结点的每个组合(记作?) 产生模式? ? ?,其支持度support = ?中结点的最小支持度; else for each a i 在Tree的头部 { 产生一个模式? = a i ? ?,其支持度support = a i .support; 构造?的条件模式基,然后构造?的条件FP-树Tree?; if Tree? ? ? then 调用 FP_growth (Tree?, ?); } * */91 FP-growth 频繁模式增长 挖掘全部频繁项集而不产生候选 构造FP-树: 扫描 DB 一次, 找出 1-itemset 频繁项集 按频数递减顺序把频繁项排序: f-list 扫描 DB 再一次, 构造 FP-树 * */91 FP-growth 步骤一:扫描 DB 一次, 找出频繁1-项集{I2:7,I1:6,I3:6,I4:2,I5:2} 步骤二:第2次扫描DB,构造FP-树。 null{} I2: I1: I5: I3: I4: I3: I4: I5: I1: I3: TID 项ID的列表 T100 I1,I2,I5 T200 I2,I4 T300 I2,I3 T400 I1,I2,I4 T500 I1,I3 T600 I2,I3 T700 I1,I3 T800 I1,I2,I3,I5 T900 I1,I2,I3 7 4 1 2 1 1 2 2 2 1

文档评论(0)

w5544434 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档