第二章+关联规则挖掘_20140918综述.pptVIP

下载本文档

6
0
约1.01万字
约 61页
2016-07-01 发布于湖北
举报
版权申诉

第二章+关联规则挖掘_20140918综述.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * */91 FP-增长(FP-growth) 频繁模式增长(FP-增长): 它采取如分治策略将提供频繁项集的数据库压缩到一棵频繁模式树（或FP-树），但仍保留项集关联信息；将这种压缩后的数据库分成一组条件数据库（一种特殊类型的投影数据库），每个关联一个频繁项，并分别挖掘每个数据库。 * */91 FP-树构造数据库的第一次扫描与Apriori相同，它导出频繁项（1-项集）的集合，并得到它们的支持度计数（频繁性）。设最小支持度计数为2。频繁项的集合按支持度计数的递减序排序。结果集或表记作L。 AllElectronics某分店的事务数据的频繁项L = [I2:7, I1:6, I3:6, I4:2, I5:2]。 * */91 FP-树构造 L = [I2:7, I1:6, I3:6, I4:2, I5:2]。 TID List of item_ID’s T100 T200 T300 T400 T500 T600 T700 T800 T900 I1,I2,I5 I2,I4 I2,I3 I1,I2,I4 I1,I3 I2,I3 I1,I3 I1,I2,I3,I5 I1,I2,I3 * */91 FP-树构造将这种压缩后的数据库分成一组条件数据库（一种特殊类型的投影数据库），每个关联一个频繁项，并分别挖掘每个数据库。 * */91 FP-树挖掘由长度为1的频繁模式（初始后缀模式）开始，构造它的条件模式基（一个“子数据库”，由FP-树中与后缀模式一起出现的前缀路径集组成）。然后，构造它的（条件）FP-树，并递归地在该树上进行挖掘。模式增长通过后缀模式与由条件FP-树产生的频繁模式连接实现。 * */91 FP-树挖掘算法算法：FP-增长。使用FP-树，通过模式段增长，挖掘频繁模式。输入：事务数据库D；最小支持度阈值min_sup。输出：频繁模式的完全集。方法：按以下步骤构造FP-树：扫描事务数据库D一次。收集频繁项的集合F和它们的支持度。对F按支持度降序排序，结果为频繁项表L。创建FP-树的根结点，以“null”标记它。对于D中每个事务Trans，执行：选择Trans中的频繁项，并按L中的次序排序。设排序后的频繁项表为[p | P]，其中，p是第一个元素，而P是剩余元素的表。调用insert_tree([p | P], T)。该过程执行情况如下。如果T有子女N使得N.item-name = p.item-name，则N的计数增加1；否则创建一个新结点N，将其计数设置为1，链接到它的父结点T，并且通过结点链结构将其链接到具有相同item-name的结点。如果P非空，递归地调用insert_tree(P, N)。 FP-树的挖掘通过调用FP_growth(FP_tree, null)实现。该过程实现如下： * */91 FP-树挖掘算法 procedure FP_growth(Tree, ?) if Tree 含单个路径P then for 路径P中结点的每个组合（记作?）产生模式? ? ?，其支持度support = ?中结点的最小支持度; else for each a i 在Tree的头部 { 产生一个模式? = a i ? ?，其支持度support = a i .support；构造?的条件模式基，然后构造?的条件FP-树Tree?； if Tree? ? ? then 调用 FP_growth (Tree?, ?)； } * */91 FP-growth 频繁模式增长挖掘全部频繁项集而不产生候选构造FP-树：扫描 DB 一次, 找出 1-itemset 频繁项集按频数递减顺序把频繁项排序： f-list 扫描 DB 再一次, 构造 FP-树 * */91 FP-growth 步骤一：扫描 DB 一次, 找出频繁1-项集{I2:7,I1:6,I3:6,I4:2,I5:2} 步骤二：第2次扫描DB，构造FP-树。 null{} I2: I1: I5: I3: I4: I3: I4: I5: I1: I3: TID 项ID的列表 T100 I1,I2,I5 T200 I2,I4 T300 I2,I3 T400 I1,I2,I4 T500 I1,I3 T600 I2,I3 T700 I1,I3 T800 I1,I2,I3,I5 T900 I1,I2,I3 7 4 1 2 1 1 2 2 2 1