- 1、本文档共83页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
构建FP-tree具体步骤如下。 读入第一条数据“A,E,C,B,F”,此时FP-tree中没有节点,按顺序构成一条完整路径,每个节点的计数为1。 读入第二条数据“A,C,G”,在A节点处延伸一条新路径,并且A节点计数加1,其余节点计数为1。 读入第三条数据“E”,从根节点位置延伸一条新路径,计数为1。 读入第四条数据“A,E,C,G,D”,在C节点处延伸一条新路径,共用的“A,E,C”计数加1,新建的节点计数为1。 重复以上步骤直至整个FP-tree构建完成。 FP-Growth 最终得到的FP-tree如图所示。 FP-Growth 在构建FP-tree、项头表和节点链表后,需要从项头表的底部项依次向上挖掘频繁项集。这需要找到项头表中对应于FP-tree的每一项的条件模式基。条件模式基是以要挖掘的节点作为叶子节点所对应的FP子树。 得到该FP子树后,将子树中每个节点的计数设置为叶子节点的计数,并删除计数低于最小支持度的节点。基于这个条件模式基就可以递归挖掘得到频繁项集了。 FP-Growth (3)挖掘频繁项集 以构建F节点的条件模式基为例,F节点在FP-tree中只有一个子节点,因此只有一条路径{A:8,E:6,C:5,B:2,F:2},得到F节点的FP子树如图所示。 FP-Growth 接着将所有的父节点的计数设置为子节点的计数,即FP子树变成{A:2,E:2,C:2,B:2,F:2}。通常条件模式基可以不写子节点,如图所示。 通过F节点的条件模式基可以得到F的频繁2项集为{A:2,F:2}、{E:2,F:2}、{C:2,F:2}、{B:2,F:2}。将2项集递归合并得到频繁3项集为{A:2,C:2,F:2}、{A:2,E:2,F:2}等等。最终递归得到最大的频繁项集为频繁5项集{A:2, E:2,C:2, B:2,F:2}。 FP-Growth 获取B节点的频繁项集的过程与F节点类似,此处不再列出,需要特别提一下D节点。 D节点在树中有三个子节点,得到D节点的FP子树如图所示。 接着将所有的父节点计数设置为子节点的计数,即变成{A:3,E:2,C:2,G:1,D:1,D:1,D:1},由于G节点在子树中的支持度低于阈值,在去除低支持度节点并不包括子节点后D的条件模式基为{A:3,E:2,C:2}。通过D的条件模式基得到D的频繁2项集为{A:3,D:3},{E:2,D:2},{C:2,D:2}。 递归合并2项集,得到频繁3项集为{A:2,E:2,D:2},{A:2,C:2,D:2}。D节点对应的最大的频繁项集为频繁3项集。其余节点可以用类似的方法得出对应的频繁项集。 FP-Growth 使用FP-Growth算法挖掘匈牙利在线新闻门户的点击流数据kosarak.dat中的频繁项集,该数据有将近100万条记录,每一行包含某个用户浏览过的新闻报道。 新闻报道被编码成整数,使用FP-growth算法挖掘其中的频繁项集,查看哪些新闻ID被用户大量浏览。 FP-Growth 3. 使用FP-Growth算法实现新闻站点点击流频繁项集挖掘 在Python中实现FP-Growth算法挖掘新闻门户的点击流数据的代码,结果如下。 可以得到该网站上浏览次数超过5万次的新闻集合的个数为29个。 FP-Growth 3. 使用FP-Growth算法实现新闻站点点击流频繁项集挖掘 浏览次数在5万次以上的新闻报导集合个数: 29 浏览次数在5万次以上的新闻: [{1}, {6, 1}, {1, 3}, {11, 1}, {6, 11, 1}, {3}, {11, 3}, {6, 11, 3}, {6, 3}, {11}, {6, 11}, {6}, {4}, {27}, {6, 27}, {148}, {11, 148}, {6, 11, 148}, {218, 148}, {218, 6, 148}, {6, 148}, {7}, {11, 7}, {6, 11, 7}, {6, 7}, {218}, {218, 11}, {218, 11, 6}, {218, 6}] 目录 1 智能推荐性能度量 智能推荐简介 2 基于关联规则的智能推荐 3 基于协同过滤的智能推荐 4 常见的协同过滤推荐技术主要分为两大类。 基于用户的协同过滤推荐。 基于物品的协同过滤推荐。 基于协同过滤的智能推荐 基于用户的协同过滤的基本思想相当简单,基于用户对物品的偏好找到相邻用户,然后将邻居用户喜欢的推荐给当前用户。在计算上,就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,找到K邻居后,根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表作为推荐。如右图给出了一个例子,对于用
您可能关注的文档
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第4章 有监督学习.pptx
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第5章 无监督学习.ppt
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第7章 医疗保险的欺诈发现模型.ppt
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第8章 中医证型关联规则分析.ppt
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第9章 糖尿病遗传风险预测.ppt
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第10章 基于深度残差网的皮肤癌检测.ppt
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第11章 基于TipDM数据挖掘建模平台实现医疗保险的欺诈发现.ppt
- 附件1 XX活动推进台账汇总表(反思问题短板).docx
- DQB26-2014党建创新工作室管理办法.docx
- 非公经济党建实务 (1).ppt
- 国家安全教育大学生读本高教2024版课件第二章在党的领导下走好中国特色国家安全道路.pptx
- 国家安全教育大学生读本高教2024版课件第三章更好统筹发展和安全.pptx
- 国家安全教育大学生读本高教2024版课件第二章在党的领导下走好中国特色国家安全道路.pdf
- 国家安全教育大学生读本导论三个微视频高教社2024年8月版.pptx
- 国家安全教育大学生读本电子版教材导论高教社2024年8月版.docx
- 国家安全教育大学生读本电子版教材导论高教社2024年8月版.pdf
- 国家安全教育大学生读本高教2024版电子版教材第五章坚持以政治安全为根本.pdf
- 国家安全教育大学生读本高教2024版课件第九章筑牢其他各领域国家安全屏障 - 副本.pptx
- “优秀支部工作法”—市疾控中心行政党支部 2018.06.04.docx
- 廉政建设课件(褚进前).pptx
文档评论(0)