全国高校云计算应用创新大赛南京大学和南京邮电大学技能赛赛题1赛题一-面向大数据的高效关联规则推荐算法.pptxVIP

全国高校云计算应用创新大赛南京大学和南京邮电大学技能赛赛题1赛题一-面向大数据的高效关联规则推荐算法.pptx

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
全国高校云计算应用创新大赛;;一.赛题描述 关联规则:最早应用于购物篮分析(Market Basket Analysis),用来揭示一组经常被 一起购买的商品,目前,成为一种简明且解释性极佳的推荐模型。 推荐精度:与基于奇异值分解的协同过滤的复杂模型相比,它难以获得与其相同的推荐精准度, 但是,关联规则推荐方法仍然具有很高的实用性。 应用举例:YouTube 使用关联规则推荐视频、淘宝和亚马逊网站上的“购买此商品的顾客也同时购买”及“经常一起购买的商品”等推荐方式也依托于关联规则构建。;频繁模式:它具有反单调性,一个频繁模式包含很多频繁子模式,而一个频繁模式也能导出多个关联规则,因此,关联规则数量巨大。 计算效率:电子商务网站的用户并发访问量非常高:淘宝并发在线用户通常高达千万,因此,大量在线用户搜索候选规则的计算效率已成为制约利用关联规则进行推荐能否达到实用的瓶颈问题。 赛题目的:目前,关联规则的研究大多聚焦在推荐的准确性上,本赛题的目的就是唤起对关联规则推荐的可扩展性(Scalability)问题的重视,响应大数据时代的挑 战,增强关联规则推荐的实用性。 ;二、赛题关联规则算法 赛题焦点:本赛题的焦点是不关注推荐的准确率。因此,选择一种最简明易懂的推荐分值计算方案,即:最高置信度(confidence)作为候选项分值,利用其它指标或多个指标作为候选项推荐分值依据。本赛题所设计的高效关联规则框架应能够轻松地扩展至其他不同的关联规则推荐方法。 赛题假设: A 频繁模式挖掘:设给定购物篮数据集(Market-Basket Database) D,利用 Apriori、FP-growth 或其他同功能算法可挖掘到在给定最小支持度阈值 min_supp 约束下的频繁; 模式集合 P={P1, P2,…, 第四届全国高校云计算应用创新大 赛技能赛赛题一 Ps}。注意:这步将列入考核步骤,(1) 给定 min_supp 后频繁模式集合 P 的准确性(是否遗漏或 多余);(2) 挖掘的时间算作完成关联推荐的一 部分。 B 关联规则生成:面对推荐需求,假设关联规则的后项仅 包含 1 个项目(即作为候选推荐项),而关联规则前项 包含该频繁模式剩余所有项???。不失一般性,设任意频 繁模式 Pj={ij1,ij2,…,ij|Pj|},|Pj|为模式 j 包含的项目数量, 则 Pj 可生成|Pj|条关联规则:Rjk:Ajk→ijk,1≤k≤|Pj|, Ajk=Pj/{ijk}。 C 关联规则匹配:给定等待推荐的用户概貌(User Profile)集; 合 U,其中每个用户概貌为项 目的集合,设为 Tu,一条 关联规则 Rjk 能为 Tu产生候选项,需满足:(1) 规则前项 Ajk 被 Tu 包含;且(2)后项 ijk 不被 Tu包含。对 Tu 有用的关 联规则集合可形式化为: Ru={Rk:Ak→ik|Ak?Tu,ik?Tu,Rk?R}。 D 推荐分值计算:每条 Ru 中的规则必会为 Tu 带来一个推荐 候选项 ik,ik 的推荐分值为所有以 ik 为后项规则的最大置 信度,最后将 Tu 所有推荐候选项以推荐分值由大至小排 序,取 Top-N 的项作为最终推荐列表。Rjk 置信度计算为: conf(??????) = ????????(???? ) /????????(??????) (1) 其中,supp 表示支持度计数。;赛题任务:赛题给定购物篮数据集 D 和活跃用户数据集 U,编写 Spark 程序,以支持度阈值 min_supp=9.2%从数据集 D 中挖掘频繁模式(步骤 A),然后将关联规则与 数据集 U 中的用户概貌进行匹配并计算出每个用户的推荐项目(步骤 D)。为简单起见,赛题仅要求给出置信度最大的项(即 Top-1 项)作为推荐结果,如果置信度最大的项有多个,则给出编号最小的项作为结果。如果某用户没能产生推荐项(即没有关联规则与其概貌匹配),则以 0 作为结果。 数据集说明:购物篮数据集 D 中的每一行表示一个记录(或称之为事务,transaction),记 录中项目以空格分隔。;数据的规模如表 1 所示,整理过的数据集请至大赛官方 网站下载。 表 1 购物篮数据集 D 规模 活跃用户数据集 U 中每一行表

您可能关注的文档

文档评论(0)

189****0315 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档