- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
赛题一面向大数据的高效关联规则推荐算法-全国高校云计算应用
第四届全国高校云计算应用创新大赛 技能赛赛题一
赛题一:面向大数据的高效关联规则推荐算法
1 题目描述
关联规则最早应用于购物篮分析(Market Basket Analysis),可揭示一组经常被
一起购买的商品,因此自然而然地成为一种简明且可解释性极佳的推荐模型。关
联规则推荐可能难以获得像基于奇异值分解的协同过滤这类复杂模型的精准度,
但这并没有妨碍关联规则推荐方法的实用性。大量电子商务网站将基于关联规则
的方法作为其商用推荐引擎,比如:YouTube 使用关联规则推荐视频、淘宝和亚
马逊网站上的“购买此商品的顾客也同时购买”及“经常一起购买的商品”等推荐
方式也依托于关联规则构建。
由于频繁模式的反单调性,一个频繁模式包含很多频繁子模式,而一个频繁模
式也能导出多个关联规则,因此关联规则数量巨大 (频繁模式、频繁子模式以及
关联规则的定义可参考书籍[1][2]第6 章)。同时,在实际电子商务网站上,用户
并发访问量极高,据统计,淘宝并发在线用户经常高达千万。为如此大量在线用
户搜索候选规则的计算效率成为制约关联规则推荐实际应用的瓶颈问题,尤其是
用户浏览和购买记录动态变化,推荐结果需实时生成的情形。
已有的大量研究工作大多聚焦在关联规则推荐的准确性上,本题目试图唤起
研究者对关联规则推荐的可扩展性(Scalability) 问题的重视,响应大数据时代的挑
战,增强关联规则推荐的实用性。
1.1 本题所使用的关联规则推荐算法
由于推荐的准确率并非本题关注的焦点,因此,我们选择一种最简明易懂的
推荐分值计算方案,即:最高置信度(confidence)作为候选项分值,置信度的定义
参考书籍[1][2]第 6 章。值得注意地是,利用其它指标或多个指标作为候选项推
荐分值依据,与简单利用最高置信度具有类似的过程。因此,针对本题所设计的
高效关联规则框架能够轻松地扩展至其他不同的关联规则推荐方法。下面分步介
绍本题的基础假设:
A. 频繁模式挖掘
设给定购物篮数据集(Market-Basket Database) D ,记录和项的定义可参
考书籍[1][2]第6 章。利用Apriori 、FP-growth 或其他同功能算法可挖掘
到在给定最小支持度阈值min_supp 约束下的频繁模式集合P={P , P , …,
1 2
第四届全国高校云计算应用创新大赛 技能赛赛题一
P }。注意:这步将列入考核步骤,(1) 给定min_supp 后频繁模式集合
s
P 的准确性(是否遗漏或多余);(2) 挖掘的时间算作完成关联推荐的一
部分。
B. 关联规则生成
面对推荐需求,假设关联规则的后项仅包含 1 个项目(即作为候选推
荐项),而关联规则前项包含该频繁模式剩余所有项目。不失一般
性,设任意频繁模式P ={i ,i ,…,i },|P |为模式j 包含的项目数量,
j j 1 j 2 j |Pj | j
则P 可生成|P |条关联规则:R :A →i ,1≤k≤|P |,A =P / {i }。
j j jk jk jk j jk j jk
C. 关联规则匹配
给定等待推荐的用户概貌(User Profile)集合U,其中每个用户概貌为项
目的集合,设为T ,一条关联规则R 能为T 产生候选项,需满足:(1)
u jk u
规则前项A 被T 包含;且(2)后项i 不被T 包含。对T
文档评论(0)