基于Spark Streaming增量协同过滤算法.docVIP

下载本文档

27
0
约6.42千字
约 11页
2018-12-01 发布于福建
举报
版权申诉

基于Spark Streaming增量协同过滤算法.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Spark Streaming增量协同过滤算法

基于Spark Streaming增量协同过滤算法　　摘要：针对协同过滤算法处理大数据流时响应慢的缺陷，在改善推荐准确度的情况下，提出增量更新算法以加快响应速度，提高推荐系统性能。介绍了当前协同过滤算法以及KNN和Spark的相关知识，阐述了协同过滤算法的增量模型。采用Group Lens网站提供的Movie Lens数据集作为实验数据，应用Socket模拟流和Spark并行计算技术实现增量模型。实验结果显示，在保证推荐准确度的前提下，响应时间明显缩短，说明增量模型适合实时处理大数据流，可缓解数据处理不及时问题。　　关键词：协同过滤；推荐系统；增量计算；实时流计算；Spark Streaming 　　DOI：10.11907/rjdk.173047 　　中图分类号：TP312 　　文献标识码：A 文章编号：1672-7800（2018）006-0088-04 　　Abstract：Because of the slow response of collaborative filtering algorithm in dealing with large data streams， this paper presents an incremental updating algorithm to speed up the response times and improve the recommendation system performance under the condition of guaranteeing the accuracy of recommendation. Firstly， this paper presents the background and purpose of the study， and then introduces the current collaborative filtering algorithm and its related knowledge of KNN and Spark. Secondly， the incremental model of collaborative filtering algorithm is proposed . Finally， we used Movie Lens dataset provided by Group Lens website was used as the experimental data source， with Spark Stream to receive stream data from Socket and Spark to parallel computing increment data . The experimental results showed that in the case of reliable recommendation accuracy， response times is significantly improved and it proves that the incremental model proposed in this paper is very suitable for real-time processing of large data stream to alleviate the problem of no timely processing data. 　　Key Words：collaborative filtering； recommender system； incremental computing； real-time stream computing； Spark streaming 　　0 引言　　在大数据流环境下，各大电子商?胀?站都希望及时捕获、分析处理用户的偏好信息，及时响应用户的兴趣变化，给用户推荐喜欢的商品。以前一般是进行批量或小批量的全量分析，这样响应时间明显滞后于用户喜好的变化。目前推荐系统算法一般分为基于内容的推荐算法[1]、协同过滤推荐算法[2]以及混合推荐算法[3]3类，其中协同过滤推荐算法提出最早、应用范围最广。因此，本文针对该算法进行改进，在保证推荐准确度的前提下提出增量模型，解决推荐延迟或响应慢的问题。　　1 协同过滤算法与实时流计算　　1.1 协同过滤算法　　协同过滤算法一般分为基于内存的协同过滤和基于模型的协同过滤。基于内存的协同过滤比较简单、高效，但遇到大规模数据时难以扩展、响应时间相对滞后。基于模型的协同过滤运用机器学习算法离线训练数据获得适当的模型，然后应用到实际场景中，这样不