基于Hadoop的协同过滤推荐并行化研究_曹萍.docxVIP

下载本文档

7
0
约8.22千字
约 4页
2017-07-07 发布于浙江
举报
版权申诉

基于Hadoop的协同过滤推荐并行化研究_曹萍.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

查看更多

基于Hadoop的协同过滤推荐并行化研究_曹萍

Computer Era No. 5 2016 · PAGE 32 · 计算机时代 2016 年第 5 期 · PAGE 33 · DOI:10.16644/33-1094/tp.2016.05.008 基于 Hadoop 的协同过滤推荐并行化研究* 曹萍 (南京审计大学信息化办公室，江苏南京 211815) 摘要：针对协同过滤（CF）推荐技术处理大数据时的计算效率问题，分析了 CF 算法的并行化。并行化 CF 算法采用 Hadoop 平台的 MapReduce 并行编程模型，改善大数据环境下 CF 算法在单机运行时的计算性能。在实验部分，设计不同集群环境下的加速比实验，验证该算法在大数据环境中具有的计算性能。关键词：协同过滤；计算效率；加速比；Hadoop；大数据中图分类号：TP391 文献标志码：A 文章编号：1006-8228(2016)05-30-04 Research on parallelization of collaborative filtering recommendation based on Hadoop Cao Ping （Informatization Office, Nanjing Audit University, Nanjing, Jiangsu 211815, China） Abstract： For the computational efficiency problem existing in big data processing with collaborative filtering (CF) recommendation, parallel computing of CF is analyzed. Parallelized CF algorithm uses MapReduce parallel programming model on Hadoop platform, which improves the computational efficiency of single PC to process big data. In the experiment section, the speedup experiments in different cluster environments are designed to verify the better computing performance of the algorithm in big data processing. Key words：collaborative filtering；computational efficiency；speedup；Hadoop；Big data 0 引言互联网时代，网络资源纷杂，信息过载，个性化推荐成为缓解用户在网络中的信息迷茫问题的重要途径[1]。在多项目、多领域的推荐中，因不依赖用户或项目内容，具有较好通用性的协同过滤算法[2] 成为较成功的推荐技术，因而其改进也受到广泛关注。然而改进的算法通常是以牺牲计算效率换取计算准确度的提升。随着大数据时代的来临[3-7]，解决计算效率的问题也迫在眉睫。由于单机模式的计算能力有限，而分布式计算具有多资源、可扩展、高效计算等优势，用分布式计算实现高效的 CF 算法，既能提高推荐准确度，又能保证计算效率。目前主要使用云计算平台 Hadoop 实现算法的并行化，如文献[8-13]等是通过将算法移植至 Hadoop 得到高计算性能的算法。本文将协同过滤推荐算法与开源分布式平台 Hadoop 结合，研究协同过滤推荐算法的并行化，探索其 MapReduce 过程设计，比较单节点计算与多节点计算在计算效率上的差别，证明并行化后的算法在计算效率上的优势，其更能适应大数据环境。我们将并行化的 CF 算法简称为 PCF（CF in Parallel）。 1 CF 算法及 Hadoop 平台概述 1.1 CF 算法概述协同过滤技术的思想简单易懂，利用群体的观点为个人进行推荐，比如，日常生活中我们经常会参照身边朋友的意见或行为，购买一些商品或作出某种选择。在协同过滤技术中，用户之间是有联系的，他们可以是朋友、邻居，根据趣味相投原则，邻居用户的喜好是一致或相近的，所以，对于当前用户为其推荐邻居的偏好项目。CF

您可能关注的文档

最近下载

文档评论（0）

jiupshaieuk12 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

版权声明书

用户编号：6212135231000003

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 寻找合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录; 分享赚钱

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧，让你安心创作及上传更多优质地内容及提供知识服务！上传QQ群（最新）：751299218。
有任何问题，请随时联系智能客服，侵权专属客服QQ：2885784724！其它问题点击联系我们！本站内容，未经授权，不得采集、搬运！包括但不限于Al采集后用于训练，侵权必究！

公安局备案号:51011502000106|工信部备案号:蜀ICP备08101938号-1|ICP经营许可证/EDI许可证:川B2-20180569|公司营业执照|出版物经营许可证:成新出发高新字第046号|网信算备:510107145616301250011号
© 2010-2025 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992