基于Hadoop和MahoutASUCF算法并行化研究.docVIP

下载本文档

3
0
约7.47千字
约 14页
2018-08-28 发布于福建
举报
版权申诉

基于Hadoop和MahoutASUCF算法并行化研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop和MahoutASUCF算法并行化研究

基于Hadoop和MahoutASUCF算法并行化研究　　摘要：针对高效的协同过滤推荐技术处理大数据时的计算效率问题，提出了并行计算的ASUCF算法。该算法采用Hadoop平台的MapReduce并行编程模型，改善大数据环境下高效的CF算法在单机运行时的计算性能问题。最后在实验部分，结合Mahout，实现ASUCF算法的并行化，设计不同数据集上的加速比实验，验证算法并行化后在大数据环境中具有较好的计算性能。　　关键词：协同过滤；计算效率；加速比；Hadoop；Mahout 　　中图分类号：TP391 文献标识码：A 　　文章编号：2096-1472（2016）-06-17-04 　　Abstract：Aiming to solve the CFs （Collaborative Filtering） computing efficiency problem in big data processing，the paper proposes parallel ASUCF（Average Similarity of User-Item Collaborative Filtering） algorithm.It applies the MapReduce parallel-programming model in Hadoop platform，which improves the CFs computational efficiency in big data processing on a single PC.Combined with Mahout，the parallelization of ASUCF is achieved.The paper designs speedup experiments on different data sets.The experiment results prove that the parallel algorithm brings out better computing performance in big data processing. 　　Keywords：collaborative filtering；computing efficiency；speedup；Hadoop；Mahout 　　1 引言（Introduction）　　互联网时代，网络资源纷杂，信息过载，个性化推荐成为缓解用户在网络中的信息迷茫问题的重要途径[1]。在多项目、多领域的推荐中，因不依赖用户或项目内容，具有较好通用性的协同过滤算法[2]成为较为成功的推荐技术，其改进因而也受到广泛关注。然而，改进的算法通常是以牺牲计算效率换取计算准确度的提升。随着大数据时代的来临，解决计算效率的问题也迫在眉睫。由于单机模式的计算能力有限，而分布式计算具有多资源、可扩展、高效计算等优势，所以用分布式计算实现高效的CF算法，既能提高推荐准确度，又能保证计算效率。目前主要使用云计算平台Hadoop实现算法的并行化，如文献[3―8]等是通过将算法移植至Hadoop，以得到高计算性能的算法。　　本文将基于平均相似度的协同过滤推荐算法（Average Similarity of User-Item Collaborative Filtering，简称ASUCF）与开源分布式平台Hadoop结合，改写Mahout中Item-based CF分布式实现，研究ASUCF算法的并行化，探索其MapReduce过程设计，并通过在不同规模的数据集上实验，比较单节点计算与多节点计算在计算效率上的差别，证明并行化后的ASUCF算法在计算效率上的优势，更能适应大数据环境。　　2 Hadoop平台及ASUCF算法并行化分析（Hadoop and analysis of ASUCF in parallel）　　2.1 ASUCF算法概述　　文献[9]详细描述了ASUCF算法，并通过实验证明推荐准确度的提高，在此对其简单描述，为后续的并行化分析作铺垫。ASUCF为避免矩阵预处理带来的偏差，改进的算法回归到最原始的评分矩阵，从用户行为分析、项目行为分析，引入平均相似度，将计算预测评分分解成用户角度的预测和项目角度的预测两部分，综合两部分后得到最终的用户对项目的预测评分。　　用户的项目平均相似度和项目的用户平均相似度计算分别如式（1）和式（2），和分别表示用户已评分项目的集合，对项目已评分的用户集合：　　综合用户、项目两方面，引入UAS、IAS，则目标用户对目标项目的预测评分如式（3）所示。　　2.2 Hadoop简介　　Hadoop起源于Apache公司的Lucene和Nutch项目[10]，是谷歌云