基于Hadoop的用户个性化推荐研究-计算机科学与技术专业论文.docxVIP

下载本文档

29
0
约5.96万字
约 72页
2019-02-13 发布于上海
举报
版权申诉

基于Hadoop的用户个性化推荐研究-计算机科学与技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop的用户个性化推荐研究-计算机科学与技术专业论文

万方数据万方数据独创性声明本人声明，所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：日期：学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定，即学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人承诺所提交的学位论文（含电子学位论文）为答辩后经修改的最终定稿学位论文，并授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索，可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文，并向社会公众提供信息服务。（保密的论文在解密后应遵守此规定）研究生（签名）：导师（签名）：日期：摘要个性化推荐系统是针对每个用户的不同需求，提供满足他们偏好和兴趣的信息，在应用初期取到了不错的效果，但随着大数据时代的来临，带来了信息超载问题，传统的个性化推荐系统也面临着诸多挑战，如推荐时间过长、精准度不高和扩展比较困难等问题。除了单纯的寻找更加高效的推荐算法，推荐系统服务器性能提升也是要考虑的问题。为了应对海量数据处理提供高效的服务，已经提出了若干基于分布式的系统解决方案。而 Hadoop 正是这样一个高效的、可拓展的分布式计算平台，因此可以将推荐系统应用于 Hadoop 中，以应对大数据提供高质量的推荐服务。本文的主要研究工作如下： 1、本文对个性化推荐系统的结构、主流推荐算法和常用评价指标进行分析，结合目前面临的挑战引出了基于 Hadoop 构建个性化推荐系统的意义。然后对 Hadoop 的关键技术进行了研究。 2、具体研究了基于用户的和基于项目两种协同过滤算法，然后分析了传统协同过滤算法存在的问题，提出基于矩阵填充和时间上下文的推荐算法。针对数据稀疏性问题，提出采用矩阵填充的手段进行缓解；考虑到用户兴趣随着时间推移而慢慢发生变化，引入时间上下文因素，进行预测评分时，加入时间函数权重，突出用户最近行为对用户兴趣变化的影响。最后结合 Hadoop 平台特点，通过 MapReduce 编程模型对该算法实现并行化。 3、对本文提出的改进算法进行实验，测试三种相似度计算方法的优劣，然后比较在不同邻居数和数据稀疏性条件下三种算法的性能差异。 4、针对于提出的算法设计并实现了基于 Hadoop 的个性化电影推荐原型系统。详细的描述了每个功能模块的作用，最后介绍了该原型系统的推荐流程。本文提出的基于矩阵填充和时间上下文的推荐算法可以提高推荐质量，在一定程度上缓解数据稀疏性问题，并行化的算法在 Hadoop 集群中运行时，面对大规模数据集也表现出良好的性能。关键词：推荐系统，Hadoop，协同过滤，矩阵填充，时间上下文 I 万方数据万方数据 Abstract The personalized recommendation system can provide the goods to meet the preference and interest of each user.The system get significant effect at the beginning,but the problem of information overload has appeared with the coming of the big data.The traditional personalized recommendation system faces many challenges,such as the recommended time is too long,the accuracy is not good and bad scalability issues. Except to explore more efficient recommendation algorithm,it is also another important issue to consider that the improvement of the performance of the server.In order to deal with huge amounts of data,some people have put forward several solution based o