- 1、本文档共92页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于mapreduce的协同过滤算法并行化研究-计算机技术专业论文
分类号: TP391 密级:
U D C: 004 编号: 201232103002
河北工业大学硕士学位论文
基于 MapReduce 的协同过滤算法并行化研究
论 文 作 者:
武 鑫
学
生
类
别:
全日制
专业学位类别:
工程硕士
领
域
名
称:
计算机技术
指 导 教 师:
许智宏
职
称:
副教授
Dissertation Submitted to HeBei University of Technology
for
The Master of Engineering Degree of Computer Technology
PARALLELIZATION RESEARCH ON COLLABORATIVE FILTERING ALGORITHM BASED ON MAPREDUCE
By Wu Xin
Supervisor: Associate Prof. XU Zhihong
November 2014
原创性声明
本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所 取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何 他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研 究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原 创性声明的法律责任由本人承担。
学位论文作者签名: 日期:
关于学位论文版权使用授权的说明
本人完全了解河北工业大学关于收集、保存、使用学位论文的规定。同意如下各 项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的 印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权 提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向 国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学 校可以适当复制论文的部分或全部内容用于学术活动。
(保密的学位论文在解密后适用本授权说明)
学位论文作者签名: 日期:
导 师 签 名: 日期:
摘要
摘
要
互联网的迅猛发展将人们带入了大数据时代,海量信息资源为人们带来信息便捷
的同时,也使人们不得不面对信息超载的问题。推荐系统是继搜索引擎后又一种解决 信息超载的有效手段,它通过搜集用户的历史信息对用户的兴趣建模,根据一定的推 荐算法来为用户产生推荐。协同过滤算法作为目前应用于推荐系统最成功的技术,在 学术研究和实际生产中取得了长足的进步。
针对大数据环境下协同过滤算法存在的稀疏性、推荐不准确以及不能处理海量数 据的问题 , 本 文 提 出 了 一 种 分 层 的 联 合 聚 类 协 同 过 滤 推 荐 算 法 (A Hierarchical Co-clustering Collaborative Filtering,简称 AHCCF),并且结合 Hadoop 的 MapReduce 编程模式实现了算法的并行化,主要工作如下:
1. 对推荐系统进行了深入的研究,包括理论、原理、推荐技术,对比了各种推荐 技术的优劣,在此基础上,对协同过滤技术做了详细的分析和研究。
2. 针对数据稀疏性对协同过滤相似性计算的影响以及推荐结果不准确的问题,在 皮尔逊相关系数的基础上,引入评分密集度、K-means 聚类、联合聚类、判断矩阵、 层次分析模型等理论,运用层次分析模型结合用户和项目的潜在类别,对协同过滤算 法 的 相 似性 计 算过 程进 行 改 进, 提 出 了 一种 分 层 的联 合 聚类 协同 过 滤 推荐 算 法 (AHCCF)。采用 MovieLens 数据集进行了一系列对比实验,实验结果表明,该算法能 够有效降低数据的稀疏性,提高推荐的准确度。
3. 研究了大数据处理框架 Hadoop 的运行机制及其核心组成——MapReduce 编程 模式,用 MapReduce 设计并实现 K-means 聚类算法和基于项目的协同过滤推荐算法, 证明了这两种算法的可并行化。
4. 针对大数据对协同过滤推荐算法可扩展性的影响,将这两种并行化的算法应用 到一种分层的联合聚类协同过滤推荐算法(AHCCF)中,实现了 AHCCF 算法的并行化, 将并行化的算法部署在 Hadoop 集群上,有效地改善了算法吞吐量小和计算时间长的 问题。实验结果表明,并行化的 AHCCF 算法具备处理大数据的能力,并且取得了良 好的加速比,能够明显地提高推荐的效率。
关键词:推荐系统 协同过滤 MapReduce 联合聚类 层次分析模型
i
PAGE
PAGE iv
iii
iii
ABSTRACT
With t
您可能关注的文档
- 基于onvif标准的一体化智能网络相机的设计与应用-控制工程专业论文.docx
- 基于powerpc处理器mesh节点实验平台的设计与开发-电子与通信工程专业论文.docx
- 基于pon的光纤实时以太网硬件设计与实现-电磁场与微波技术专业论文.docx
- 基于petri网的一种新的工作流模型描述方法的研究与实现-计算机应用专业论文.docx
- 基于psoc3的超声电机驱动控制器的研究-测试计量技术及仪器专业论文.docx
- 基于nx的注塑模智能设计系统的研究与开发-材料科学与工程专业论文.docx
- 基于orp的carrousel氧化沟脱氮除磷联动调控生产性试验分析-环境工程专业论文.docx
- 基于php的实验室公共服务系统的设计与实现-电子与通信工程专业论文.docx
- 基于pci总线的光纤数据传输系统研究-机械电子工程专业论文.docx
- 基于openflow协议的分布式sdn控制器模型的研究-通信与信息系统专业论文.docx
文档评论(0)