基于协同过滤的智能书籍推荐系统报告方案.doc

下载文档 降价啦

44
0
约1.12万字
约 16页
2016-05-02 发布于湖北
举报
版权申诉
保障服务

基于协同过滤的智能书籍推荐系统报告方案.doc

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

评委一评分，签名及备注队号： 20038 评委三评分，签名及备注评委二评分，签名及备注选题： B 评委四评分，签名及备注题目：基于协同过滤的智能书籍推荐系统摘要随着信息技术和互联网的迅速发展，人们逐渐从信息匮乏的时代走入了信息过载的时代，对于信息消费者来说，从信息中找到自己感兴趣的信息是非常困难的事情；对于信息生产者，让自己生产的信息脱颖而出，受到广大用户的关注，也是非常困难的事情。，对每一个用户引入一个参数，对评分矩阵逐列进行线性回归，得到的矩阵再由梯度下降法优化，求得模型参数。其次，参数和两个特征进行内积，建立最终的预测书籍评分模型，并用该模型预测附件中指定的六个人对各自六种不同书籍的评分。最后，通过比较预测评分与所给评分，进行误差分析，得到模型预测值较精确。针对问题三：依据协同过滤技术，建立了协同过滤推荐模型，可给用户推荐感兴趣的书籍。首先根据问题二得到用户对书籍的评分，创建所有已有评分的系数矩阵。其次，通过比较改进的余弦相似矩阵和皮尔逊相似矩阵的值，得到被推荐用户相似性最大的若干用户。最后根据相似性最大用户所看过的书籍，给出被推荐用户感兴趣的书籍。最后，分析了模型的优缺点。本文运用协同过滤技术为对评分和书籍推荐系统进行了研究，对用户成功推荐了书籍。另外，本文建立的数学模型具有较强的“可移植性”，可推广到网络、媒体、影视等领域。关键字：主成分分析，回归预测，协同过滤，相似矩阵基于协同过滤的智能书籍推荐系统 1. 问题重述与分析随着信息技术和互联网的不断发展，大量的信息涌现在我们面前。用户面对这些信息很难找到自己真正感兴趣的内容，而信息提供商也很难把优质的信息准确传达给感兴趣的用户。因此，研究书籍评分的问题对信息提供商为用户推荐优质的图书有着非常重要的应用价值。问题一要求找出影响用户对书籍评分的因素。需要挖掘题目所给文字信息和数据库信息，对给出的数据进行合理的分析、筛选，找出可能会对书籍评分产生影响的因素，通过建立模型，研究所选因素是否能影响用户对书籍的评价。问题二要求预测predict.txt附件中的用户对未看过书籍的评分。依据第一问找出的影响用户对书籍评分的因素，作为参数，建立基于项目的评分预测模型，并求出评分。问题三要求给每个用户推荐三本没看过的书籍。从用户的角度考虑，应该关注与他兴趣爱好相似的人所看过的书籍，从中间找出评分比较高的书籍作为用户最终推荐的书籍。因此，要解决如何更好地找出与该用户相似度高的其他用户。 2. 模型假设（1）通过数据挖掘，本文仅考虑标签数、关注度、书被翻阅次数三个可能的因素，不考虑其他的因素；（2）好友关系是单向的；（3）用户没有评分的项目均将评分假设为其所在行的平均值；（4）不考虑原始数据的缺失问题。 3. 符号说明：相关系数：表示书签1，表示书签2 ：平均绝对偏差：用户和项目之间的相似度：目标用户对为未评分目标的预测分数：用户的最近邻居集合：用户和用户对项目的平均评分 4. 模型的建立与求解 4.1 基于主成分分析的去相关模型 4.1.1 相关性理论主成分分析法【1】是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。其中每个主成分都是原始变量的线性组合，各主成分之间互不相关，从而这些主成分能够反映原始变量的绝大部分信息，且所含的信息互不重叠。采用这种方法可以克服单一的理化指标不能真实反映用户对书籍评分的全面特征的缺点，引进多方面的理化指标，但又将复杂因素归结为几个主成分，使得复杂问题得以简化，同时找出更为科学、准确的影响书籍评价的因素。首先，根据题目所给数据，找出可能影响用户对书籍评分的因素即：1、某本书被用户翻阅过的次数；2、间接关注度（用户社交所体现的某本书的关系数据）；3、书籍的标签数。其次，对找出的三个因素进行整体检验，即对整个评价体系中的每一个元素(即单项评价指标)进行可行性、正确性、真实性三个方面进行分析。（所谓可行性,是指该指标的数值能否正确获得，那些无法或很难取得准确资料的指标,或者即使能取得但花费很高都是不可行的,）所谓正确性，则是指指标的计算方法和计算范围及计算内容应该科学。所谓真实性主要是分析特定综合评价数据资料的质量高低,是否符合特定综合评价方法的需要。将综合评价指标体系的度量对象划分成若干个不同组成部分或不同侧面(即子系统)，并逐步细分,直到每一个部分和侧面都可以用具体的统计指标来描述和实现。针对如何排除无关信息的干扰问题，本文采用主成分分析法中的去相关排除相关性比较大指标之间重叠度小最终得到影响。进行数据挖掘，程序语句见附录一。针对如何排除无关信息的干扰问题，采用主成分分析法中的去相关排除相关性比较大的指标来得到最终的评价指