基于支持向量机回归的协同过滤相似度优化方法.docVIP

下载本文档

1
0
约4.48千字
约 7页
2016-09-19 发布于北京
举报
版权申诉

基于支持向量机回归的协同过滤相似度优化方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于支持向量机回归的协同过滤相似度优化方法.doc

基于支持向量机回归的协同过滤相似度优化方法　　[摘要] 在基于属性相似性的协同过滤算法中，项目属性之间相似性的度量是整个算法的关键。现有算法在计算项目属性相似度时忽略了项目属性之间的非线性关系，导致相似性度量不准确，无法保证项目推荐精度。针对这一问题，本文提出一种基于支持向量机回归的协同过滤相似度优化方法，该方法利用支持向量机回归算法来构建项目属性相似度模型，解决项目属性的非线性关联问题，改善项目属性相似度计算。实验结果表明，优化方法计算出的项目相似性更准确，显著提高了系统的推荐质量。　　[关键词] 支持向量机回归；项目属性相似性；协同过滤　　doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2015. 05. 109 　　[中图分类号] TP311 [文献标识码] A [文章编号] 1673 - 0194（2015）05- 0227- 04 　　0 引言　　协同过滤推荐是当前最成功的推荐技术之一[1]，根据过滤操作对象的不同，协同过滤算法可以分为基于用户（User-based）[2]和基于项目（Item-based）[3]的算法。User-based协同过滤算法随着数据的不断增多，要从大量用户中寻找最近邻居用户的问题成为推荐系统发展的瓶颈，而Item-based协同过滤算法通过将计算用户之间的相似性转换为计算项之间的相似性的方法，有效地解决了这一问题。在Item-Based协同过滤算法中，项目之间相似性的度量是否准确，直接关系到整个推荐系统的推荐质量。而实际上，由于系统用户评分数据的极端稀疏性，传统的相似性度量方法存在着一定的弊端，系统的推荐精度往往会很低。为了提高系统推荐精度，一些研究者们对项目相似性计算方法进行了改进。根据项目属性相似度和用户评价相似度，计算项目之间的综合相似度，但项目属性相似度的计算公式只简单考虑两个项目间相同的属性数，未考虑项目属性的重要性差异。因此将项目属性相似度和项目评分相似度的线性组合作为最终邻居相似度，在计算项目属性向量的相似度时，使用加权计算来解决项目属性的重要性差异问题。以上算法的核心就是用基于项目属性的相似性来改进传统Item-Based协同过滤中目标项目的最近邻居项目集的查找，项目属性相似度的计算是这类改进方法的关键。但是，目前基于属性相似性的Item-Based协同过滤算法将项目属性之间的复杂关系进行了简单的线性化处理，忽略了项目属性的非线性关系，在一定程度上影响了算法的效能。　　Vapnik 等人根据统计学习理论提出的支持向量机（Support Vector Machine，SVM） [7] 方法具有诸多的优良特性，近年来引起了广泛的关注，SVM方法最早是针对模式识别问题提出的，Vapnik通过引入不敏感损失函数，得到了用于回归估计的SVM方法，称为支持向量机回归（Support Vector Regression，SVR） [8]，SVR方法被引入非线性回归领域，显示了其巨大威力[9，10]。本文利用支持向量机回归算法的回归能力，解决项目属性的非线性关联问题。实验结果表明，本文所提的算法大幅提高了推荐算法的精确度。　　1 支持向量机回归　　一般的回归问题可表述为：给定l个训练样本，学习机从中学习出输入、输出变量之间的关系（依赖关系、映射关系、函数关系） f（x）。考虑一个训练样本数据集{（x1，y1），…，（xl，yl）}。对于i=1，…，l其中xi∈Rn每个代表了样本的输入空间，存在一个目标值yi∈R与其相对应。回归问题的思想就是从中学习出一个函数，能够精确地估计未来值。　　在公式（5）中，点积可以用核函数k（xi，x）来代替。核函数能够在不知道变换具体函数的情况下，使用低维空间的数据输入来计算高维特征空间中的点积。通常使用的核函数包括线性函数、多项式函数以及RBF等。　　2 基于支持向量机回归的相似度优化方法　　2.1 项目的特征属性　　一般来说，推荐系统至少存在3个基本数据表，一个用来记录注册用户信息，一个用来记录项目信息，还有一个记录用户的评分信息（记为用户评分表）。通过对记录项目信息表的整理可以得到项目特征属性矩阵A。假定接受评分的项目数是n，每个项目挑选k个具有代表性的属性描述，在此将其抽象为{ Attr1， Attr2，…， Attrk}。见表1，项目属性矩阵A（其中1表示某个项目具有某项属性，0表示某个项目不具有某项属性），项目特征属性的抽取可以从项目的简介网页中提取，或者从推荐系统中用来记录项目信息的表中整理得到。　　3 实验及分析　　3.1 数据集　　数据集取自MovieLens数据集[11]，该数据集由明尼苏达大学GroupLens研究小组