矩阵的解析.docVIP

下载本文档

5
0
约5.57千字
约 9页
2017-02-15 发布于江苏
举报
版权申诉

矩阵的解析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

矩阵的解析

矩阵分解是最近几年比较火的算法，经过kddcup和netflix比赛的多人多次检验，矩阵分解可以带来更好的结果，而且可以充分地考虑各种因素的影响，有非常好的扩展性，因为要考虑多种因素的综合作用，往往需要构造cost function来将矩阵分解问题转化为优化问题，根据要考虑的因素为优化问题添加constraints，然后通过迭代的方法进行矩阵分解，原来评分矩阵中的missing vlaue可以通过分解后得到的矩阵求的。本文将简单介绍下最近学习到的矩阵分解方法。（1）PureSvd 怎么评价这种方法呢？开始觉得这种方法很神奇很数学，而且在实际使用的时候也非常好用。但最近读了Yehuda大神的paper之后，觉得这种方法比较猥琐。其实，矩阵分解的核心是将一个非常稀疏的评分矩阵分解为两个矩阵，一个表示user的特性，一个表示item的特性，将两个矩阵中各取一行和一列向量做内积就可以得到对应评分。那么如何将一个矩阵分解为两个矩阵就是唯一的问题了。说到这里大家就可能想起了在线代和数值分析中学到的各种矩阵分解方法，QR，Jordan，三角分解，SVD。。。这里说说svd分解。 svd是将一个任意实矩阵分解为三个矩阵U,S,V，其中，U,V是两个正交矩阵，称为左右奇异矩阵，S是个对角阵，称为奇异值矩阵。其实svd分解的问题可以化解为特征值分解的问题。评分矩阵A(m*n)=U(m*k)*S(k*k)*V(k*n) 令B(m*m)=A(m*n)*A(n*m) B矩阵就是一个方阵，可以利用各种简单的方法将B进行特征值分解： Bv=av， v是方阵B的特征向量，a是特征向量v对应的特征值。所以奇异值s=sqrt(a)，左奇异向量u=A*v/s 同样的方法可以求得右奇异向量。这样我们就得到了svd分解后的三个矩阵。（你可以自己写个c程序计算，当然也可以用matlab算算得到）分解后的三个矩阵都有着各自的意义， U：每一行表示一个user的特征。 V：每一列表示一个item的特征。 S：表示对应的user和item的相关性。所以可以考虑用U和V将S吸收进来，形成两个矩阵分别表示user的矩阵和item的矩阵。得到这个以后后面的事情就好办了。为什么说这个方法猥琐呢？因为我觉得，这种方法有着矩阵分解算法的表，却可以非常简单地完成矩阵的分解，然后填充稀疏的评分矩阵。但它考虑的因素太少了，不过对于简单的推荐系统，这种方法还是非常有意义的，容易实现，而且结果也不会太差。（2）Latent Factor Model 这是真正的矩阵分解算法，经过实践检验，具有非常高的准确性和易扩展性。正如上面提到的，实现推荐系统结果的目标是将那个稀疏的评分矩阵分解成两个矩阵，一个表示user的feature，一个表示item的feature，然后做内积得到预测。当然要实现满足一定约束条件的矩阵分解，可不像上面的PureSVD那样容易，需要构造一个优化问题，用一些复杂的算法求解优化问题。而这些优化问题往往是NP问题，只有局部最优解。首先构造一个优化目标函数，考虑到最后的评价指标是预测分值和实际分值之间的误差的平方（RMSE），所以构造的目标函数也是误差的平方的函数。为什么这样的算法可以得到更优的结果呢？因为算法可以很容易地扩展很多的feature进来，更加出色地考虑了多种影响推荐效果的实实在在的因素。 ? Biases 因为有的用户总是会打出比别人高的分，或者说有的用户他的评价尺度比较宽松；同样有的item总是被打高分。这是一个普遍存在的问题，所以在构造目标函数的时候需要增加几项：所有评分的平均值miu，user的偏见分数bu，item的偏见分数bi。比如：求用户x对电影y的打分，所有评分电影的评分的平均分是miu=3.5，电影y比所有评分电影平均分高bi=0.5 但是用户x是个比较严格的用户，评分总是相对偏低，所以bu=-0.3 所以用户x对电影y的打分为3.7 Implicit feedback 用户在使用web应用的时候，会产生大量的行为，充分挖掘这部分的价值，将会很好地提升推荐的效果。利用用户的隐式反馈，相当于充分的利用了评分矩阵中的missing value的价值，用户在页面的停留时间，检索，浏览，点击等等各种行为都可以建模，内含到目标函数中。这里，可以将简单地用一个Boolean来描述一种行为有还是没有。不过在使用的时候，需要进行归一化处理。 User-associated attributes 基于用户的社会化属性进行推荐也是一种很基本的推荐，当然也可以考虑到目标函数中。 Temporal dynamics 用户的兴趣包括长期和短期，动态地考虑一段时间内用户的兴趣是很有必要的。上面的几个因素中随着时间变化的有