基于交集占比与时间衰减协同过滤算法研究.docVIP

下载本文档

4
0
约4.64千字
约 10页
2018-08-28 发布于福建
举报
版权申诉

基于交集占比与时间衰减协同过滤算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于交集占比与时间衰减协同过滤算法研究

基于交集占比与时间衰减协同过滤算法研究　　摘要摘要：针对传统协同过滤算法中存在的数据稀疏和用户兴趣变化问题，提出一种改进的协同过滤推荐算法（IPTDCF）。在用户相似度计算中融入评分交集项目占比因子，针对用户兴趣变化问题在评分预测计算中融入时间衰减函数，提高推荐算法的准确性。仿真实验表明，改进后的算法在推荐准确度上优于传统算法。　　关键词关键词：协同过滤；IPTDCF；交集占比；时间衰减　　DOIDOI：10.11907/rjdk.171066 　　中图分类号：TP312 　　文献标识码：A文章编号文章编号2017）005002403 　　0引言　　推荐系统近年来得到了广泛应用，但也面临很多问题，如用户兴趣变化、数据稀疏性问题等。传统推荐算法在计算用户相似度中时的参考集合由于只选用两用户共同评分的项目，而忽略了两用户均未评分和单一用户评分的项目，这样求得的用户相似度只能片面反映用户兴趣，且没有考虑用户兴趣变化问题。早期研究在用户兴趣变化方面有所涉及，比如张磊[1]提出了基于遗忘曲线规律进行时间衰减，得到有效评分矩阵再进行推荐算法；孙智聪[2]提出了一种基于记忆激活理论的协同过滤算法，给出重复学习后的兴趣最大值计算方法；胡伟健等[3]提出了一种改进的欧式距离相似度度量方法和时间信息模拟用户兴趣变化的方法等。虽然上述算法考虑了用户兴趣变化，但在推荐准确性上仍有优化空间。　　本文引入评分交集项目占比因子优化用户相似度计算方法，引入时间衰减函数解决用户兴趣变化问题，提出改进算法，提高推荐算法的准确性。　　1改进算法描述　　UBCF算法首先计算用户间相似度，主要方法有皮尔逊相关系数相似度计算方法、欧氏距离相似度计算方法、余弦相似度计算方法等。其中，皮尔逊相关系数相似度计算方法如下：　　1.1改进的项目占比因子　　项目评分是用户兴趣的直接反映，用户可以有多种兴趣。实际中，两位用户可能仅在个别兴趣爱好上是相同的，反映在评分上为两位用户的评分项目交集远小于各自评分项目数。如图1所示，图中项目交集I是传统用户相似度计算方法的取值范围，项目交集中可能是当前热门项目，也可能是两用户共同的兴趣爱好。以MovieLens中数据量为100k大小的数据集为例，用户181对435个项目进行了评分，用户600对89个项目进行了评分，而两用户共同评分的项目仅有1个；用户181对435个项目进行了评分，用户766对175个项目进行了评分，而两用户共同评分的项目仅有1个。另外，也有可能评分项目较多的用户覆盖了评分较少用户的几乎所有项目，如图2所示。同样以上述数据集为例，用户13对636个项目进行了评分，用户814对35个项目进行了评分，并且这35个项目恰好也被用户13评价过；用户655对685个项目进行了评分，用户111对24个项目进行了评分，并且这24个项目恰好也被用户655评价过。显然，这两种情况下仅考虑用户评分项目交集而忽略大部分非交集评分项目，在衡量用户兴趣时是片面的，不能准确得出用户兴趣。因此，在用户相似度计算时考虑引入交集项目在用户所有评分项目中的占比，对皮尔逊相关系数计算公式进行改进，改进如公式（3）所示。　　其中，a表示一个很小的常量，其作用是避免出现分母为0的情况。prop（u，v）为项目占比因子，表示用户u和用户v共同评分项目数在各自评分项目数之和中所占的比例，如公式（4）所示，取值范围[0，1]，两用户项目交集数越多，其值越大，对相似度的削减力度越小，相应的sim值越大，表示两者越相似。当两用户评分项目完全相同时prop（u，v）值为1，表示两用户所有已评分项目均参与到用户相似度计算中，当两用户评分项目没有交集时prop（u，v）值为0。　　prop（u，v）=2×num（I（u）∩I（v））num（I（u））+num（I（v））（4）　　其中，I（u）表示用??u评分的项目，I（u）∩I（v）表示用户u和用户v共同评分的项目交集，num（I（u））表示用户u评分项目个数，num（I（u）∩I（v））表示共同评分项目交集的个数。　　1.2改进的时间衰减函数　　项目评分是用户对项目在当前时间喜好程度的直观体现，而人脑对事物的记忆符合艾宾浩斯遗忘规律，即新生事物在大脑中的遗忘速度遵循先快后慢，最终趋于稳定的变化规律。用户对项目的喜好程度也会随着这样的记忆规律而发生变化，在传统预测评分中并没有体现出这一变化，由此在预测评分方法中增加时间衰减函数，当预测评分和近邻用户对该项目评分时间差越小，近邻用户实际评分对预测评分的影响越大，衰减越弱，改进如公式（5）所示。　　pred（u，i）=ru+∑v∈Psim（u，v）×（rvi-rv）×f（tui，tvi）∑v∈Psim