- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
关于协同滤波算法的计算过程综述
1.1相似度公式
如果想使用系统列表算法,那么一定逃不掉相似度的类比运算。无论是基于用户还是物品,都要对用户或者物品进行相似度运算。本文选择余弦相似度做为算法基础。余弦相似度公式就是假设空间中存在两个向量,用它们在空间中的夹角的余弦值来作为评判这两个向量相似度的值。两个空间向量的余弦值越接近1,就代表着两个向量的夹角越小,方向性越一致,所以相似度就越高。
余弦相似度公式
ru表示一个用户的打分合集,rv表示另一个用户的评分合集,i代表视频,为用户u对视频1的打分乘以用户v对视频1的打分加上用户u对项目2的打分乘以用户v对项目2打分……然后相加再相乘直到最后一个视频。为用户u对视频1的打分取平方加上用户u对视频2的打分取平方加上……先平方再相加直到最后一个视频然后得到的值取平方根,平方根乘以用户v的平方根。
当两个用户之间对某些视频集共同的相似操作很多,当数据庞大至某一阀值,便可使用皮尔森相关系数来计算相似度。这种情况下会比余弦相似度公式精准度更高。当然这是建立在两个用户拥有较多共同评分项目的基础上。反之如果两个用户间共同相思操作很少,皮尔森相关系数的精准度会下降,甚至并不如余弦相似度公式的效果好。两个公式各有利弊。
皮尔森相关系数计算公式如下所示,j、k为两个假设存在的向量。
皮尔逊相关系数计算公式
1.2基于用户的协同滤波算法
假设两名用户u和v,用N(u)表示用户u喜欢的视频合集,令N(v)表示用户v喜欢的的视频集合。则两个用户的相似度W为:
但是上面的公式原理过于简单粗糙且仍有缺陷。事实上,许多用户从未对彼此的物品产生相关性。所以在视频数量庞大,但是用户稀少的环境下N(u)⌒N(v)无限近似于0,甚至有可能出现N(u)⌒N(v)=0的情况。为了避免这种情况的发生,我们选择首先计算出N(u)⌒N(v)≠0的情况。假设存在用户对(u,v),然后将这种情况除以分母。
为此可以建立物品到用户的倒排表,对于每个物品都保存对该物品执行过操作的用户列表。令稀疏矩阵C[u][v]=N(u)交N(v)。那么,假设用户u和用户v同时属于倒排表中K个物品对应的用户列表,就有C[u][v]=K。可以扫描反向列表中每个项目对应的用户列表,将用户列表中的两两用户对应的C[u][v]加1,最终就可以得到所有用户之间不为0的C[u][v]。
图2-1两个使用者对应的倒排表
计算得出用户u对物品的感兴趣程度:
再采用的是JohnS.Breese在论文[14]提出的中的计算相似度的公式的公式:
通过1/log(1+|N(i)|)降低了两个用户的兴趣列表中都存在热度高的视频,从而令他们的相似度过高产生的影响。这样得到用户之间的相似度之后,该改进过的基于用户的协同滤波算法记为UCF+[14]。
I(i)是对视频i进行评分的用户集。S(u,k)为一组k个用户。rvi为用户v对视频i的评分。最终将推荐排名靠前的N部视频推荐给用户u,即为最终推算结果。
1.3基于物品的协同滤波算法
设表示喜欢视频i的用户数,表示同时喜欢视频i和视频j的用户数,则视频i和视频j的相似度W为:
在本系统中这个公式即有效地降低了视频j的在整体公式中的相对重要程度,在本系统中可以将大家都喜欢的视频从特定用户群喜欢的视频中抽离出来。
在基于物品的协同滤波算法中,要惩罚活跃用户。活跃用户评分的视频过多,会导致他评价出的视频集过于杂糅。比如这个用户如果是一个全方面视频爱好者,那么他的评分视频集会使数据库中的几乎所有视频都产生关联,这时视频与视频之间就似乎失去了不同,算法便会被干扰,会在内存中生成一个十分庞大的没有规律的矩阵。这个矩阵会影响所有用户被采集的数据。所以最好要将活跃用户提供的数据减小至非活跃用户之下。改进的公式为:
1/(log(1+|N(u)|))降低了活跃用户增加的视频相似度。然后如此计算用户v对视频j的兴趣度。
表示用户v爱好的关联的视频集。表示视频j与和它最相似的k个视频的集合,为用户v对视频i的兴趣度,为视频j和视频i之间的相似度,在本系统中视频i被用户v的打分。
改良过的ICF记
您可能关注的文档
- 2026《“UU跑腿”的营销问卷调查分析案例》2600字.docx
- 2026《“绿色壁垒”对江苏省纺织品出口贸易的影响研究》15000字.doc
- 2026《“绿色发展理念”融入高中思政课中教育现状的问卷调查分析案例》4900字.docx
- 2026《“全面二孩”政策下江苏省人口总量与结构预测计算案例分析》2000字.docx
- 2026《“一带一路”国家贸易网络特征分析综述》3300字.docx
- 2026《“一带一路”视域下甘肃省物流业发展现状调研分析案例》5400字.doc
- 2026《“医养结合”养老服务市场需求调查实证分析》10000字.docx
- 2026《35kV变电所无功功率优化设计计算案例》3400字.docx
- 2026《A房企ABS业务专项计划分析案例》3900字.doc
- 2026《A工程建设项目的进度计划编制分析案例》3000字.docx
- 2026《关于盐酸那拉曲坦的研究文献综述》8100字.docx
- 2026《关于胰腺腺鳞癌的研究文献综述》3000字.docx
- 2026《光储型微电网的基本结构分析案例》2700字.docx
- 2026《光催化技术的应用及机理研究文献综述》3400字.doc
- 2026《光伏电站储能系统DC-DC变换研究综述》2100字.docx
- 2026《光纤模式研究方法的理论基础综述》1100字.docx
- 2026《光纤通信系统的主要特点和构成分析》3400字.docx
- 2026《广东省卫生资源配置现状和公平性实证分析》10000字.doc
- 2026《国产二手车公司营销环境分析案例》5700字.docx
- 2026《国内儿科临床试验的管理现状分析案例》5100字.docx
最近下载
- 即时零售行业发展报告2025.pptx VIP
- 提升烟草专卖零售许可证信息准确率(QC).pdf
- DFT方法研究酸性沸石上苯与乙烯烷基化反应的机理.pdf VIP
- 2025年重庆巴蜀中学(鲁能巴蜀)小升初语文试卷.docx VIP
- 上海市“REG”产业用地综合绩效评估指标体系-报告.pdf
- 量子化学 全套课件(苏大版).ppt VIP
- 盐都区制造业智能化改造和数字化转型三年行动方案(2022-2024年).docx VIP
- (高清版)-B-T 2659.2-2022 世界各国和地区及其行政区划名称代码 第2部分:行政区划代码.pdf VIP
- 学校食堂食材采购管理制度(范文).docx VIP
- 2022北京首都师大附中高二(上)期末化学(含答案).pdf VIP
原创力文档


文档评论(0)