基于加权聚类动态协同过滤算法.docVIP

下载本文档

3
0
约4.9千字
约 10页
2018-08-29 发布于福建
举报
版权申诉

基于加权聚类动态协同过滤算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于加权聚类动态协同过滤算法

基于加权聚类动态协同过滤算法　　摘要：针对传统协同过滤推荐算法存在数据稀疏性及动态情景下推荐效率急剧下降的问题，提出了一种基于加权聚类的动态情景协同过滤推荐算法。该方法对提供较多评分的用户给予更多的重视，在运用SK-means聚类方法的基础上引入用户权重的概念，有效的解决了数据稀疏性的问题，在此基础上考虑增量更新的情况以便处理推荐过程中数据的频繁变化带来的影响，优化了对目标用户的偏好预测和个性化推荐建议。实验结果表明，相比于IUCF、IICF、和COCLUST算法，该算法在有效缓解用户评分数据稀疏性的同时，还以非常低的计算成本提供了高质量的推荐建议。　　关键词：协同过滤；加权聚类方法；数据稀疏性；动态情景；推荐效率　　中图分类号：TP391 文献标识码：A 文章编号：1007-9416（2017）05-0142-03 　　推荐系统[1]收集用户的历史数据和其他相关信息，利用数据挖掘方法和各种数学模型进行分析计算，准确预测用户的兴趣爱好，主动向用户推荐可能感兴趣的内容。　　传统的协同过滤算法在静态情境下可以实现良好的预测精度，但随着用户数目和项目数量的持续增加以及评分的不断更新，协同过滤算法的数据稀疏性问题以及推荐效率急剧下降的问题越来越突出，这直接导致了推荐系统的推荐质量迅速下降。针对这一问题，相关研究引入了不同的算法[3]。例如，X.Yang等人[4]通过计算和分析不同情况下项目间的相似性，使用动态增量更新和本地链路预测的方式，提出一种以可扩展项目为基础的协同过滤算法。该算法提出一种基于项目相似度图的传递结构，使用本地链路预测方法来寻找隐性候选项目，以减轻预测和建议的过程中数据稀疏带来的负面影响，从而提高了传统协同过滤算法的性能和推荐效率。大多数推荐算法都不能处理动态情景，例如基于奇异值分解的协同过滤算法[5]不能处理出现新评分以及更新现有评分的情况。而基于内存的协同过滤算法普遍存在数据稀疏性以及推荐效率低的问题。　　我们在SK-means聚类方法[6]的基础上引入权重的概念，并由此推导出了一种动态情景下的协同?^滤推荐算法，不仅弱化了算法中数据稀疏性带来的影响，还有效的解决了数据频繁变化带来的一系列问题。　　1 基于加权聚类的动态推荐算法　　我们提出的基于加权聚类的动态协同过滤推荐算法可以分为三个主要步骤：训练、预测和增量训练。　　1.1 训练步骤　　首先将用户划分为k个聚类。为了解决这个问题，我们将一种适用于协同过滤推荐系统的SK-means聚类方法引入到WCM-DCF算法中。因此，所得到的集群将受到最有用的用户的高度影响。我们令表示第个用户的权重，SK-means聚类方法的加权目标函数可以表示为：　　（1）　　更新后用于加权的SK-means聚类方法的质心计算公式如下：　　（2）　　我们给出用户权重的直观计算公式。令为一个二进制矩阵。第行对应的向量指示已经被第个用户评分的项目。由此我们将第个用户的权重定义为与其可用评分的数量成比例，公式如下：　　（3）　　其中是所有值均为1的适当维度的向量，表示用户提供的项目评分的标准差。仅从已经评价了许多项目的用户集合中选择初始质心也不是最优解决方案，因为不会检测到所有结构特征。为了避免这个问题，我们通过以下步骤进行聚类初始化：　　（1）将用户随机分区生成为k个聚类，由表示，其中表示第i个用户所属的聚类。　　（2）令表示第k个质心的第j个分量，估计初始质心公式如下：　　（4）　　根据公式（4），通过获取相应聚类内第个项目的评分总和来估计初始质心的分量。因此很少被评价的项目将会被自动弱化。2.2的算法更详细的描述了我们的训练步骤。　　1.2 算法描述　　输入：目标用户，大小为的用户-项目评分矩阵，聚类数量k，批处理迭代次数B 　　输出：聚类K的质心，分解矩阵　　（1）聚类中心初始化：令，随机产生球面聚类质心；　　（2）对于每一个对象，分别计算它们的聚类中心表达式　　（3）通过竞争学习计算使目标函数最接近用户的球面质心：　　；　　（4）令，b从1循环到B，i从1循环到n，迭代以上步骤。　　1.3 预测步骤　　我们根据聚类结果预测未知评分。因为在矩阵中有很多未知评分，所以即使实现最好的聚类结果也难以做出最准确的预测。为了克服这方面的困难，我们采用对已知评分进行加权平均的方式来估计未知评分，方法如下：　　（5）　　公式（5）的核心思想是根据每个用户与其对应的质心之间的相似性利用权重对用户做出的可用评分进行加权，以便对最接近质心的用户给予更高的权重。　　我们提出的预测公式（5）的另一个优点在于它给出的预测信息只取决于聚类结果，这就意味着它可以离线执行并将结果存储在大