- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于贝叶斯网络协同过滤算法
基于贝叶斯网络协同过滤算法
摘 要:网络技术的快速发展产生了海量用户数据,为在海量数据中寻找与用户需求相符的数据,提出一种能快速得到较准确推荐结果的基于贝叶斯网络的协同过滤推荐算法。实验结果表明,与传统协同过滤推荐算法相比,该算法准确度更高。
关键词:贝叶斯网络;数据挖掘;相似度;协同过滤算法
DOIDOI:10.11907/rjdk.151098
中图分类号:TP312 文献标识码:A 文章编号:1672-7800(2015)007-0064-02
0 引言
协同过滤推荐是根据基本用户的观点产生对目标用户的推荐列表。然而,随着数据量的增加,传统协同过滤算法的可扩展性问题逐渐凸现,根据贝叶斯网络的特点,当数据不断增加时,构建一个动态的贝叶斯网络不但能很好地解决这一问题,还能提高算法的准确性。
1 传统协同过滤算法
协同过滤算法通常分为3步[1-2]:①构建用户档案;②寻找最近邻,在用户档案中寻找与目标用户相似度最高的若干用户;③产生推荐。
1.1 建立用户档案(profile)
收集用户的评分、评价行为等,并进行数据清理、转换和录入,最终形成用户对各种项目的评价表,如表1 所示。
1.2 寻找最近居
计算用户与数据库内各用户的相似度,寻找最近邻居集。可采用以下方法:
(1)相关相似性。设用户i和a共同评分过的项目集合为Ii,Ia,则用户i和用户a之间的相似性sim(i,a)通过Peason 相关系数度量:
sim(i,a)=∑j∈Ii∩Ia(Ri,j-Ri-)(Ra,j-Ra-)∑j∈Ii∩Ia(Ri,j-Ri-)2∑j∈Ii∩Ia(Ra,j-Ra-)2(1)
(2)余弦相似性。用户评分看作n 维项目空间上的向量,用户间的相似性通过向量间的余弦夹角度量。设用户i和用户a在n维项目空间上的评分分别为向量i,a,则用户i和用户a直接的相似度sim(i,a) 为:
sim(i,a)=cos(i,a)=i-×a-ia(2)
(3)修正的余弦相似性。余弦相似性度量方法中没有考虑不同用户的评分尺度问题,修正的余弦相似性度量方法通过减去用户对项目的平均评分改善了该缺陷。设用户i和a共同评分过的项目集合N,则用户i和用户a之间的相似性sim(i,a) 为[3]:
sim(i,a)=∑j∈N(Ri,j-Ri-)(Ra,j-Ra-)∑j∈N(Ri,j-Ri-)∑j∈N(Ra,j-Ra-)(3)
1.3 预测
采用加权平均值方法,通过最近邻居集的评价产生推荐,推荐算法如下[4-5]:
pa,y=∑u∈NN,y∈Nsim(a,u)Ru,y∑u∈NN,y∈Nsim(a,u)(4)
pa,y=∑u∈NN,y∈Nsim(a,u)(Ru,y-Ru-)∑u∈NN,y∈Nsim(a,u)+Ra-(5)
Pa,y代表目标用户对项目 y 的预测值; Ru,y代表目标客户a最近邻居集内的用户u 对项目y 的评价。目标用户a 的最近邻居集用NN(nearest neighbor)表示,因此,u∈NN。
2 基于贝叶斯网络的协同过滤算法
在特征属性有条件独立或基本独立的条件成立时,传统协同过滤算法的准确率是最高的,但现实中各特征属性间往往条件并不独立,而是具有较强的相关性,这样就限制了其能力。所以必须考虑到各对象特征属性之间的关系,如能先根据对象的特征属性作出准确分类,再进行协同过滤,准确率就会有很大的提高,同时效率也会有很大的提高。
2.1 贝叶斯网络
贝叶斯网络是描述数据变量之间依赖关系的图形模式,是为处理人工智能研究中的不确定性问题而发展起来的。贝叶斯网表达了各节点间的条件独立关系,可以直观地从贝叶斯网当中得出属性间的条件独立以及依赖关系。此外,可以认为贝叶斯网用另一种形式表示出事件的联合概率分布,根据贝叶斯网的网络结构以及条件概率表,可以快速得到每个基本事件的概率。
通过贝叶斯网络,可以通过非独立对象的特征属性构建相应的贝叶斯网络拓扑关系图,再创建贝叶斯训练数据集,据此可将用户正确分类,再进行协同过滤推荐。
2.2 运用贝叶斯网络分类
确定随机变量间的拓扑关系,形成DAG(无回路有向图)。举例:构建一个个人习性图(见图1)。为简单起见,用少量的特征属性以及较粗的划分。
图1 个人习性图
人的习性大体上分为勤快与懒散两类,而判断是否勤奋的标准有任务完成时间和难易程度,但做事的难易程度又受到任务完成时间的影响,比如一般喜欢有任务先做的人喜欢先难后易,而一个人是否勤奋也影响一个人是否做事喜欢先难后易。这样,几个条件都是相对非独立的,所以采用贝叶斯公式来求取几个条件对结果的概率。多
文档评论(0)