- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
用户对事物A打分对事物B打分X34Y24Z4Slopeone算法思想.ppt
工作总结;1. NetFlix Prize;这星期各队成绩;结果分析
第一名Pragmatic Theory队成员:Martin Piotte and Martin Chabbert of Montreal 和第二名BellKor in BigChaos成员:Bob BellMichael,JahrerChris Volinsky等成立了BellKor‘s Pragmatic Chaos取得了突破性进展
目前第二名Grand Prize Team也是由很多团队中的人组成
单打独斗很难有大而快速提高,所以竞争趋势是科研合作
数据分析
;training_set.tar集有2G多,超过48 万(480
thousand)随机用户对1.8万(18 thousand movie)部电影的超
过1亿次评分。数据格式如:
1008:
32950,5,2004-04-28
829326,4,2004-04-28
862759,2,2004-03-31
2309436,4,2004-12-31
2161582,4,2005-04-26
313593,3,2005-06-08
2638523,4,2004-09-07
1675753,5,2004-10-19
测试数据集:qualifying.txt对280万条(2.8 million)用户/电
影id进行评分。待评分数据格式:
1008:
54072,2005-06-29
1803428,2005-07-18
1673185,2005-12-23
1399728,2005-05-09
606789,2005-03-08
1483406,2005-11-15
1737881,2005-10-12
;下一步:针对这些数据做些简单的实验
算法:最近邻搜索算法(基于用户),缺点:复杂,评分矩阵稀疏度达99%以上。480000×18000×1%/480000=180部
简单的算法有:Slope one算法
用户??????对事物A打分 对事物B打分
X 3 4
Y 2 4
Z 4 ?
Slope one算法思想:平均值也可以代替某两个未知个体之间的打分
差异
用户对事物A和事物B打分的平均差是:((3 - 4) + (2 - 4)) / 2
= -1.5,也就是说人们对事物B的打分一般比事物A的打分要高
1.5,于是Slope one算法就猜测Z对事物B的打分是4 + 1.5 =
5.5
;2. 在movicelens数据集上进行实验;3. 论文
文档评论(0)