基于大数据的推荐算法研究.pptVIP

下载本文档

42
0
约5.27千字
约 34页
2017-09-06 发布于天津
举报

基于大数据的推荐算法研究.ppt

基于大数据的推荐算法研究

矩阵分解并行化矩阵规模与运行时间的关系矩阵分解并行化矩阵稀疏度与运行时间的关系矩阵分解并行化分块策略与运行时间的关系分块策略与中间数据量的大小关系矩阵分解并行化工作节点数量与运行时间的关系总结与展望本文工作对传统的相似度度量方法进行改进提出基于项目标签层次结构的相似度度量方法矩阵分解算法并行化未来展望利用MPI分布式模型并行化矩阵分解模型；实现通过构造传统推荐算法的近似算法把传统推荐算法并行化谢谢! 传统的网络服务，比如分类目录，搜索引擎，已经不能满足人们对信息的需求，才出现了推荐系统推荐系统简介推荐系统如何建模当前推荐算法面临的问题随着互联网的发展人们进入互联网的代价降低，现在电脑下乡，网费降低，各种网络应用软件的人性化互联网上有了大量用户就有了市场，自然而然推荐的对象也在迅猛增加以往推荐算法的扩展性不强，比如KNN需要在整个用户空间寻找近邻用户什么是倒排索引呢还是用刚开始的评分矩阵，首先我们可以得到然后它对应的倒排索引是倒排索引的主要作用是方便查找通过上面的余弦距离公式和皮尔逊相关系数，我们可以看出它们都满足加性模型，就可以可以通过累加来计算。还有一点，这里的评分都是有范围的，比如[0,r_max]，那么他们的上限就是就是说我们可以计算出相似度的上限这点结合TopK思想可以排除很多不必要的计算首先第一步就是排除那些不可能相似的用户，即没有共同评分项的用户。还以原来的例子为例，来看求u1和u2的相似度，前两个相近用户据这个例子的目的是告诉我们这个用户之间的相似度可以分成k（也就是两用户共同评分项目数）来计算在推荐系统中，用户数量和项目数量是不断增加的。当项目数量不断增大时，计算目标项目与每个项目间距离并从中挑选出K个最相近的项目，所耗费的时间对系统的实时性是一个巨大挑战。实验随机生成项目数量M=10000，用户数量N=500, 1000, 2000, 5000, 10000，评分数据稀疏度s=0.05。实验结果如图3.4，从三种算法的运行时间，不难看出，TopKS运行时间的增长是最缓慢的从LS中把最小相似度对应的用户剔除，但是后面这个用户还有可能是ui的最近邻用户把uj加入黑名单意味着uj不可能成为用户ui的最近邻用户，后面不用在继续计算ui和uj的相似度 TopKS算法比传统的遍历算法，始终有10倍以上的效率提高。当数据集越稀疏，效率提高的越明显。但是当稀疏度高于一定值时，采用倒排索引方法略优于TopKS算法，这是由于算法的判断过程耗时较大引起的。但是，由于一般用户所能评分的个数是有限的，而随着用户和项目数量的不断飞速增长，推荐系统的数据集稀疏度都远低于0.1，所以TopKS在实际运用中还是能起到较好的效果。根据相似度放大公式，当我们计算到第k1（k1k）个项目时，就可以估算两个用户之间相似度的最大值，当k1越接近k时估计上界越接近真实相似度。因此有下面一般的情形，当计算ui和uj（i！=j）的相似度时介绍ToKS包含哪些介绍推荐系统如何建模以电子商务为例，里面只有5个用户和4个商品，我们知道用户会对项目进行反馈（显示反馈，隐式反馈），一般都会进行打分（显示反馈信息），那么这样我们就可以得到二维矩阵图中黄色底纹？的格子就是表示对应的用户还没有对相应项目打分。例如红框框住这个就是user4还没有对item2打分，那么现在系统新注册了user6和新添加了商品item5，那么此时他们的反馈信息都是未知，针对user6和item5的信息就称之为冷启动问题，由于不是本文的重点所以只是略提一下。推荐系统还有一个假设：就是用户对项目打分越高说明用户越喜欢这个项目那么好我们现在的目标就是预测出这些？部分表示的分数，然后对？的分数做排序，把分值最高的前k个推荐给用户。可以归结为一句话，我们的任务就把这个评分矩阵中的空缺值给填充那么使用的方法呢就是启发式协同过滤：KNN（K Nearest Neighbor），顾名思义，查找与目标用户最相近用户，用他们的对未知项目的评分来预测目标用户对项目打分（板书原理）基于模型的协同过滤：矩阵分解矩阵分解原理图目标函数优化方法过拟合问题，加入正则项这里是毕业论文的框架，主要包括以下几个部分课题背景和研究意义（第一第二章，绪论和推荐系统概述） TopKS算法：使用倒排索引数据结构，结合TopK思想，利用改进的余弦距离和皮尔逊相关系数（具体后面会讲）基于项目层次结构相似性的推荐算法：利用项目的层次结构，计算项目之间的相似度矩阵分解的并行化：具体指使用Hadoop技术实现矩阵分解总结与展望：具体指工作的总结和后面的努力方向 KNN算法介绍以基于用户的推荐为例那么KNN首先就需要找最

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于大数据的推荐算法研究.pptVIP