- 42
- 0
- 约5.27千字
- 约 34页
- 2017-09-06 发布于天津
- 举报
基于大数据的推荐算法研究
矩阵分解并行化 矩阵规模与运行时间的关系 矩阵分解并行化 矩阵稀疏度与运行时间的关系 矩阵分解并行化 分块策略与运行时间的关系 分块策略与中间数据量的大小关系 矩阵分解并行化 工作节点数量与运行时间的关系 总结与展望 本文工作 对传统的相似度度量方法进行改进 提出基于项目标签层次结构的相似度度量方法 矩阵分解算法并行化 未来展望 利用MPI分布式模型并行化矩阵分解模型; 实现通过构造传统推荐算法的近似算法把传统推荐算法并行化 谢谢! 传统的网络服务,比如分类目录,搜索引擎,已经不能满足人们对信息的需求,才出现了推荐系统 推荐系统简介 推荐系统如何建模 当前推荐算法面临的问题 随着互联网的发展人们进入互联网的代价降低,现在电脑下乡,网费降低,各种网络应用软件的人性化 互联网上有了大量用户就有了市场,自然而然推荐的对象也在迅猛增加 以往推荐算法的扩展性不强,比如KNN需要在整个用户空间寻找近邻用户 什么是倒排索引呢 还是用刚开始的评分矩阵,首先我们可以得到 然后它对应的倒排索引是 倒排索引的主要作用是方便查找 通过上面的余弦距离公式和皮尔逊相关系数,我们可以看出它们都满足加性模型,就可以可以通过累加来计算。 还有一点,这里的评分都是有范围的,比如[0,r_max],那么他们的上限就是 就是说我们可以计算出相似度的上限这点结合TopK思想可以排除很多不必要的计算 首先第一步就是排除那些不可能相似的用户,即没有共同评分项的用户。 还以原来的例子为例,来看求u1和u2的相似度,前两个相近用户 据这个例子的目的是告诉我们这个用户之间的相似度可以分成k(也就是两用户共同评分项目数)来计算 在推荐系统中,用户数量和项目数量是不断增加的。当项目数量不断增大时,计算目标项目与每个项目间距离并从中挑选出K个最相近的项目,所耗费的时间对系统的实时性是一个巨大挑战。实验随机生成项目数量M=10000,用户数量N=500, 1000, 2000, 5000, 10000,评分数据稀疏度s=0.05。实验结果如图3.4,从三种算法的运行时间,不难看出,TopKS运行时间的增长是最缓慢的 从LS中把最小相似度对应的用户剔除,但是后面这个用户还有可能是ui的最近邻用户 把uj加入黑名单意味着uj不可能成为用户ui的最近邻用户,后面不用在继续计算ui和uj的相似度 TopKS算法比传统的遍历算法,始终有10倍以上的效率提高。当数据集越稀疏,效率提高的越明显。但是当稀疏度高于一定值时,采用倒排索引方法略优于TopKS算法,这是由于算法的判断过程耗时较大引起的。但是,由于一般用户所能评分的个数是有限的,而随着用户和项目数量的不断飞速增长,推荐系统的数据集稀疏度都远低于0.1,所以TopKS在实际运用中还是能起到较好的效果。 根据相似度放大公式,当我们计算到第k1(k1k)个项目时,就可以估算两个用户之间相似度的最大值,当k1越接近k时估计上界越接近真实相似度。因此有下面一般的情形,当计算ui和uj(i!=j)的相似度时 介绍ToKS包含哪些 介绍推荐系统如何建模 以电子商务为例,里面只有5个用户和4个商品,我们知道用户会对项目进行反馈(显示反馈,隐式反馈),一般都会进行打分(显示反馈信息),那么这样我们就可以得到二维矩阵 图中黄色底纹?的格子就是表示对应的用户还没有对相应项目打分。例如红框框住这个就是user4还没有对item2打分,那么现在系统新注册了user6和新添加了商品item5,那么此时他们的反馈信息都是未知,针对user6和item5的信息就称之为冷启动问题,由于不是本文的重点所以只是略提一下。 推荐系统还有一个假设:就是用户对项目打分越高说明用户越喜欢这个项目 那么好我们现在的目标就是预测出这些?部分表示的分数,然后对?的分数做排序,把分值最高的前k个推荐给用户。 可以归结为一句话,我们的任务就把这个评分矩阵中的空缺值给填充 那么使用的方法呢就是 启发式协同过滤:KNN(K Nearest Neighbor),顾名思义,查找与目标用户最相近用户,用他们的对未知项目的评分来预测目标用户对项目打分(板书原理) 基于模型的协同过滤:矩阵分解 矩阵分解原理图 目标函数 优化方法 过拟合问题,加入正则项 这里是毕业论文的框架,主要包括以下几个部分 课题背景和研究意义(第一第二章,绪论和推荐系统概述) TopKS算法:使用倒排索引数据结构,结合TopK思想,利用改进的余弦距离和皮尔逊相关系数(具体后面会讲) 基于项目层次结构相似性的推荐算法:利用项目的层次结构,计算项目之间的相似度 矩阵分解的并行化:具体指使用Hadoop技术实现矩阵分解 总结与展望:具体指工作的总结和后面的努力方向 KNN算法介绍 以基于用户的推荐为例 那么KNN首先就需要找最
您可能关注的文档
- 基本的生物统计方法与试验设计方法.ppt
- 基本偏差表.ppt
- 基础篇——家畜解剖学综合实验.doc
- 基础教育未来发展趋势.ppt
- 基础学系 - 晓明女中.ppt
- 基础图学ⅱ教师手册(ch01).doc
- 基矛matlab的三牙轮钻头仿真模型研究.pdf
- 基于 混合改进算法的蜗轮蜗杆故障识别 - 科学学研究.pdf
- 基隆市北宁路落石灾害现勘报告.doc
- 基于3xtg-拟ad小鼠模型的药理学研究进展 - 中国实验动物学报.doc
- 《FZT 33008-2010亚麻凉席》专题研究报告.pptx
- 四年级上册美术质量检测(含答案).docx
- 《FZT 24011-2019羊绒机织围巾、披肩》专题研究报告.pptx
- 《FZT 24013-2020耐久型抗静电山羊绒针织品》专题研究报告.pptx
- 《FZT 24020-2013毛针织服装面料》专题研究报告:标准深度与行业前瞻.pptx
- 《FZT 24020—2022毛针织服装面料》专题研究报告:新规引领下的产业深度转型与品质跃迁.pptx
- 《FZT 24028-2021拉舍尔针织面料》专题研究报告深度.pptx
- 《FZT 24033—2022全成型无缝毛针织服装》专题研究报告.pptx
- 《FZT 25006—2022轻薄型经编针织毯》专题研究报告.pptx
- 《FZT 30005-2009苎麻织物刺痒感评价方法》专题研究报告.pptx
原创力文档

文档评论(0)