- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
飞林沙:商品推荐算法amp;推荐解释.doc
飞林沙:商品推荐算法推荐解释
在这篇文章中,我分成两部分,我们先顺着作者的思路去理解,如果对数学不感兴趣就直接往下拉,最后我会说按我的理解中我们需要从作者这里吸取什么和我推荐的做法。
做过商品或者条目推荐的同学,应该都创建过一张这样的Product Graph. 但是这样的图谱不具备文本含义的解释性,而且也没办法很好的和内容关联起来。我相信大部分同学之前一般的做法是这样子,先找到同一个类别,然后在同一个类别里做这样的事儿。
生成一张完整的产品图谱的作用有以下几个:
但是这里很重要,因为如果单纯用类别可以找到替代品,但是找不到互补品。
另外的一个问题还在于怎样生成替代品的推荐理由,应该是更好,而不是他们包含同一关键词。
推荐一整套装备。
所以我们讲产品问题转换成数学模型问题:
在模型层面: 是否我们可以使用产品数据建模,来表示出产品之间的关系
在产品理解层面: 我们是否可以解释为什么用户更喜欢某一个产品而不是其他的
问题建模:
作为一个二元分类问题,来看p(x,y),也就是x和y之间是否有关联。
那么整体的优化目标就变成了这个样子,也就是希望有边的都是有关联的,没边的都是没关联的。这样就变成了优化p(x,y),于是问题转换成了用什么作为维度来预测。
于是作者做了如下的尝试:
1. 直接计算文本相似度,文本用的是用户的评论以及商品描述
其实和我们传统计算文本相似度很类似,但是最终的训练数据是item之间的连接关系,所以其实转换成训练不同topic维度的权重。
2. Topic Model来降维,避免维度灾难
这个优化的路子肯定是没问题的,但是这个优化方式的问题在于我们把生成topic这件事情本身和商品之间是否存在关系这两件事情给独立看待了,而只是在后来强行地加入了不同topic的权重参数以适应训练数据的需要。也就是说Topic并没有很好的和Link去结合起来。所以我们要想办法找到和Link相关的正确的Topic才行。因为我们要时刻记得我们产生Topic的意义不仅仅是用来做推荐,还有为基于Link关系的商品推荐生成推荐理由,topic生成与商品之间的连接关系息息相关。
所以我们需要把这两个不同方向的分解做个中和,这样才能用topic来解释link的关系。
作者的办法就是通过相乘把他们合并起来了,那么这个公式的意义是什么?计算因子的计算稍微有点绕,我们先把公式列出来再看详细的说明:
我们分开来看,看这部分的意义:
这是一个逻辑回归的函数,如果希望目标函数F最大,也就是应该使指数部分的相反数最大,Beta是一个训练权重暂且不谈,也就是应该使Psi最大,也就是说让i和j所属的topic分布尽量一致。这样其实就把生成topic的过程与最终的目标完全结合起来了,而不是把希望寄托于权重参数上。
接下来问题就变成了我们如何训练Theta呢:
这里我被误导了,我一直在用LDA来折腾这里的公式。后来发现其实并没有使用LDA,而是使用的PLSA的训练模型,我个人认为原因应该是模型的复杂性吧。为了方便大家回归PLSA的数学意义,粘一段LDA数学八卦的讲解:
最后回到刚才的整体优化目标函数上,作者其实表达了两件事情,首先是希望做出的topic分解能够最符合当前link的训练数据;另外也希望最符合topic model的优化模型。
那么作者接下来做了几点的持续优化:
1. 我们之前所有的训练都是基于无向图的,例如买了iPhone可以买手机壳,但是买手机壳推荐iPhone就是一个不好的推荐了。所以作者的解决方案是对训练的参数做了调整:
其实大家可以理解为参数又多了一个……..于是我们就可以在topic上形成了递进关系,过去我们只能说,他们都是移动硬盘,但是现在就可以在语言描述上说,这是比他更高端的移动硬盘。
2. 如果大家有一些解优化函数的经验,看到上面的优化函数都会头大,不是因为不能解,完全可以依照PLSA的方法用EM方法去搞,但是参数实在太多了,算起来完全无法想象。所以作者结合了具体业务将商品形成了目录树:
然后作者没有细致去讲,大概意思也就是说那么多topic其实也就10到20个目录和这个商品有联系,所以可以极大地节省运算量。但是作者也承认,非常慢!
那么我们抛除模型,看看这篇paper带给了我们什么启示,这篇文章核心其实就是在解决“推荐解释”的问题,当然顺路也提高了推荐的准确性。作者从几个角度去出发,这几点都是值得我们在做推荐算法的时候考虑的:
1 推荐的递进性,我们过去无论在做商品聚类,还是基于标签推荐时,都是基于一个无向的“图模型”。
2 区分出互补性和替代性,这一点其实我承认过去并没有系统地考虑过,我们通常的推荐都是基于互补性的。
但是从工程角度上,并不适合上来就搭建这么复杂的模型,所以我们可以适当做简化,例如:
1 认为相同目录下的商品是替代
您可能关注的文档
最近下载
- 2025年天津市中考英语真题卷(含答案与解析).pdf VIP
- 工商银行swift代码大全.pdf VIP
- 文献检索与科技论文写作 课件全套 第1--9章 绪论、科技文献检索基础知识---科技论文的投稿.pdf VIP
- 《企业安全生产主要负责人和管理人员培训课件》.ppt VIP
- 宠物临床诊疗职业技能评价规范 宠物医师助理.pdf VIP
- 等离子体电极用碳化铪粉末、其制造方法、碳化铪烧结体和等离子体电极.pdf VIP
- 湖南师大附中2022-2023学年高一下学期期末数学试题含答案.pdf VIP
- 温室气体(GHG)管理手册.doc VIP
- SBS改性沥青防水卷材施工方案.docx VIP
- 多相流体的数值模拟及计算方法.pdf VIP
文档评论(0)