计算机新技术课程设计报告--推荐算法.docVIP

下载本文档

25
0
约2.64千字
约 11页
2016-06-26 发布于湖北
举报
版权申诉

计算机新技术课程设计报告--推荐算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

计算机新技术课程设计设计题目推荐算法目录推荐算法 3 第1章背景介绍 3 1.1 产生背景 3 第2章主要的推荐方法分类与介绍 3 2.1 多样的分类 3 2.1.1 以人为本 4 2.1.2 以物为本 4 2.1.3 协同过滤 5 第3章推荐方法的比较 6 3.1 综合比较 6 第4章总结 6 推荐算法摘要在很多情况下，用户其实并不明确自己的需要，或者他们的需求很难用简单的关键字来表述。又或者他们需要更加符合他们个人口味和喜好的结果。这时候就到了推荐算法大显身手的时候了，它可以让顾客在短时间内找到自己喜好的商品。关键词：推荐算法；网购；计算机新技术背景介绍产生背景随着互联网的发展，人们正处于一个信息爆炸的时代。相比于过去的信息匮乏，面对现阶段海量的信息数据，对信息的筛选和过滤成为了衡量一个系统好坏的重要指标。一个具有良好用户体验的系统，会将海量信息进行筛选、过滤，将用户最关注最感兴趣的信息展现在用户面前。这大大增加了系统工作的效率，也节省了用户筛选信息的时间。　　搜索引擎的出现在一定程度上解决了信息筛选问题，但还远远不够。搜索引擎需要用户主动提供关键词来对海量信息进行筛选。当用户无法准确描述自己的需求时，搜索引擎的筛选效果将大打折扣，而用户将自己的需求和意图转化成关键词的过程本身就是一个并不轻松的过程。　　在此背景下，推荐系统出现了，推荐系统的任务就是解决上述的问题，联系用户和信息，一方面帮助用户发现对自己有价值的信息，另一方面让信息能够展现在对他感兴趣的人群中，从而实现信息提供商与用户的双赢。主要的推荐方法分类与介绍 2.1 多样的分类 2.1.1 以人为本先找到与你相似的人，然后看看他们买了什么你没有买的东西。这类算法最经典的实现就是“多维空间中两个向量夹角的余弦公式”。具体做法是：采集用户的购买（浏览、收藏都行）商品数据，把用户购买的商品列出来，当作用户的属性纬度。例如用户A购买了商品1、2、3、4、5，用户B购买了商品1、2、5、6，那么可以简单的将12345和1256分别作为A和B的属性特征字符串，计算A和B的相似度，经过简单的聚类将用户聚成几个类别（邻居）。假设A和B同属于一个聚类，那么可以称A和B有比较相似的偏好，继而可以将A买过而B没买过的其他商品推荐给B。 2.1.2 以物为本以物为本直接建立各商品之间的相似度关系矩阵。这类算法中最经典是“斜率=1”。即“买了这个商品的人也买了xxx”。具体做法是：例如衣服A和衣服B，对于它们在分类、价格段、属性、风格、品牌定位等等其他属性纬度的表现，来计算它们之间的相似度，如果相似度高，那么在有用户浏览A的时候，就可以推荐B。 2.1.3 协同过滤基于协同过滤的推荐算法理论上可以推荐世界上的任何一种东西。图片、音乐、样样可以。协同过滤算法主要是通过对未评分项进行评分预测来实现的。不同的协同过滤之间也有很大的不同。基于用户的协同过滤算法: 基于一个这样的假设“跟你喜好相似的人喜欢的东西你也很有可能喜欢。”所以基于用户的协同过滤主要的任务就是找出用户的最近邻居，从而根据最近邻居的喜好做出未知项的评分预测。这种算法主要分为3个步骤：一，用户评分。可以分为显性评分和隐形评分两种。显性评分就是直接给项目评分（例如用户评分），隐形评分就是通过评价或是购买的行为给项目评分（例如用户购买了什么东西）。二，寻找最近邻居。这一步就是寻找与你距离最近的用户，测算距离一般采用以下三种算法：　1.皮尔森相关系数。　2.余弦相似性。　3调整余弦相似性。　调整余弦相似性似乎效果会好一些。三，推荐。产生了最近邻居集合后，就根据这个集合对未知项进行评分预测。把评分最高的N个项推荐给用户。这种算法存在性能上的瓶颈，当用户数越来越多的时候，寻找最近邻居的复杂度也会大幅度的增长。推荐方法的比较 3.1 综合比较以人为本的算法： 1、用户的行为数据需要去噪音（买了多少商品以下的用户不考虑，有代购的不考虑，如何精准的判断代购，商品时效性的考虑，数据的时间跨度等等）； 2、计算相似度的时候跟第一点中提到的一样，并不是所有商品对用户的描述度都是一样的。可能价格低的重要程度就没有昂贵的商品重要。 3、通过聚类计算邻居的时候，聚类算法又是另一门学科了，或者选择分类算法。然后聚类的门槛选择都是需要很长时间的测试、观察、修改的，需要时间的积累。 4、浏览、购买、收藏等历史数据是不是可以协同过滤。现在很多网站给出的推荐，都不是单一推荐算法的，一个算法的输出可以作为另一个算法的输入，可以是多个算法的输出综合筛选，这也是一个需要长时间积累的地方。以物为本的算法：思路很多人都清楚，但是越是简单的算法，要达到好的效果就越是难，特别是推荐这种转化率非常低的算法。