高级数据挖掘期末大作业-基于协同过滤算法的电影推荐系统精选.docxVIP

下载本文档

92
0
约7.71千字
约 15页
2018-02-28 发布于贵州
举报
版权申诉

高级数据挖掘期末大作业-基于协同过滤算法的电影推荐系统精选.docx

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高级数据挖掘期末大作业-基于协同过滤算法的电影推荐系统精选

高级数据挖掘期末大作业基于协同过滤算法的电影推荐系统本电影推荐系统中运用的推荐算法是基于协同过滤算法（Collaborative Filtering Recommendation）。协同过滤是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同，协同过滤分析用户兴趣，在用户群中找到指定用户的相似（兴趣）用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。电影推荐系统中引用了Apache Mahout提供的一个协同过滤算法的推荐引擎Taste，它实现了最基本的基于用户和基于内容的推荐算法，并提供了扩展接口，使用户方便的定义和实现自己的推荐算法。电影推荐系统是基于用户的推荐系统，即当用户对某些电影评分之后，系统根据用户对电影评分的分值，判断用户的兴趣，先运用UserSimilarity计算用户间的相似度.UserNeighborhood根据用户相似度找到与该用户口味相似的邻居，最后由Recommender提供推荐个该用户可能感兴趣的电影详细信息。将用户评过分的电影信息和推荐给该用户的电影信息显示在网页结果页中，推荐完成。一、Taste 介绍Taste是 Apache Mahout 提供的一个个性化推荐引擎的高效实现，该引擎基于java实现，可扩展性强，同时在mahout中对一些推荐算法进行了MapReduce编程模式转化，从而可以利用hadoop的分布式架构，提高推荐算法的性能。在Mahout0.5版本中的Taste，实现了多种推荐算法，其中有最基本的基于用户的和基于内容的推荐算法，也有比较高效的SlopeOne算法，以及处于研究阶段的基于SVD和线性插值的算法，同时Taste还提供了扩展接口，用于定制化开发基于内容或基于模型的个性化推荐算法。Taste 不仅仅适用于 Java 应用程序，还可以作为内部服务器的一个组件以 HTTP 和 Web Service 的形式向外界提供推荐的逻辑。Taste 的设计使它能满足企业对推荐引擎在性能、灵活性和可扩展性等方面的要求。下图展示了构成Taste的核心组件：??从上图可见，Taste由以下几个主要组件组成：DataModel：DataModel是用户喜好信息的抽象接口，它的具体实现支持从指定类型的数据源抽取用户喜好信息。在Mahout0.5中，Taste 提供 JDBCDataModel 和 FileDataModel两种类的实现，分别支持从数据库和文件文件系统中读取用户的喜好信息。对于数据库的读取支持，在Mahout 0.5中只提供了对MySQL和PostgreSQL的支持，如果数据存储在其他数据库，或者是把数据导入到这两个数据库中，或者是自行编程实现相应的类。UserSimilarit和ItemSimilarity：前者用于定义两个用户间的相似度，后者用于定义两个项目之间的相似度。Mahout支持大部分驻留的相似度或相关度计算方法，针对不同的数据源，需要合理选择相似度计算方法。UserNeighborhood：在基于用户的推荐方法中，推荐的内容是基于找到与当前用户喜好相似的“邻居用户”的方式产生的，该组件就是用来定义与目标用户相邻的“邻居用户”。所以，该组件只有在基于用户的推荐算法中才会被使用。Recommender：Recommender是推荐引擎的抽象接口，Taste 中的核心组件。利用该组件就可以为指定用户生成项目推荐列表。二、相似性度量本章节将系统中用到的几个相似性度量函数作以介绍，taste中已经具体实现了各相似性度量类。User CF 和 Item CF 都依赖于相似度的计算，因为只有通过衡量用户之间或物品之间的相似度，才能找到用户的“邻居”，才能完成推荐。下面就对常用的相似度计算方法进行详细的介绍： 1. 基于皮尔森相关性的相似度 —— Pearson correlation-based similarity皮尔森相关系数反应了两个变量之间的线性相关程度，它的取值在[-1, 1]之间。当两个变量的线性关系增强时，相关系数趋于1或-1；当一个变量增大，另一个变量也增大时，表明它们之间是正相关的，相关系数大于0；如果一个变量增大，另一个变量却减小，表明它们之间是负相关的，相关系数小于0；如果相关系数等于0，表明它们之间不存在线性相关关系。用数学公式表示，皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。Pearson correlation-based similarity协方差（Covariance）：在概率论和统计学中用于衡量两个变量的总体误差。如果两个变量的变化趋于一致，也就是说如果其中一个大于自身的期望值，另一个也大于自身的期望值，那么两个变量之间的协方差就是正值；如果两个变量的变