mahout算法总结程序.docx

1、mahout中成熟且重要的算法主要是协同过滤算法、聚类算法、分类算法(recommender engines (collaborative filtering), clustering, and classification)。推荐算法有基于用户和商品之间的关系的推荐算法,还有基于内容的推荐算法(商品属性),由于基于内容的推荐算法针对不同的商品,具有不同的属性,无法形成一个统一的框架,所以在mahout中不会详细讲解该块。在推荐算法中主要是基于用户的推荐、基于商品的推荐、slope-one推荐算法、SVD-based recommenders、clustering-based recommenders。1)皮尔逊相关系数(PearsonCorrelationSimilarity)由于不同的用户在对项目评分时评分尺度不同,有的用户更愿意给高分,对项目的评分整体偏高,有些用户与之相反,即使很喜欢的项目其评分也不高,评分整体偏低。对此可以采用减去用户对项目的平均评分的方法进行解决。(3.2)皮尔逊相关系数的弊端:第一是未考虑到两个用户共同评分过的商品个数。第二是当两个用户之间共同评分过的商品只有一个时,此时计算的相似度为0,该情况出现在数据很少或稀疏的情况。在这种情况下也可认为这两个用户之间不相似。第三是当用户对所有商品的评分都一样时(平均值与评分值相等,相减为0),此时无法计算这个

文档评论(0)

1亿VIP精品文档

相关文档