基于聚类的协同过滤电子商务个性推荐系统的研究.docVIP

下载本文档

4
0
约5.52千字
约 7页
2017-06-03 发布于江西
举报
版权申诉

基于聚类的协同过滤电子商务个性推荐系统的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于聚类的协同过滤电子商务个性推荐系统的研究

基于协过滤个性推荐系统张娜,廖联军 (北方工业大学信息工程学院北京 100144) 摘要: 根据目前电子商务网站中商品个性化推荐的现状, 关键词: 电子商务聚类; 协过滤; 个性化推荐近年来，电子商务得到了飞速的发展目前国内大多数电子商务网站的商品推荐通常是推荐畅销产品推荐相关产品根据用户浏览历史的推荐。前两种推荐未考虑用户的个性特点,第三种推荐有一定的个性化成份,但多数网站还仅仅停留在仅针对该用户一个人的购买历史只是为每个用户建立了一个个人购买档案,没有横向进行信息综合,因此没有协作推荐价值,所以也无法实现商品的实时综合推荐。 2 基于K-means聚类协同过滤的个性推荐过程 2.1 聚类算法聚类分析是将一组对象划分成簇，使簇类对象相似性尽量大，而簇间对象相似性尽量小。它是数据挖掘领域中的一个重要分支，不仅可以作为数据挖掘中的一个模块，也可以作为其他分析算法的一个预处理步骤。用途非常广泛。在商业上，聚类可以划分消费群体帮助市场分析人员总结不同消费者的行为模式，进行有针对性的促销；在网络挖掘中，可用来对万维网上不同类型文档进行分类等。在本文中，存在具有相似审美情趣和修养的用户，对这些商品的喜爱程度会具有很大的趋同性，可比较不同用户间商品的购买倾向，即按所购买商品的相似性来进行用户聚类，从而作出后继推荐。 2.2 协同过滤的优点协同过滤不仅考虑了活动用户的信息，还利用了其他用户的信息，从而大大增加了被有效利用的信息总量，提高了推荐的效率与表现。协同过滤所考虑的是用户对项的评价、而不是项的本身属性。也就是要为用户提供那些可能完全没有见过的项的推荐，只有这样，才能真正增加用户利用新项的机会。协同过滤还可以对图型、图像、音频、视频等非文本信息有效地做出推荐。 2.3 商品个性化推荐的流程对于用户评分的商品推荐，具体实现时通常都可分为以下三个基本过程： 1）客户对其感兴趣的商品进行描述。这种信息可能是该客户的购买信息，也可能是对商品的评价信息等。 2）根据某相似性进行聚类。这种聚类既可以针对客户进行，即进行客户聚类，也可以针对商品进行商品聚类。 3）协作过滤与商品推荐。根据目标商品或目标用户所在的聚类，提供相应的商品推荐。基于B/S体系结构的商品个性化推荐系统的功能流程如图1所示：图 1 基于聚类协作过滤的服务端模块功能流程示意图 3 基于聚类协作过滤的商品个性推荐系统的设计协同过滤存在数据稀疏性问题。这个问题是指多数用户所评价过的项目数目并不很多，用户--项评价矩阵通常都非常稀疏。因此要找到一组评价非常相似的用户经常是很困难的。如果两个用户没有对相同的项目进行打分，即使这两个用户的兴趣爱好都相同，系统也无法得出他们之间的相似度。此外，随着电子商务网站规模的扩大，用户数据量成指数增长，对于协同过滤推荐，其完成目标用户邻居（或最相似用户）的识别非常耗时，实时响应推荐效果较差。 3.1系统实现过程通过对传统协同过滤算法的分析，发现了其存在的问题，如在线执行效率低的问题以及数据稀疏性问题，针对这些问题，本文提出了一些改进的措施，具体的思路如下：将用户购买过某种商品所表现出的兴趣度的隐性信息转化为用户对该商品的显性评分数值，具体方法为：评分数值根据用户购买的商品数量设定。如无购物则记为0。将所有用户利用 k-Means 算法进行离线聚类，得到聚类中心评分数据矩阵如表 1和用户聚类程度矩阵如表2所示：表 1 聚类中心评分数据矩阵 Cluster/Item I1 … Ij … In C1 R11 … R1j … R1n … … … … … Ci Ri1 … Rij … Rin … … … … … Ck Rk1 … Rkj … Rkn 其中 k 行代表 k 个用户聚类中心，n 列代表 n 个商品，第 i 行第 j 列的元素 Rij代表用户聚类中心 i 对商品 j 的评分，代表用户聚类 i 中所有用户对商品 j 评分的均值。表2 用户聚类程度矩阵 User/Cluster C1 … Cj … Ck U1 V11 … V1j … V1k … … … … … … Ui Vi1 … Vij … Vik … … … … … … Um Vm1 … Vmj … Vmk m 行代表 m 个用户，k 列代表 k 个用户聚类，第 i 行第 j 列的元素 Vij代表用户 i 与聚类中心 j 的相似性，即用户 i 和第 j 个用户聚类中心之间的Pearson相关相似性度量。 3）当一个目标用户 a 出现时，可利用第 1 步的方法得到目标用户 a 对其所感兴趣商品的评分值，然后利用 Pearson 相关系数法计算目标用户 a 与任意一个聚类中心 b 之间的相似值向量。具体的相似性计算方法如公