第六届泰迪杯数据挖掘挑战赛.pdf

第六届 “泰迪杯” 数据挖掘挑战赛 品 作 优 秀 秀 优 作赛 战 品 挑 ” 作品名称:基于协同过滤的电视产品个性化推荐 杯 荣获奖项:特等奖 作品单位:重庆第二师范学院 迪 作品成员:胡怡 刘凤 柳倩 泰 指导老师:舒巧媛 “ 基于协同过滤的电视产品个性化推荐 摘 要:本文使用基于协同过滤的算法处理用户观看节目的数据,一共解决 品 了两个问题:1、为用户推荐新的电视节目;2、对用户进行画像分析,为用户打 上个性化标签。 作 对于问题1,首先,本文根据收视和回看的历史信息对数据进行预处理,通 过删去观看时间不足5 分钟的信息,得到每个用户对每个频道的观看时间占比及 秀 观看频率。其次,通过将用户观看频率与观看时间按一定权重进行整理,用基于 用户的协同过滤算法(userCF),计算出用户相似度矩阵。接着,根据用户点播信 优 息,计算得到节目点播金额占比、观看时间占比及观看频率,同样按一定权重进 行整理,得到点播用户总频率,通过基于物品的协同过滤算法(itemCF),计算节 赛 目相似度矩阵。然后利用节目的相似度和用户的历史收视数据,给点播用户生成 推荐列表 (见表8 );根据用户相似度矩阵与点播用户总频率,生成未点播用户 战 推荐列表 (见表9 );整合点播与未点播用户推荐表。运用同样的方法整理附件2 的电视产品数据。最后,整合附件1 与附件2 的推荐表,得到用户推荐节目清单 挑 (见表10)。 对于问题2,首先,根据节目类型和适宜人群构建附件2 中的产品标签体系 ” (见表12)。其次利用入网时间、观看节目及观看时间,构建用户标签体系 (见 表17)。然后,建立标签编号,为电视产品信息进行标签编号,得到产品数据标 杯 签,进而得到已标签用户推荐表。最后,结合用户相似度矩阵,计算未标签用户 的标签推荐列表,最终整合得到用户数据标签及用户推荐标签 (见表22 )。 迪 泰 “ 关键词:协同过滤;userCF 算法;itemCF 算法;用户画像;电视产品推荐 1 绪论 1.1 背景 在互联网技术日益发展和进步的时代,各种数据呈现井喷式增长状态,仅 品 2017

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档