2021年MathorCup大数据竞优秀论文4.pdfVIP

下载本文档

1
0
约3.22万字
约 23页
2025-10-18 发布于甘肃
举报

2021年MathorCup大数据竞优秀论文4.pdf

队伍编号MCB2102791

赛道B

基于能量损失的Transformer和相似用户模型的推荐序列评估算法

摘要

随着信息流和互联网的迅猛发展，网络越发成为人们获取信息的主要来源。为了

有效的提升用户浏览信息的效率，准确推送用户喜爱的个性化的内容，成为当前的热

门需求。其中推荐内容的排列顺序会影响用户的浏览体验。本文将对推荐序列的排序

提出评估及用户反应预测的算法。

针对问题一和问题二，我们首先进行数据预处理，数据可视化及分析数据的基本

情况，基于用户浏览时长，用户浏览时间，用户推荐内容，用户总点击量等特征，使

用−算法对用户做聚类分析。我们提出我们采用Transformer的深度神经网络

模型和最相似用户数据的估计模型相结合的混合模型以预测用户浏览各个物品的点击

和浏览时间,并把Transformer模型得到的结果标准化后求和得到评估模型。在完成数据

预处理后，我们将用户ID,推荐序列的内容，浏览时间，作为特征，浏览时长作为标签，

基于用户消耗的精力（学习参数）和浏览时长的违反度设计损失函数。训练后，通过

解码得到推荐序列的预测总点击量和总浏览时长。基于最相似用户数据的估计模型是

通过计算目标用户与训练集用户的相似度，以选取训练集中与其最相似的用户，根据

该特定用户在训练数据中的行为数据预测目标用户的行为。最终我们，将两个模型得

到的结果加权求和便得到求解第二问的混合模型。问题二根据问题一训练得到网络模

型就可以预测测试集中推荐序列的总点击量和总时长。

针对问题三，我们使用基于集束搜索和transformer的强化学习算法，基于总点击

量和总浏览时长设计回报函数，从N条推荐内容选择K条推荐内容。结合集束搜索，

这样根据强化学习的回报函数的选择可以得到最优的K条推荐内容，进而可以通过问

题一提出的模型计算相应的总点击量和总浏览时长。

关键词：推荐算法，序列评估，神经网络，Transformer，集束搜索，强化学习

一．问题重述1

1.1问题背景1

1.2需要解决的问题1

二．问题分析2

2.1问题一分析2

2.2问题二分析2

2.3问题三分析2

三．模型的假设2

四．符号说明3

五．模型的建立和求解4

5.1数据预处理4

5.1.1数据可视化及直观分析4

5.1.2数据分析6

5.1.3用户聚类9

5.2问题一求解10

5.2.1注意力机制和Transformer10

5.2.2基于Transformer的深度学习模型12

5.2.3基于最相似用户数据的估计模型14

5.2.4基于Transformer和相似用户估计的混合模型16

5.3问题二求解16

5.4问题三求解17

5.4.1集束搜索17

5.4.2强化学习18

六．模型分析21

6.1优缺点分析21

6.1.1模型的优点21

6.1.2模型的缺点21

七．参考文献21

八．附录22

8.1txt2csv.ipynb22

8.2analyze_data.ipynb29

8.3create_dataset.ipynb35

8.4classfyitemsbydoc_info.ipynb52

8.5splitdatabyuserid.ipynb57

8.6filltestreadily.ipynb60

8.7createuserdf.ipynb66

8.8test.ipynb72

8.9evaluate.ipynb76

8.10main.py78

8.11utils.py

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2021年MathorCup大数据竞优秀论文4.pdfVIP