使用带有用户画像的 LLM 作为评判标准评估播客推荐效果.pdfVIP

使用带有用户画像的 LLM 作为评判标准评估播客推荐效果.pdf

使用带有用户画像的LLM作为评判标准评

估播客推荐效果

FrancescoFabbriGustavoPenhaEdoardoD’Amico

SpotifySpotifySpotify

SpainNetherlandsSpain

AliceWangMarcoDeNadaiJackieDoremus

SpotifySpotifySpotify

UnitedStatesDenmarkUnitedStates

本PaulGigioliAndreasDamianouOskarStål

译SpotifySpotifySpotify

中UnitedStatesUnitedKingdomSweden

vMouniaLalmas

7Spotify

8UnitedKingdom

8摘要模式，充当紧凑、可解释的用户偏好的表示。我们不使

0用原始数据提示LLM，而是使用这些配置文件提供高

5评估个性化推荐仍然是一个中心挑战，尤其是在播客

2层次、语义丰富的上下文——使LLM更有效地推理用

:等长格式音频领域，传统的离线指标受到曝光偏差的

v户兴趣与推荐剧集之间的对齐情况。这降低了输入复

i影响，在线方法如A/B测试成本高昂且操作受限。在

x杂性并提高了可解释性。然后提示LLM根据配置文件-

r本文中，我们提出了一种新的框架，利用大型语言模

a剧集匹配交付细粒度的点式和成对判断。在一项包含

型（LLMs）作为离线裁判来以可扩展和可解释的方式

47名参与者的受控研究中，我们的配置文件感知裁判

评估播客推荐的质量。我们的两阶段配置文件感知方

以高保真度匹配了人类判断，并且优于或匹敌使用原

法首先构建了从90天收听历史中提炼出的自然语言

始收听历史记录变体的方法。该框架允许推荐系统进

更多 >