是什么让你点击:克罗地亚点击诱饵标题的检测-计算机科学-机器学习-广告收入-大语言模型.pdf

是什么让你点击:克罗地亚点击诱饵标题的检测-计算机科学-机器学习-广告收入-大语言模型.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

是什么让你点击:克罗地亚点击诱饵标题的检测

MarijaAneliDominikipekLauraMajerJannajder

UniversityofZagreb,FacultyofElectricalEngineeringandComputing

TakeLab

{marija.andjelic,dominik.sipek,laura.majer,jan.snajder}@fer.hr

Abstract受到对点击诱饵负面感知的驱动,点击诱饵检

测——自动检测旨在吸引注意力的误导性或

在线新闻机构主要依赖广告收入模式运

营,这迫使记者们创作往往具有争议性、引煽动性的标题的任务——在NLP社区内引起

人入胜且挑衅性的标题——通常被称为点了相当大的兴趣。任务从基于特征的语言方法

击诱饵。自动检测诱饵式标题对于维护数(Potthastetal.,2016)进展到神经架构(Agrawal,

字媒体的信息质量和读者信任至关重要,2016),基于转换器的模型展示了显著的性能提

本并需要具备上下文理解和世界知识。在这升(Zhuetal.,2023)。尽管主要以英语进行研究,

译个任务中,特别是在资源较少的语言中,尚但也存在针对资源较少的语言的研究,包括意

中不清楚微调方法或上下文学习(ICL)是否大利语(Russoetal.,2024)、匈牙利语(Vincze

1能产生更好的结果。本文编译了点击,这

v是一个用于检测克罗地亚新闻标题诱饵的andSzabó,2020)、罗马尼亚语(GîngaandUban,

4全新数据集,涵盖了20年的跨度,并包括2024)和保加利亚语(Karadzhovetal.,2017)。

1

3主流和边缘化媒体来源。我们在这个任务大型语言模型(LLMs)的广泛应用,尤其

4

1上对BERTi模型进行了微调,并将其性能是使用上下文学习(ICL),使这些模型成为检

.

7与基于LLM的ICL方法进行比较,这些方测点击诱饵的一个合理选择。然而,在多种任

0法使用了克罗地亚语和英语提示。最后,我

5务中,LLMs对资源较少的语言表现出显著的

2们分析了诱饵标题的语言特性。我们发现,

:表现差距(RigoutsTerrynanddeLhoneux,2024;

v几乎一半被分析的标题包含诱饵成分,并

iLietal.,2024),在这种情况下,特定语言上预

x且微调后的模型比通用LLM提供了更好的

r结果。训练的小型Transformer模型可能会胜过它们

a

´

(LjubešicandLauc,2021)。

1介绍

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档