十年新闻论坛互动-线程对话、带签名投票和主题标签-计算机科学-机器学习.pdf

十年新闻论坛互动-线程对话、带签名投票和主题标签-计算机科学-机器学习.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
我们提供了一个大规模的纵向数据集,捕捉奥地利主要报纸《标准报》在线平台上的用户活动。该数据集涵盖了十年(2013–2022)的时间范围,并包含了超过7500万条评论、4亿多条投票以及文章和用户互动的详细元数据。它提供了结构化的对话线程,用户评论的明确点赞和踩踏,以及编辑主题标签,这使得可以对在线讨论进行丰富的分析同时保护用户隐私。为了确保这一隐私,所有持久标识符都使用加盐哈希函数进行了匿名处理,并且原始评论文本并未公开分享。相反,我们发布了从最先进的嵌入模型导出的预计算向量表示。该数据集

十年新闻论坛互动:线程对话、带签名投票和主题

标签

EmmaFraxanet,VicençGómez,AndreasKaltenbrunner,MaxPellert

2025年6月

本摘要

译我们提供了一个大规模的纵向数据集,捕捉奥地利主要报纸《标准报》在线平台上

中的用户活动。该数据集涵盖了十年(2013–2022)的时间范围,并包含了超过7500万

1条评论、4亿多条投票以及文章和用户互动的详细元数据。它提供了结构化的对话线

v

4程,用户评论的明确点赞和踩踏,以及编辑主题标签,这使得可以对在线讨论进行丰

2富的分析同时保护用户隐私。为了确保这一隐私,所有持久标识符都使用加盐哈希函

2

2数进行了匿名处理,并且原始评论文本并未公开分享。相反,我们发布了从最先进的

2

6.嵌入模型导出的预计算向量表示。该数据集支持关于讨论动态、网络结构和语义分析

0的研究,在中等资源语言德语中提供了一个可重复使用的资源,适用于计算社会科学

5

2及相关领域。

:

v

i

x

r背景和总结

a

社交媒体已成为世纪最初四分之一的definingaspect。对于研究人员来说,社交

媒体平台是有吸引力的數據來源,因为它们提供了对大规模、自然发生和连续的人类交流

和互动数据的访问。然而,我们越来越发现,对这些数据的直接访问受到限制,许多商业平

台都在限制或关闭公共API。此外,以讨论特定主题(如政治事件或科学)为导向的主流

社交平台可能会迅速发生用户迁移或主题焦点转移,正如在Twitter/X[1]中所见。在这种

情况下,附加到新闻媒体网站的在线讨论论坛代表了一种有价值且相对稳定的替代方案。

在以前的工作中,基于新闻的评论区已被证明会影响读者对文章质量的感知[2,3],塑造观

点[4],并充当挑战主流叙事的反公共空间[5]。这些平台通常结合了结构化的评论线程、编

辑背景和高质量的审核文本内容,使其特别适合纵向和社区层面的分析[6,7]。

我们提供了一个大规模的纵向数据集,该数据集提供了关于奥地利报纸DerStandard

在线平台上的用户讨论。涵盖从2013年到2022年的整个十年,该数据集包括超过7500万

1

图1:DerStandard评论平台界面的示例。屏幕截图显示了一个用户评论及其右上角的投

票摘要,表明了点赞数(绿色)和踩点数(红色)。通过将鼠标悬停在条形图上,用户可以

看到谁投了票以及他们的投票方式(点赞或踩点)。评论以线程格式显示,并附有时间戳和

回复链接。我们在示例中模糊了用户名。用户还可以分享并标记某个评论为不适当(分别

点击分享和举报图标)。

条用户的带时间戳的评论、这些评论上超过4亿次的点赞和点踩,以及新闻文章的详细元

数据,包括编辑主题标签。文件结构和元数据字段的详细概述见图5。

《标准报》是一份于1988年创立的奥地利印刷报纸。早在1995年,它就上线了,在其

声称是第一份在网页上出现的主要德语报纸。它早期采用了数字社区功能,从聊天室开始,

并逐渐演变为新闻文章下方注册用户可以参与讨论的空间,这导致了一个高度活跃的用户

论坛。用户可以在文章下发表评论、对其他人的评论进行投票并参与结构化的讨论线程(参

见图1以获取界面示例)。通过与奥地利人工智能研究所(OFAI)[8]等外部研究机构合作开

发的半自动化系统来进行内容审核,从而将平台上低质量文本内容降至最低。《标准报》的

用户群体比代表性的奥地利人口更倾向于男性、年轻和高学历[9,p.3-4inSI]

为了保护用户隐私,我们使用带盐加密哈希(参见第1.2节)对所有持久性标识符(如

用户和评论ID)进行匿名处理,并且我们不会公开分发评论的原始文本。

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档