MINDVOTE: 当 AI 遇到社交媒体意见的狂野西部-计算机科学-大语言模型-社交媒体-跨文化评估.pdfVIP

MINDVOTE: 当 AI 遇到社交媒体意见的狂野西部-计算机科学-大语言模型-社交媒体-跨文化评估.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

MINDVOTE:当AI遇到社交媒体意见的狂野西部

XutaoMao,EzraTao

VanderbiltUniversity

Nashville,TN

{xutao.mao,ezra.tao}@

ABSTRACT

本社交环境中的真实意见预测是一个复杂的挑战,需要无缝集成三种不同的认知能力:领域适

译应、文化图式激活和情境支撑。核心困难在于现有任何一种基于投票的意见预测基准都没有

中要求大型语言模型(LLM)整合这三种能力,从而在我们评估真正的社会理解方面留下了一

个关键空白。借鉴认知科学原则,我们引入了思维投票,这是第一个评估自然主义社交媒体

2讨论中投票预测的基准。我们从Reddit和Weibo上的3,918个真实投票构建了MindVote,并

v

2且包含了传统基于调查的基准所忽略的丰富情境元数据。我们的评估揭示了三种理论现象,

2这些现象验证了认知科学假设:正式话语特权,在这种情况下,模型在机构性话语上表现优

4于口语化话语;语义空间殖民,展示了偏向于英语内容的表现偏差,而不仅仅是翻译痕迹;以

4

1及情境支撑依赖,当移除社会情境时性能下降。这些发现揭示了模型的局限性,填补了当前

.

5意见预测基准中的空白,并倡导开发具有真实跨文化意见预测能力的社会基础AI系统。我

0们的代码和数据可在https://anonymous.4open.science/r/mindvote-8DBC/获取。

5

2

:

vKeywords意见预测大型语言模型社交媒体跨文化评估LLM基准测试

i

x

r

a

1介绍

目前大型语言模型(LLMs)在民调设置中的意见预测基准通常将挑战视为简单的调查完成,剥离了关键的上

下文元素。这一方法从根本上与认知科学相悖,认知科学早就确立了真实的意见形成不是一个脱离上下文的

任务,而是一个深受文化框架、社会身份和环境支架影响的过程[1,2,3]。相比之下,在民调设置中针对大型

语言模型(LLM)进行意见预测的当前基准往往剥离这些上下文元素,将挑战视为简单的调查完成,并与这

些理论基础相悖[4,5,6]。这一脱节至关重要:随着LLMs越来越多地被部署以代理真实用户在数字社区中的

角色,它们有可能错误描绘身份群体并危及市场营销、政策制定和社区管理的战略决策[7,8,9]。借鉴社会认

知理论和心理学,我们确定了当前基准系统性忽视的民调设置中进行真正意见预测所需的三项能力:

领域适应。真实观点预测需要领域适应性——即模型能够根据特定的社会领域动态调整其预测方法的能力

[10,11]。情境认知理论认为,任务的背景系统地影响了表现结果。这一原则表明,大型语言模型(LLM)的

表现应该因社会领域的不同而变化,因为社交媒体上发现的正式机构话语和通俗社交互动提出了不同的预测

挑战[12,13,14]。当前基准未能评估这种适应能力,在正式民调中以政治话题为主导的问题占据了超过一半

的比例[4],这表现出严重的领域偏差,并且低估了日常社交媒体交流。实际平台数据证实了这一不匹配:娱

乐内容占微博流量的70%[15],而Reddit最大的社区关注的是游戏和技术,而不是政治辩论[16,17]。这种差

MindVote:人工智能与社交媒体舆论MindVote:人工智能与社交媒体舆论MindVote:人工智能与社交媒体舆论

Ionlyhaveformalstuff

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档