- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAPERSPLEASE:基于ERG理论评估大型语言模型动机价值的基准测试
JunhoMyung*YeonSuPark*SunwooKim*ShinYooAliceOh
KAIST
{junho00211,yeonsupark,jaemo98,shin.yoo}@kaist.ac.kr,alice.oh@
摘要在结构化角色扮演情境中的决策过程,研究了
LLMs如何优先考虑人类动机价值观并对社会
评估大型语言模型(LLMs)在角色扮演场
身份线索作出反应。
本景中的表现和偏见越来越常见,因为这些*
译情况下LLMs往往表现出有偏见的行为。我们的评估框架受到了游戏请出示证件
中在此类研究的基础上,我们引入了PAPER-的启发,在该游戏中,大语言模型充当移民检
SPLEASE,这是一个由3,700个道德困境组查员,根据简短的叙述决定是否批准或拒绝个
1
v成的基准测试,旨在调查LLMs在优先考虑人入境。每个叙述都是基于存在、关联和成长
1不同层次的人类需求方面的决策情况。在(ERG)理论构建的,这是一个心理框架,将人
6
9我们的设置中,LLMs扮演移民检查员的角类动机分为三个核心维度(Alderfer,1969)。存
1色,根据人们的简短叙述决定是否批准或
2在的需求包括生理和安全要求;关联的需求涉
.拒绝入境。这些叙述是基于存在、关联和成
6及培养和维持人际关系;而成长的需求则反映
0长(ERG)理论构建的,该理论将人类需求分
5为三个等级层次。我们对六个LLMs的分析了个人发展和自我实现。这些类别遵循一个层
2
:显示了决策中的统计显著模式,表明LLMs次结构,存在位于底部,其次是关联,然后是
v
i编码了隐含偏好。此外,我们评估了将社会成长。
x
r身份纳入叙述中所造成的影响,结果显示
a我们引入了PAPERSPLEASE,这是一个由
基于动机需求和身份线索的不同响应性,
3700个角色扮演叙述组成的全新基准,在这些
某些模型对边缘化身份表现出更高的拒绝
叙述中,大型语言模型必须根据个人故事做出
率。所有数据均可在/yeon-
suuuu28/papers-please公开获取。移民决定。每个叙述都呈现了一个寻求入境的
虚构人物,他们的动机基于ERG理论中的三
1介绍个类别之一。为了评估潜在的社会偏见,我们
还在每个故事中融入了种族、性别和宗教的身
您可能关注的文档
最近下载
- 电能“发、输、变、配、用”五环节简介.pptx VIP
- 先进算力中心建设规划方案.docx VIP
- 安装钳工基础知识全集课件.ppt VIP
- 部编版六年级语文上册第三单元 习作_____让生活更美好 课件(共32张PPT).pptx VIP
- 医疗器械唯一标识管理制度(UDI).docx VIP
- 感术行动专项实施方案.docx VIP
- 企业案例广州超算中心 企业案例广州超算中心、项目建设规划、项目需求分析 1.3项目建设规划.docx VIP
- 音频处理软件:Adobe Audition二次开发_17.社区资源与支持.docx VIP
- 数控铣床第一章 数控铣床概述.ppt VIP
- 偏差报告单【范本模板】.doc VIP
文档评论(0)