监狱:揭示大型语言模型的犯罪潜能.pdfVIP

  • 0
  • 0
  • 约3.56万字
  • 约 14页
  • 2026-03-09 发布于北京
  • 举报

监狱:揭示大型语言模型的犯罪潜能.pdf

监狱:揭示大型语言模型的犯罪潜能

XinyiWuGengHongPeiChenYueyueChenXudongPanMinYang

FudanUniversityShanghaiInnovationInstitute

{xinyiwu20,ghong,peichen19}@fudan.edu.cn

yueyuechen25@m.fudan.edu.cn,{xdpan,m_yang}@fudan.edu.cn

Abstract

随着大型语言模型(LLMs)的进步,人们对它们在复杂社会环境中的不当

行为的担忧日益增加。现有研究忽视了对它们在实际互动中犯罪能力的系

本统理解和评估。我们提出一个统一框架PRISON,以量化LLMs在五个特征

译方面的犯罪潜力:虚假

文档评论(0)

1亿VIP精品文档

相关文档