大语言模型（LLM）安全测评基准V1.0.docx

下载文档

0
0
约9.43千字
约 26页
2024-12-26 发布于山西
举报
版权申诉
保障服务

大语言模型（LLM）安全测评基准V1.0.docx

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大语言模型（LLM）安全性测评基准v1.0

1/13

大语言模型（LLM）安全性测评基准v1.0

导语

2022年以来，大语言模型（LLM）技术在自然语言处理领域得到了广泛的应用和发展，GPT系列模型因其惊人的语言生成能力获得世界瞩目，国内外各大厂商也在此领域展开了激烈竞争。2023年8月15日，国家六个部委发布的《生成式人工智能服务管理暂行办法》正式施行，该办法强调了大语言模型安全的重要性，防止生成潜在隐私泄露、违法犯罪内容。

因此，为评估大语言模型应用及服务的安全性，腾讯混元大模型、腾讯朱雀实验室联合清华大学、OWASP中国推出大语言模型（LLM）安全性测评基准，旨在评估大语言模型在Prompt安全和内容安全方面的能力，为企业的大语言模型应用或服务改进提供建议和指导。

编写团队

裴歌（腾讯混元大模型项目组）、冉娜（腾讯朱雀实验室）、裴伟伟（洞源实验室）、马云卓（洞源实验室）

指导专家

江勇（清华大学深圳国际研究生院）、夏树涛（清华大学深圳国际研究生院）、沈蔚锋（长安通信众测平台）、彭泉（广东安证计算机司法鉴定所）

大语言模型（LLM）安全性测评基准v1.0

2/13

一、背景

大语言模型（LLM，LargeLanguageModel）是指参数量巨大、能够处理海量数据的模型,此类模型通常具有大规模的参数，使得它们能够处理更复杂的问题，并学习更广泛的知识。

目前市场上出现了越来越多的商用和开源大模型产品和服务，用户使用大模型产品或服务时需要提供prompt（提示）作为输入，模型会尝试将prompt与它所学习到的知识相匹配，从而生成与提示相关的输出。PromptEngineering（提示工程学）即是通过设计和优化输入提示来提高大型语言模型的性能和效果，它通过提供清晰、简洁和具有针对性的提示，帮助模型更好地理解问题、提供准确的答案，并提高模型的可解释性和可控性。

由于庞大的规模和复杂的结构，大语言模型也存在多种安全风险，如prompt误

导、数据隐私泄露、模型解释性不足等。如果prompt与模型所学习到的模式不匹配或存在偏差，模型的输出可能会产生意想不到的结果，这些结果不仅会影响模型的效

果，在严肃的商用场景下，还可能对用户和企业带来诸如经济损失、声誉影响等风险。因此，企业和政府对大模型相关产品安全性的关注和重视程度也在逐渐增加。

目前对大模型的全面测评大多关注于大模型基础能力，包括分类、信息抽取、阅读理解、表格问答、逻辑推理、知识问答等方面，而缺乏全面的安全性测评基准，这使得公众和企业在使用大语言模型相关产品和服务时缺乏客观的对比和认识。

本测评基准设立的目的是创建一个全面、客观、中立的大语言模型安全测评基准，供企业、机构或团队在选择大语言模型产品和服务时作为参考依据。

二、范围

本测评基准的范围仅限于大语言模型（包括商用服务和开源模型）在用户输入

prompt的操作后大语言模型输出相应结果的场景，与OWASP大语言模型应用程序十大风险相比更侧重模型自身的安全性和基于国内法律法规的合规性。

基准范围不包括模型在分类能力、信息抽取能力、阅读理解能力、表格问答能力、逻辑推理能力、知识问答能力等基础能力的表现。

大语言模型（LLM）安全性测评基准v1.0

3/13

三、参考文件

l《Taxonomyofrisksposedbylanguagemodels》

l《OWASPTop10forLargeLanguageModelApplications》

l《生成式人工智能服务管理暂行办法》

l《生成式人工智能服务安全基本要求》（征求意见稿）

l《网络安全标准实践指南生成式人工智能服务内容识别方法》

l《网络信息内容生态治理规定》

四、术语

LLM（LargeLanguageModel）

参数量巨大，在大量本文数据上训练，可以执行广泛的任务的人工智能模型，旨在理解和生成人类语言。

提示词注入（PromptInjection）

在提示词中添加精心制作的恶意指令，绕过LLM内置审核系统，使模型忽略先前的指令或执行非计划的恶意操作，诱导模型返回非预期的结果。

对抗样本（AdversarialExample）

泛指在图像中添加不影响人类视觉感知的噪声，影响视觉算法对图像的理解。此处特指在prompt中添加无意义的字符串，影响大模型的输出。

风险（Risk）

对目标的不确定性影响。

违法信息

参见附录。

不良信息

参见附录。

大语言模型（LLM）安全性测评基准v1.0

4/13

五、基准概要

该基准是大语言模型产品或服务在面对用户进行prompt

您可能关注的文档

文档评论（0）

186****0576 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：5013000222000100

1亿VIP精品文档

更多 >

大语言模型（LLM）安全测评基准V1.0.docx