CN118551366B 提示注入攻击防御方法、装置、存储介质及电子设备 (蚂蚁科技集团股份有限公司).docxVIP

  • 0
  • 0
  • 约2.99万字
  • 约 43页
  • 2026-01-24 发布于重庆
  • 举报

CN118551366B 提示注入攻击防御方法、装置、存储介质及电子设备 (蚂蚁科技集团股份有限公司).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN118551366B(45)授权公告日2025.01.10

(21)申请号202411031026.2

(22)申请日2024.07.30

(65)同一申请的已公布的文献号申请公布号CN118551366A

(43)申请公布日2024.08.27

(73)专利权人蚂蚁科技集团股份有限公司

地址310007浙江省杭州市西湖区西溪路

543号-569号(单号连续)1幢2号楼5层517室

(72)发明人刘焱翁海琴

(74)专利代理机构上海东信专利商标事务所(普通合伙)31228

专利代理师李丹杨丹莉

GO6F21/55(2013.01)GO6F16/3329(2025.01)GO6N5/04(2023.01)

GO6N3/088(2023.01)G06N3/0455(2023.01)

(56)对比文件

CN117972794A,2024.05.03

CN117709439A,2024.03.15CN117332040A,2024.01.02审查员曾娜

(51)Int.CI.

GO6F21/54(2013.01)权利要求书3页说明书16页附图5页

(54)发明名称

提示注入攻击防御方法、装置、存储介质及电子设备

(57)摘要

CN118551366B本说明书实施例公开了一种提示注入攻击防御方法、装置、存储介质及电子设备,首先,在检测到向部署的大语言模型发起的当前提问请求时,通过预注入的安全切面服务拦截所述当前提问请求,并通过安全切面服务对当前提问请求进行伪装指令消除,得到目标提问请求,将目标提问请求输入到大语言模型中,以确定当前提问请求对应的安全回答反馈数据。本技术方案能够有效避免提示注入攻击,且不依赖于专家先验知识,提升提示注入攻击的防御准确性,提升大语言模型服务的安全性;同时,基于安全切面服务也不需要调整大语言模型的基础架构,有效降低

CN118551366B

响应于检测到向部暑的大语言模型发起的当前提问请求,通过预注入的安全切面服务拦截所述当前提问请求

通过所述安全切面服务对所述当前提问请求进行伪装指令消除,得到目标提问请求

将所述目标提问请求输入到所述大语言模型中,以确定所述当前提问请求对应的安全回答反馈数据

S210

-S220

S230

CN118551366B权利要求书1/3页

2

1.一种提示注入攻击防御方法,所述方法包括:

响应于检测到向部署的大语言模型发起的当前提问请求,通过预注入的安全切面服务拦截所述当前提问请求;

通过所述安全切面服务对所述当前提问请求进行伪装指令消除,得到目标提问请求;其中,所述伪装指令消除用于针对所述当前提问请求中的用户输入内容进行意图识别,并将识别出的属于指令伪装意图的用户输入内容替换为具有相同语义但不具有指令效用的安全输入内容;所述安全输入内容是将通过所述用户输入内容和伪装指令转换提示模版构建的伪装指令转换提示数据输入所述大语言模型而得到的;所述伪装指令转换提示模版为用于引导大语言模型将存在伪装指令的用户输入内容转换为具有相同语义且不具有指令效用的内容的模版;

将所述目标提问请求输入到所述大语言模型中,以确定所述当前提问请求对应的安全回答反馈数据。

2.根据权利要求1所述的提示注入攻击防御方法,所述安全切面服务包括指令输入检测模型,所述通过所述安全切面服务对所述当前提问请求进行伪装指令消除,得到目标提问请求,包括:

将所述当前提问请求输入到所述指令输入检测模型中,识别所述当前提问请求中的用户提问指令和/或用户输入内容;

根据所述用户提问指令和/或所述用户输入内容对所述当前提问请求进行指令标注,得到所述目标提问请求。

3.根据权利要求2所述的提示注入攻击防御方法,根据所述用户提问指令和所述用户输入内容对所述当前提问请求进行指令标注,得到所述目标提问请求,包括:

确定所述用户提问指令和所述用户输入内容在所述当前提问请求中的位置坐标;

在所述用户提问指令对应的位置坐标处添加指令标识符,以及,在所述用户输入内容对应的位置坐标处添加输入标识符,得到同时标注有所述指令标识符和所述输入标识符的中间提问请求;

文档评论(0)

1亿VIP精品文档

相关文档