第二章:构建 Prompt Injection 防御系统代码.docxVIP

  • 1
  • 0
  • 约7.48千字
  • 约 9页
  • 2026-05-28 发布于湖北
  • 举报

第二章:构建 Prompt Injection 防御系统代码.docx

第二章:构建PromptInjection防御系统代码

2.1章节目标

PromptInjection防御系统的目标是:

识别用户输入中的注入意图

防止用户影响系统提示词、策略、工具权限

控制LLM对外部工具的调用范围

检测并阻断模型输出中的敏感信息泄露

为所有关键事件提供可审计记录

适用于:

聊天机器人

Agent系统

RAG检索问答

工单助手

企业内部Copilot

2.2防御体系总览

建议把防御系统设计成5层:

输入防护层

检测注入表达

限制危险命令型文本

标记高风险请求

上下文隔离层

系统提示与用户输入严格分离

检索内容单独分区

工具返回内容与用户请求分离

工具调用控制层

白名单工具

参数校验

调用次数限制

高风险工具二次确认

输出审查层

敏感数据脱敏

策略违规内容拦截

泄露系统prompt检测

审计与追踪层

请求ID

用户ID

命中规则

最终处置结果

2.3关键设计原则

2.3.1系统提示不可暴露

系统提示词、策略、工具schema、内部规则,不应直接返回给用户。

2.3.2工具调用必须受控

模型不能自由调用任何工具,必须经过服务端验证。

2.3.3外部内容不可信

来自网页、文档、邮件、用户上传文件的内容,都应视为“不可信输入”。

2.3.4输出前必须复检

即使模型生成成功,也要在返回前做一次输出审查。

2.4推荐系统架构

文档评论(0)

1亿VIP精品文档

相关文档