CN120296148A 一种大语言模型离散提示词搜索方法及装置（中山大学）.docxVIP

下载本文档

0
0
约3.19万字
约 53页
2026-01-22 发布于重庆
举报

CN120296148A 一种大语言模型离散提示词搜索方法及装置（中山大学）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN120296148A(43)申请公布日2025.07.11

(21)申请号202510485327.0

(22)申请日2025.04.17

(71)申请人中山大学

地址510275广东省广州市海珠区新港西

路135号

(72)发明人何笑雨彭柏淳裴泽霖潘毅郑子彬

(74)专利代理机构北京集佳知识产权代理有限公司11227

专利代理师陈彬

(51)Int.CI.

GO6F16/334(2025.01)

GO6F40/30(2020.01)

GO6N5/04(2023.01)

权利要求书3页说明书23页附图1页

(54)发明名称

一种大语言模型离散提示词搜索方法及装置

(57)摘要

CN120296148A本发明公开了一种大语言模型离散提示词搜索方法及装置，用于解决现有的离散提示词搜索技术，导致提示词优化的计算开销过大的技术问题。方法包括获取训练提示词和训练句子，并采用预置参数矩阵更新函数根据训练提示词对初始策略模型的初始参数矩阵进行更新，确定中间策略模型；采用中间策略模型和预置生成式语言模型根据训练句子进行推理，生成多个扰动离散提示词和多个推理结果；基于预置梯度计算公式，采用精英坐标下降算法根据多个扰动离散提示词和多个推理结果对中间策略模型的中间参数矩阵进行迭代优化，确定目标策略模型；基于目标策略模型，生成目标离散提示

CN120296148A

获取训练提示词和训练句子，并采用预置参数矩阵更

新函数根据训练提示词对初始策略模型的初始参数矩

阵进行更新，确定中间策略模型

采用中间策略模型和预置生成式语言模型根据训练句子进行推理，生成多个扰动离散提示词和多个推理结

果

基于预置梯度计算公式，采用精英坐标下降算法根据

多个扰动离散提示词和多个推理结果对中间策略模型

的中间参数矩阵进行迭代优化，确定目标策略模型

基于目标策略模型，生成目标离散提示词

101

102

103

104

CN120296148A权利要求书1/3页

1.一种大语言模型离散提示词搜索方法，其特征在于，包括：

获取训练提示词和训练句子，并采用预置参数矩阵更新函数根据所述训练提示词对初始策略模型的初始参数矩阵进行更新，确定中间策略模型；

采用所述中间策略模型和预置生成式语言模型根据所述训练句子进行推理，生成多个扰动离散提示词和多个推理结果；

基于预置梯度计算公式，采用精英坐标下降算法根据多个所述扰动离散提示词和多个所述推理结果对所述中间策略模型的中间参数矩阵进行迭代优化，确定目标策略模型；

基于所述目标策略模型，生成目标离散提示词。

2.根据权利要求1所述的大语言模型离散提示词搜索方法，其特征在于，所述预置生成式语言模型包括噪声模型、文本到文本迁移转换器、大语言模型；所述采用所述中间策略模型和预置生成式语言模型根据所述训练句子进行推理，生成多个扰动离散提示词和多个推理结果，包括：

基于所述中间策略模型，生成多个中间离散提示词；

采用噪声模型分别对各所述中间离散提示词进行扰动，生成各所述中间离散提示词对应的扰动离散提示词；

分别将各所述扰动离散提示词作为文本到文本迁移转换器的输入，输出各所述扰动离散提示词对应的训练语义句子；

将各所述训练语义句子分别和所述训练句子进行拼接，生成各所述训练语义句子对应的训练拼接句子；

分别将各所述训练拼接句子输入至大语言模型，输出各所述训练拼接句子对应的训练推理结果。

3.根据权利要求1所述的大语言模型离散提示词搜索方法，其特征在于，所述预置梯度计算公式包括参数矩阵梯度计算公式和策略模型梯度计算公式；所述基于预置梯度计算公式，采用精英坐标下降算法根据多个所述扰动离散提示词和多个所述推理结果对所述中间策略模型的中间参数矩阵进行迭代优化，确定目标策略模型，包括：

根据各所述推理结果，计算各所述推理结果对应的损失值；

基于各所述损失值，确定各所述损失值对应的目标函数值；

对各所述目标函数值进行升序排序，确定各所述目标函数值对应的排名秩；

对各所述排名秩进行归一化，确定各所述目标函数值对应的权重值；

CN120296148A 一种大语言模型离散提示词搜索方法及装置（中山大学）.docxVIP