CN120278126A 基于三段式grpo强化学习的裁判文书摘要生成方法（湖南工商大学）.docxVIP

下载本文档

0
0
约1.66万字
约 29页
2026-01-19 发布于重庆
举报
版权申诉

CN120278126A 基于三段式grpo强化学习的裁判文书摘要生成方法（湖南工商大学）.docx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN120278126A(43)申请公布日2025.07.08

(21)申请号202510758056.1

(22)申请日2025.06.09

(71)申请人湖南工商大学

地址410205湖南省长沙市岳麓区岳麓大

道569号

(72)发明人彭晗阮日青张技权李紫慕张金传刘星宝

(74)专利代理机构长沙轩荣专利代理有限公司43235

专利代理师丛诗洋

(51)Int.CI.

GO6FGO6FGO6NGO6N

40/166(2020.01)

40/205(2020.01)5/04(2023.01)

20/00(2019.01)

权利要求书3页说明书10页附图2页

(54)发明名称

基于三段式GRPO强化学习的裁判文书摘要生成方法

(57)摘要

CN120278126A本发明实施例中提供了一种基于三段式GRPO强化学习的裁判文书摘要生成方法，属于数据处理技术领域，具体包括：步骤1,建模三段式思维链；步骤2,根据三段式思维链对原始裁判文书数据集进行数据蒸馏与分层，得到不同类型的数据集，其中，所述类型包括高相关性、中相关性和低相关性；步骤3,使用高相关性数据集对大语言模型进行SFT监督微调训练；步骤4,利用全部数据集对训练后的大语言模型进行多阶段GRPO强化学习训练，得到目标模型；步骤5,将目标裁

CN120278126A

性。

建模三段式思维链

根据三段式思维链对原始裁判文书数据集进行数据蒸馏与分层，得到不同类型的数据集

使用高相关性数据集对大语言模型进行SFT监督微调训练

利用全部数据集对训练后的大语言模型进行多阶段GRPO强化学习训练，得到目标模型

将目标裁判文书输入目标模型，生成目标摘要

步骤1

步骤2

步骤3

步骤4

步骤5

CN120278126A权利要求书1/3页

1.一种基于三段式GRPO强化学习的裁判文书摘要生成方法，其特征在于，包括：

步骤1,建模三段式思维链；

步骤2,根据三段式思维链对原始裁判文书数据集进行数据蒸馏与分层，得到不同类型的数据集，其中，所述类型包括高相关性、中相关性和低相关性；

步骤3,使用高相关性数据集对大语言模型进行SFT监督微调训练；

步骤4,利用全部数据集对训练后的大语言模型进行多阶段GRPO强化学习训练，得到目标模型；

步骤5,将目标裁判文书输入目标模型，生成目标摘要。

2.根据权利要求1所述的方法，其特征在于，所述步骤1具体包括：

步骤1.1,定义三段式摘要格式，其中，所述三段式摘要格式包括对案件的实体提取、分析推理和摘要生成；

步骤1.2,设定通过预定义的Prompt模板引导模型按照三段式摘要格式生成输出内容的过程，形成三段式思维链。

3.根据权利要求2所述的方法，其特征在于，所述步骤2具体包括：

步骤2.1,使用大模型作为教师模型，根据三段式思维链对原始裁判文书数据集中的每个裁判文书重新生成三段式推理链摘要，形成训练样本；

步骤2.2,使用AI模型对训练样本与原始裁判文书数据集中的每个裁判文书对应的原始摘要进行相关性评分，其中，所述相关性评分的表达式为

Si=Deepseek-V3(Y;,Yref);

其中，Si是AI模型Deepseek-V3直接计算的摘要i的相关性得分，范围在[0,1]之间，Y是生成的三段式推理链摘要，Yref是原始摘要；

步骤2.3,按相关性评分对训练样本的三段式推理链摘要进行排序，然后按不同比例对排序后的摘要进行分层，形成高相关性数据集、中相关性数据集和低相关性数据集。

4.根据权利要求3所述的方法，其特征在于，所述步骤3具体包括：

利用高相关性数据集中预设数量的数据训练大语言模型，训练目标为将输入的裁判文书准确映射到标准的三段式结构输出，利用交叉熵损失函数对大语言模型进行全参数微

调。

5.根据权利要求4所述的方法，其特征在于，所述步骤4具体包括：

步骤4.1,设定多阶段GRPO强化学习训练的数据引入策略；

步骤4.2,从高相关性数据集中随机挑选一个三段式推理链摘要作为上下文学习模板；

步骤4.3,设定格式奖励、语言流畅性奖励、内容准确性奖励和上下文相似性奖励，据此形成总奖励；

步骤4.4,利用上下文学习模板生成原始裁判文书数据集中的每个裁判文书对应的多个候选摘要；

步骤4

您可能关注的文档

文档评论（0）

aabbcc + 关注: 实名认证

文档贡献者

若下载文档格式有问题，请咨询qq1643702686索取原版

咨询Ta 进入空间

1亿VIP精品文档

更多 >

CN120278126A 基于三段式grpo强化学习的裁判文书摘要生成方法（湖南工商大学）.docxVIP