- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN120278126A(43)申请公布日2025.07.08
(21)申请号202510758056.1
(22)申请日2025.06.09
(71)申请人湖南工商大学
地址410205湖南省长沙市岳麓区岳麓大
道569号
(72)发明人彭晗阮日青张技权李紫慕张金传刘星宝
(74)专利代理机构长沙轩荣专利代理有限公司43235
专利代理师丛诗洋
(51)Int.CI.
GO6FGO6FGO6NGO6N
40/166(2020.01)
40/205(2020.01)5/04(2023.01)
20/00(2019.01)
权利要求书3页说明书10页附图2页
(54)发明名称
基于三段式GRPO强化学习的裁判文书摘要生成方法
(57)摘要
CN120278126A本发明实施例中提供了一种基于三段式GRPO强化学习的裁判文书摘要生成方法,属于数据处理技术领域,具体包括:步骤1,建模三段式思维链;步骤2,根据三段式思维链对原始裁判文书数据集进行数据蒸馏与分层,得到不同类型的数据集,其中,所述类型包括高相关性、中相关性和低相关性;步骤3,使用高相关性数据集对大语言模型进行SFT监督微调训练;步骤4,利用全部数据集对训练后的大语言模型进行多阶段GRPO强化学习训练,得到目标模型;步骤5,将目标裁
CN120278126A
性。
建模三段式思维链
建模三段式思维链
根据三段式思维链对原始裁判文书数据集进行数据蒸馏与分层,得到不同类型的数据集
使用高相关性数据集对大语言模型进行SFT监督微调训练
利用全部数据集对训练后的大语言模型进行多阶段GRPO强化学习训练,得到目标模型
将目标裁判文书输入目标模型,生成目标摘要
步骤1
步骤2
步骤3
步骤4
步骤5
CN120278126A权利要求书1/3页
2
1.一种基于三段式GRPO强化学习的裁判文书摘要生成方法,其特征在于,包括:
步骤1,建模三段式思维链;
步骤2,根据三段式思维链对原始裁判文书数据集进行数据蒸馏与分层,得到不同类型的数据集,其中,所述类型包括高相关性、中相关性和低相关性;
步骤3,使用高相关性数据集对大语言模型进行SFT监督微调训练;
步骤4,利用全部数据集对训练后的大语言模型进行多阶段GRPO强化学习训练,得到目标模型;
步骤5,将目标裁判文书输入目标模型,生成目标摘要。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:
步骤1.1,定义三段式摘要格式,其中,所述三段式摘要格式包括对案件的实体提取、分析推理和摘要生成;
步骤1.2,设定通过预定义的Prompt模板引导模型按照三段式摘要格式生成输出内容的过程,形成三段式思维链。
3.根据权利要求2所述的方法,其特征在于,所述步骤2具体包括:
步骤2.1,使用大模型作为教师模型,根据三段式思维链对原始裁判文书数据集中的每个裁判文书重新生成三段式推理链摘要,形成训练样本;
步骤2.2,使用AI模型对训练样本与原始裁判文书数据集中的每个裁判文书对应的原始摘要进行相关性评分,其中,所述相关性评分的表达式为
Si=Deepseek-V3(Y;,Yref);
其中,Si是AI模型Deepseek-V3直接计算的摘要i的相关性得分,范围在[0,1]之间,Y是生成的三段式推理链摘要,Yref是原始摘要;
步骤2.3,按相关性评分对训练样本的三段式推理链摘要进行排序,然后按不同比例对排序后的摘要进行分层,形成高相关性数据集、中相关性数据集和低相关性数据集。
4.根据权利要求3所述的方法,其特征在于,所述步骤3具体包括:
利用高相关性数据集中预设数量的数据训练大语言模型,训练目标为将输入的裁判文书准确映射到标准的三段式结构输出,利用交叉熵损失函数对大语言模型进行全参数微
调。
5.根据权利要求4所述的方法,其特征在于,所述步骤4具体包括:
步骤4.1,设定多阶段GRPO强化学习训练的数据引入策略;
步骤4.2,从高相关性数据集中随机挑选一个三段式推理链摘要作为上下文学习模板;
步骤4.3,设定格式奖励、语言流畅性奖励、内容准确性奖励和上下文相似性奖励,据此形成总奖励;
步骤4.4,利用上下文学习模板生成原始裁判文书数据集中的每个裁判文书对应的多个候选摘要;
步骤4
您可能关注的文档
- CN120268230A 用于将配体偶联至复合材料的方法 (默克密理博有限公司).docx
- CN120268799A 一种用连铸连轧坯料生产1235合金电缆铝箔的方法 (洛阳龙鼎铝业有限公司).docx
- CN120268800A 一种铸轧8021合金铝箔的制备方法 (洛阳龙鼎铝业有限公司).docx
- CN120269155A 一种特种壳体的激光加工方法及装置 (和超高装(中山)科技有限公司).docx
- CN120269195A Pcb板盲孔加工方法、装置、激光钻孔设备和存储介质 (广州广合科技股份有限公司).docx
- CN120270096A 基于多源传感器数据的客车电池温控智能调控方法及系统 (无锡市宏宇汽车配件制造有限公司).docx
- CN120270477A 用于飞行器的飞行甲板的双折叠屏障系统和方法 (波音公司).docx
- CN120271426A 一种基于高塔分段填料的环己酮精馏提纯方法 (湖南东为化工新材料有限公司).docx
- CN120272671A 一种基于钢包车的转炉本体安装定位系统和方法 (中国十七冶集团有限公司).docx
- CN120273356A 一种水库渗漏检测修复设备及方法 (上海豫宏(金湖)防水科技有限公司).docx
- 九年级数学上学期练习人教版at04-期未提分四 圆.pptx
- 九年级数学上学期练习人教版d01-22.1 二次函数的图象和性质-22.1.1 二次函数.pptx
- 九年级数学下册练习t2.5.2.1 切线的判定.pptx
- 九年级数学下册练习bd专项突破6 二次函数与几何图形的存在性问题.pptx
- 九年级数学上学期练习人教版cy11-22.2 二次函数与一元二次方程.pptx
- 九年级数学下册练习bg专项突破9 不规则图形面积的求法.pptx
- 九年级数学上学期练习人教版dd12-21.3 实际问题与一元二次方程-第3课时 几何图形问题.pptx
- 九年级数学上学期练习人教版ae03-24.1 圆的有关性质-24.1.3 弧、弦、圆心角.pptx
- 九年级数学上学期练习人教版ak04-21.2 解一元二次方程-21.2.2 公式法 (2).pptx
- 九年级数学上学期练习人教版bw07-23.2 中心对称-23.2.3 关于原点对称的点的坐标.pptx
原创力文档


文档评论(0)