CN120257948A 基于大模型的文案生成方法、装置、设备及介质 (北京衔远有限公司).docxVIP

CN120257948A 基于大模型的文案生成方法、装置、设备及介质 (北京衔远有限公司).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN120257948A(43)申请公布日2025.07.04

(21)申请号202510735918.9

(22)申请日2025.06.04

(71)申请人北京衔远有限公司

地址100080北京市海淀区学院路51号首

享科技大厦第三层306室申请人北京衔远科技有限公司

(72)发明人田锴袁振钊郑元春谢树雷

(74)专利代理机构北京嘉科知识产权代理事务所(特殊普通合伙)11687

专利代理师陈美君

(51)Int.CI.

GO6F40/166(2020.01)

GO6N3/092(2023.01)

权利要求书3页说明书16页附图6页

(54)发明名称

基于大模型的文案生成方法、装置、设备及

介质

(57)摘要

CN120257948A本申请涉及人工智能技术领域,提供了一种基于大模型的文案生成方法、装置、设备及介质。该方法使用了强化学习算法对大语言模型构成的文案生成基座模型进行调整训练,以使训练后的基座模型能够生成更为可靠、优质的文案;其中,在使用强化学习算法在对基座模型进行微调训练时,首先基于规则驱动类的第一奖励函数对基座模型进行第一次训练,然后利用奖励模型确定第二奖励函数,并将第一奖励函数和第二奖励函数加权组合得到目标奖励函数,再基于目标奖励函数对基座模型进行第二次训练,从而实现了

CN120257948A

响应于接收到生成文案指令,获取基座模型

响应于接收到生成文案指令,获取基座模型

S102

确定第一奖励函数,该第一奖励函数为规则驱动奖励函数

S103

使用强化学习算法基于第一奖励函数对基座模型进行微调训练,得到第一次训练后的基座模型

S104

调用至少一个奖励模型确定第二奖励函数

将第一奖励函数与第二奖励函数加权组合得到目标奖励函数,

使用强化学习算法基于目标奖励函数对第一次训练后的基座模

型进行微调训练,得到第二次训练后的基座模型

S106

基于生成文案指令使用第二次训练后的基座模型生成文案

S105

CN120257948A权利要求书1/3页

2

1.一种基于大模型的文案生成方法,其特征在于,包括:

响应于接收到生成文案指令,获取基座模型,所述基座模型为第一预训练大语言模型;

确定第一奖励函数,所述第一奖励函数为规则驱动奖励函数,所述规则基于文案内容要素、文案风格约束、文案违规规则及文案生成过程约束中的至少一项确定;

使用强化学习算法基于所述第一奖励函数对所述基座模型进行微调训练,得到第一次训练后的基座模型;

调用至少一个奖励模型确定第二奖励函数;

将所述第一奖励函数与所述第二奖励函数加权组合得到目标奖励函数,使用强化学习算法基于所述目标奖励函数对所述第一次训练后的基座模型进行微调训练,得到第二次训练后的基座模型;

基于所述生成文案指令使用所述第二次训练后的基座模型生成文案。

2.根据权利要求1所述的方法,其特征在于,所述确定第一奖励函数,包括:

基于所述生成文案指令确定文案内容要素规则和文案风格约束规则,并获取文案违规规则和文案生成过程约束规则;

基于每一项规则确定一个规则子任务奖励函数;

将各规则子任务奖励函数加权组合,得到所述第一奖励函数。

3.根据权利要求2所述的方法,其特征在于,基于每一项规则确定一个规则子任务奖励函数,包括:

基于文案内容要素规则确定第一规则子任务奖励函数,所述第一规则子任务奖励函数对包括所述内容要素的生成文案给予奖励,并对遗漏所述内容要素的生成文案给予惩罚;

基于文案风格约束规则确定第二规则子任务奖励函数,所述第二规则子任务奖励函数对符合所述文案风格的生成文案进行奖励,并对不符合所述文案风格的生成文案进行惩罚;其中,所述文案风格通过文案的格式、文案的语体类型和文案的语言风格中的至少一项确定;

基于文案违规规则确定第三规则子任务奖励函数,所述第三规则子任务奖励函数对符合所述文案违规规则的生成文案给予奖励,并对不符合所述文案违规规则的生成文案给予

惩罚;

基于文案生成过程约束规则确定第四规则子任务奖励函数,所述第四规则子任务奖励函数对满足文案生成过程约束规则的生成文案给予奖励,并对不满足文案生成过程约束规则的生成文案给予奖励;其中,所述文案生成过程约束规则包括,文案按照先思考过程后输出内容的格式生成。

4.根据权利要求1所述的方法,其特征在于,调用至少一个奖励模型确定第二奖

您可能关注的文档

文档评论(0)

xm + 关注
实名认证
文档贡献者

专业学习资料,专业文档

1亿VIP精品文档

相关文档