CN112221152B 人工智能ai模型的训练方法、装置、设备及介质（腾讯科技（深圳）有限公司）.docxVIP

下载本文档

0
0
约4.15万字
约 62页
2026-01-19 发布于重庆
举报
版权申诉

CN112221152B 人工智能ai模型的训练方法、装置、设备及介质（腾讯科技（深圳）有限公司）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN112221152B(45)授权公告日2025.07.11

(21)申请号202011164804.7

(22)申请日2020.10.27

(65)同一申请的已公布的文献号申请公布号CN112221152A

(43)申请公布日2021.01.15

(56)对比文件

CN111111220A,2020.05.08CN111389010A,2020.07.10审查员高骏

(73)专利权人腾讯科技(深圳)有限公司

地址518057广东省深圳市南山区高新区

科技中一路腾讯大厦35层

(72)发明人韩国安邱福浩王亮付强

(74)专利代理机构北京三高永信知识产权代理有限责任公司11138

专利代理师徐立

(51)Int.CI.

A63F13/67(2014.01)

GO6N20/00(2019.01)权利要求书3页说明书21页附图9页

(54)发明名称

人工智能AI模型的训练方法、装置、设备及介质

(57)摘要

CN112221152B本申请公开了一种人工智能AI模型的训练方法、装置、设备及介质，涉及人工智能的机器学习领域。该方法包括：调用人工智能AI模型在游戏程序中进行游戏对局获得训练数据，训练数据包括游戏对局中的参考游戏状态、决策网络根据参考游戏状态输出的目标游戏动作和价值网络根据参考游戏状态输出的状态价值，状态价值包括在k个价值分类上的k个状态子价值，k为大于1的整数；根据训练数据以及k个价值分类对应的k个价值计算公式，计算人工智能AI模型在参考游戏状态采用目标游戏动作的动作价值，动作价值包括在k个价值分类上的k个动作子价值；根据状态价值和动作价值之差，训练人工智能

CN112221152B

性。

调

调用AI模型在游戏程序中进行游戏对局获得训练数据，训练数据包括游戏对局中的参考游戏状态、决策网络根据参考游戏状态输出的目标游戏动作和价值网络根据参考游戏状态输出的状态价值，状态价值包括在k个价值分类上

的k个状态子价值，k为大于1的整数

根据训练数据以及k个价值分类对应的k个价值计算公式，计算AI模型在参考

游戏状态采用目标游戏动作的动作价值，动作价值包括在k个价值分类上的k_个动作子价值

203

根据预估价值和动作价值之差，训练AI模型

201

CN112221152B权利要求书1/3页

1.一种人工智能AI模型的训练方法，其特征在于，所述人工智能AI模型包括价值网络和决策网络，所述方法包括：

调用所述人工智能AI模型在游戏程序中进行游戏对局获得训练数据，所述训练数据包括所述游戏对局中的参考游戏状态、所述决策网络根据所述参考游戏状态输出的目标游戏动作和所述价值网络根据所述参考游戏状态输出的状态价值，所述状态价值包括在k个价值分类上的k个状态子价值，k为大于1的整数；所述参考游戏状态包括至少k个游戏信息，所述k个价值分类是根据所述游戏信息对所述游戏对局的影响划分的，属于同一个价值分类的所述游戏信息具有相同的影响衰减趋势；

获取所述训练数据中从t?时刻到t时刻的游戏状态，所述参考游戏状态是所述t。时刻的游戏状态，所述t时刻是所述游戏对局的结束时刻，n为正整数；

对于所述k个价值分类中的第j个价值分类，根据从所述t。时刻到所述t时刻的所述游戏状态中，属于所述第j个价值分类的所述游戏信息，计算所述目标游戏动作在所述第j个价值分类的动作子价值，j为小于等于k的正整数，k为大于1的整数；重复本步骤计算得到所述目标游戏动作在所述k个价值分类上的k个动作子价值；动作价值包括在所述k个价值分类上的所述k个动作子价值；

根据所述状态价值和所述动作价值之差，训练所述人工智能AI模型。

2.根据权利要求1所述的方法，其特征在于，所述对于所述k个价值分类中的第j个价值分类，根据从所述t。时刻到所述t时刻的所述游戏状态中，属于所述第j个价值分类的所述游戏信息，计算所述目标游戏动作在所述第j个价值分类的动作子价值，包括：

对于所述k个价值分类中的所述第j个价值分类，根据t;时刻和t:+1时刻的所述游戏状态，获取属于所述第j个价值分类的所述游戏信息的价值因子

您可能关注的文档

文档评论（0）

xm + 关注: 实名认证

文档贡献者

专业学习资料，专业文档

咨询Ta 进入空间

1亿VIP精品文档

更多 >

CN112221152B 人工智能ai模型的训练方法、装置、设备及介质（腾讯科技（深圳）有限公司）.docxVIP