- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN112221152B(45)授权公告日2025.07.11
(21)申请号202011164804.7
(22)申请日2020.10.27
(65)同一申请的已公布的文献号申请公布号CN112221152A
(43)申请公布日2021.01.15
(56)对比文件
CN111111220A,2020.05.08CN111389010A,2020.07.10审查员高骏
(73)专利权人腾讯科技(深圳)有限公司
地址518057广东省深圳市南山区高新区
科技中一路腾讯大厦35层
(72)发明人韩国安邱福浩王亮付强
(74)专利代理机构北京三高永信知识产权代理有限责任公司11138
专利代理师徐立
(51)Int.CI.
A63F13/67(2014.01)
GO6N20/00(2019.01)权利要求书3页说明书21页附图9页
(54)发明名称
人工智能AI模型的训练方法、装置、设备及介质
(57)摘要
CN112221152B本申请公开了一种人工智能AI模型的训练方法、装置、设备及介质,涉及人工智能的机器学习领域。该方法包括:调用人工智能AI模型在游戏程序中进行游戏对局获得训练数据,训练数据包括游戏对局中的参考游戏状态、决策网络根据参考游戏状态输出的目标游戏动作和价值网络根据参考游戏状态输出的状态价值,状态价值包括在k个价值分类上的k个状态子价值,k为大于1的整数;根据训练数据以及k个价值分类对应的k个价值计算公式,计算人工智能AI模型在参考游戏状态采用目标游戏动作的动作价值,动作价值包括在k个价值分类上的k个动作子价值;根据状态价值和动作价值之差,训练人工智能
CN112221152B
性。
调
调用AI模型在游戏程序中进行游戏对局获得训练数据,训练数据包括游戏对局中的参考游戏状态、决策网络根据参考游戏状态输出的目标游戏动作和价值网络根据参考游戏状态输出的状态价值,状态价值包括在k个价值分类上
的k个状态子价值,k为大于1的整数
根据训练数据以及k个价值分类对应的k个价值计算公式,计算AI模型在参考
游戏状态采用目标游戏动作的动作价值,动作价值包括在k个价值分类上的k_个动作子价值
203
根据预估价值和动作价值之差,训练AI模型
201
CN112221152B权利要求书1/3页
2
1.一种人工智能AI模型的训练方法,其特征在于,所述人工智能AI模型包括价值网络和决策网络,所述方法包括:
调用所述人工智能AI模型在游戏程序中进行游戏对局获得训练数据,所述训练数据包括所述游戏对局中的参考游戏状态、所述决策网络根据所述参考游戏状态输出的目标游戏动作和所述价值网络根据所述参考游戏状态输出的状态价值,所述状态价值包括在k个价值分类上的k个状态子价值,k为大于1的整数;所述参考游戏状态包括至少k个游戏信息,所述k个价值分类是根据所述游戏信息对所述游戏对局的影响划分的,属于同一个价值分类的所述游戏信息具有相同的影响衰减趋势;
获取所述训练数据中从t?时刻到t时刻的游戏状态,所述参考游戏状态是所述t。时刻的游戏状态,所述t时刻是所述游戏对局的结束时刻,n为正整数;
对于所述k个价值分类中的第j个价值分类,根据从所述t。时刻到所述t时刻的所述游戏状态中,属于所述第j个价值分类的所述游戏信息,计算所述目标游戏动作在所述第j个价值分类的动作子价值,j为小于等于k的正整数,k为大于1的整数;重复本步骤计算得到所述目标游戏动作在所述k个价值分类上的k个动作子价值;动作价值包括在所述k个价值分类上的所述k个动作子价值;
根据所述状态价值和所述动作价值之差,训练所述人工智能AI模型。
2.根据权利要求1所述的方法,其特征在于,所述对于所述k个价值分类中的第j个价值分类,根据从所述t。时刻到所述t时刻的所述游戏状态中,属于所述第j个价值分类的所述游戏信息,计算所述目标游戏动作在所述第j个价值分类的动作子价值,包括:
对于所述k个价值分类中的所述第j个价值分类,根据t;时刻和t:+1时刻的所述游戏状态,获取属于所述第j个价值分类的所述游戏信息的价值因子
您可能关注的文档
- CN107744406B 一种机器人操作平台及其操作方法 (首都医科大学附属北京天坛医院).docx
- CN107819113B 一种补锂添加剂及其制备方法和应用 (深圳市比克动力电池有限公司).docx
- CN109296479B 用于诊断车辆发动机进气歧管和排气系统的系统和方法 (福特全球技术公司).docx
- CN110067640B 用于增压控制的系统和方法 (福特全球技术公司).docx
- CN110645903B 一种封装模块翘曲变形及缺陷立体在线监测方法及装置 (武汉大学).docx
- CN111546561B 发泡成形体的制造方法及制造装置 (麦克赛尔株式会社).docx
- CN111613622B 集成电路器件及其制造方法 (三星电子株式会社).docx
- CN111617467B 用于生成地图的方法、装置、电子设备和计算机存储介质 (珠海网易达电子科技发展有限公司).docx
- CN111886813B 无线装置、网络节点及其执行的方法 (瑞典爱立信有限公司).docx
- CN111986727B 半导体存储器件和操作半导体存储器件的方法 (三星电子株式会社).docx
- 《银行保险机构数据安全管理办法》重点解读.pptx
- 《C语言程序设计(第5版)》PPT完整全套教学课件.pptx
- 物联网安装调试员理论知识考核要素细目表三级(征求意见稿).docx
- 高教社2025新媒体营销(第三版)教学课件项目三 新媒体图文营销.pptx
- 戊烷的生产与市场分析.docx
- 2025化工和危险化学品生产经营单位重大生产安全事故隐患判定标准解读.pptx
- 高教社2025新媒体营销(第三版)教学课件项目五 新媒体直播营销.pptx
- 高教社2025新媒体营销(第三版)教学课件项目六 新媒体营销数据分析.pptx
- 【公开选拔副科级的面试题及答案】公开选拔副科级面试题.docx
- 塞外将军与和亲公主.pptx
原创力文档


文档评论(0)