- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
计算机研究与发展DOI:10.7544/issn1000-1239.202111186
JournalofComputerResearchandDevelopment60(6):1373−1384,2023
A3C深度强化学习模型压缩及知识抽取
张晶王子铭任永功
(辽宁师范大学计算机与人工智能学院辽宁大连116081)
(zhangjing_0412@)
A3CDeepReinforcementLearningModelCompressionandKnowledgeExtraction
ZhangJing,WangZiming,andRenYonggong
(SchoolofComputerScienceandArtificialIntelligence,LiaoningNormalUniversity,Dalian,Liaoning116081)
AbstractAsynchronousadvantageactor-critic(A3C)constructsaparalleldeepreinforcementlearningframework
composedbyone-Learnerandmulti-Workers.However,A3Cproducesthehighvariancesolutions,andLearnerdoes
notobtaintheglobaloptimalpolicy.Moreover,itisdifficulttotransferanddeployfromthelarge-scaleparallel
networktothelowconsumptionend-platform.Aimstoaboveproblems,weproposeacompressionandknowledge
extractionmodelbasedonsupervisedexploring,calledCompactt_A3C.Intheproposedmodel,wefreezeWorkersof
thepre-trainedA3Ctomeasuretheseperformancesinthecommonstate,andmaptheperformancestoprobabilitiesby
softmax.Inthispaper,weupdateLearneraccordingtosuchprobability,whichistoobtaintheglobaloptimalsub-
model(Worker)andenhanceresourceutilization.Furthermore,theupdatedLearnerisassignedasTeacherNetworkto
superviseStudentNetworkintheearlyexplorationstage.Weexploitthelinearfactortoreducetheguidanceof
TeacherNetworkforencouragingthefreeexplorationofStudentNetwork.AndbuildinguptwotypesofStudent
Networktodemonstratetheeffectivenessaimsattheproposedmodel.InthepopularstatesincludingGymClassic
ControlandAtari2600,the
您可能关注的文档
- 论练拳十二法与地支.pdf
- 基于数字经济背景探讨乡村旅游高质量发展策略.pdf
- 网络谣言的智能化演变及治理.pdf
- 基于视觉控制的无人机云台渐进式目标对焦方法.pdf
- 金融科技对股份制银行盈利能力的影响——以招商银行为例.pdf
- 数字经济与三农产业融合机制创新研究.pdf
- 面向审计全流程的智能审计引擎设计与实现.pdf
- 融合多类型深度迁移学习的电力系统暂态稳定自适应评估.pdf
- GAN模型研究综述.pdf
- 信息无障碍:演化历程、研究热点与发展前瞻.pdf
- 上海市宝山区2025-2026学年第一学期期末考试高三英语试卷(含答案).pdf
- 云南省普洱市镇沅县第一中学2025-2026学年高二上学期期中考试语文试题(含答案).pdf
- 天津市扶轮中学2025-2026学年高一上学期第一次月考英语试题(含答案).pdf
- 上海市杨浦区2026届高三一模英语试题(含答案).pdf
- 湖北省八校联考2025-2026学年高二上学期月考语文试题(含答案).pdf
- 山西省介休市第一中学校2025-2026学年高二上学期期中考试英语试卷(含答案,无听力原文及音频).pdf
- 江苏省无锡市梅村高级中学2025-2026学年高二上学期期中英语试题(含答案).pdf
- 山东省临沂市临沭县2025-2026学年九年级(上)期中化学试卷(含答案).pdf
- 山东省菏泽市2025-2026学年高二上学期期中考试英语(B)试卷(含答案,无听力原文及音频).pdf
- IPO审核耗时与首发股票市场表现.pdf
- 乡村振兴、双碳、储能、绿色金融 + 关注
-
实名认证服务提供商
新能源知识科普(本账号发布文档均来源于互联网公开资料,仅用于技术分享交流,相关版权为原作者所有。如果侵犯了您的相关权利,请提出指正,我们将立即删除相关资料)。
原创力文档


文档评论(0)