- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LETTER
doi:10.1038/nature14236
Human-level control through deep reinforcement
learning
1 1 1 1 1 1 1
Volodymyr Mnih *, Koray Kavukcuoglu *, David Silver *, Andrei A. Rusu , Joel Veness , Marc G. Bellemare , Alex Graves ,
1 1 1 1 1 1 1
Martin Riedmiller , Andreas K. Fidjeland , Georg Ostrovski , Stig Petersen , Charles Beattie , Amir Sadik , Ioannis Antonoglou ,
1 1 1 1 1
Helen King , Dharshan Kumaran , Daan Wierstra , Shane Legg & Demis Hassabis
1 agent is to select actions in a fashion that maximizes cumulative future
The theory of reinforcement learning provides a normative account ,
2 3 reward. More formally, we use a deep convolutional neural network to
deeply rooted in psychological and neuroscientific perspectives on
animal behaviour, of how agents may optimize their control of an approximate the optimal action-value function
environment. To use reinforcement learning successfully in situations Q 2
ðs,aÞ ~max r zcr zc r z. . . js ~s, a ~a, p ,
app
您可能关注的文档
- 20161025-tensorflow的安装、图像识别应用、训练自己的图像识别模型.pdf
- 人工智能资料TensorFlow A system for large_scale machine learning.pdf
- 人工智能资料tensorboard 变量可视化.pdf
- 人工智能资料Shukla_MLwTensorFlow_MEAP_V07_ch1.pdf
- TF session 会话代码分析.pdf
- 人工智能资料tensorlayercn.pdf
- 人工智能资料TensorFlow介绍.pdf
- 人工智能资料Closing the gap between industry and academia.pdf
- Win下搭建tensorflow的GPU版本(1).docx
- Win下搭建tensorflow的GPU版本.docx
- GB/T 29324-2024架空导线用碳纤维增强复合材料芯.pdf
- 《GB/T 29324-2024架空导线用碳纤维增强复合材料芯》.pdf
- GB/T 43905.1-2024焊接及相关工艺中烟尘和气体取样的实验室方法 第1部分:电弧焊中烟尘排放速率的测定和分析用烟尘的收集.pdf
- 《GB/T 43905.1-2024焊接及相关工艺中烟尘和气体取样的实验室方法 第1部分:电弧焊中烟尘排放速率的测定和分析用烟尘的收集》.pdf
- 中国国家标准 GB/T 43905.1-2024焊接及相关工艺中烟尘和气体取样的实验室方法 第1部分:电弧焊中烟尘排放速率的测定和分析用烟尘的收集.pdf
- 中国国家标准 GB/T 18910.21-2024液晶显示器件 第2-1部分:无源矩阵单色液晶显示模块 空白详细规范.pdf
- GB/T 18910.21-2024液晶显示器件 第2-1部分:无源矩阵单色液晶显示模块 空白详细规范.pdf
- 《GB/T 18910.21-2024液晶显示器件 第2-1部分:无源矩阵单色液晶显示模块 空白详细规范》.pdf
- GB/T 43860.1220-2024触摸和交互显示 第12-20部分:触摸显示测试方法 多点触摸性能.pdf
- 中国国家标准 GB/T 43860.1220-2024触摸和交互显示 第12-20部分:触摸显示测试方法 多点触摸性能.pdf
文档评论(0)