深度学习和增强学习概述.ppt

下载文档 降价啦

33
0
约1.65万字
约 103页
2020-03-26 发布于广东
举报
版权申诉
保障服务

深度学习和增强学习概述.ppt

1、本文档共103页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* 强化学习的应用围棋（AlphaGo，DeepMind） Silver, David, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, et al. “Mastering the Game of Go without Human Knowledge.” Nature 550, no. 7676 (October 2017): 354–59. . * 强化学习的应用战略游戏（如星际争霸，DeepMind） Zambaldi, Vinicius, David Raposo, Adam Santoro, Victor Bapst, Yujia Li, Igor Babuschkin, Karl Tuyls, et al. “Relational Deep Reinforcement Learning.” ArXiv:1806.01830 [Cs, Stat], June 5, 2018. . * 强化学习的应用快车调度（滴滴）通过多智能体深度强化学习对快车进行整体调度，使得在需求和供给动态变化的交通环境下整体接单率更高 Lin, Kaixiang, Renyu Zhao, Zhe Xu, and Jiayu Zhou. “Efficient Large-Scale Fleet Management via Multi-Agent Deep Reinforcement Learning,” 1774–83. ACM Press, 2018. . * 强化学习的应用实时搜索排序（阿里）利用强化学习，让搜索引擎对不同特点的?户做出针对性的排序，并以此带动搜索引导的成交提升。 Ref：《强化学习在阿里的技术演进与业务创新》 * 深度学习的最新发展生成对抗网络 AutoML Attention机制技术发展应用发展胶囊网络多Agent强化学习 OpenAI进军DOTA2 冷扑大师VS人类牌手 Waymo无人汽车在2017年行驶56万公里人工智能辅助癌症诊断机器翻译 * 深度学习发展历程的启示尊重科学发展规律，推动科技健康发展宽容失败，支持创新的科学态度基础研究，科技可持续发展的基石应用需求，科技创新的不竭之源学科交叉，创新突破的“捷径” 避免炒作，容易将技术带入误区谢谢大家！此课件下载可自行编辑修改，供参考！感谢您的支持，我们努力做得更好！ * 癌症早筛 * * 癌症早筛 * * /wangxiaocvpr/p/5929332.html * * /BryanWaston/article/details/3429826 * * /wangxiaocvpr/p/5929332.html * * AlexNet相比传统的CNN（比如LeNet）重要改动：?Data Augmentation、Dropout、ReLU激活函数、Overlapping Pooling、多GPU并行 * * AlexNet相比传统的CNN（比如LeNet）重要改动：?Data Augmentation、Dropout、ReLU激活函数、Overlapping Pooling、多GPU并行 * * A neutral net whose output tries to reconstruct the input Target of output (????) = input (??) * * A neutral net whose output tries to reconstruct the input Target of output (????) = input (??) * * A neutral net whose output tries to reconstruct the input Target of output (????) = input (??) * * 有收縮性的 * * idf * * The qeruy not always have the common word * * Reconstructions of 32x32 color images from 256-bit codes * * Direct compute on pixel label is slow! * * * * 卷积神经网络卷积层是卷积神经网络的核心组成卷积层示意图卷积层可视化 * 卷积神经网络池化层通常紧接着在卷积层之后使用，简化从卷积层输出的信息 2x2平均池化 2x2最大池化 * 卷积神经网络激活函数是用来加入非线性因素的，因为线性模型的表