深度学习、迁移学习、强化学习.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

深度学习、迁移学习、强化学习

⼀.深度学习

⼤数据造就了深度学习,通过⼤量的数据训练,我们能够轻易的发现数据的规律,从⽽实现基于监督学习的数据预测。

这⾥要强调的是基于监督学习的,也是迄今为⽌我在讲完深度学习基础所给出的知识范围。

基于卷积神经⽹络的深度学习(包括CNN、RNN),主要解决的领域是图像、⽂本、语⾳,问题聚焦在分类、回归。然⽽这⾥并没有提到

推理,显然我们⽤之前的这些知识⽆法造⼀个AlphaGo出来,通过⼀张图来了解深度学习的问题域:

2016年的NIPS会议上,吴恩达给出了⼀个未来AI⽅向的技术发展图,还是很客观的:

⽏庸置疑,监督学习是⽬前成熟度最⾼的,可以说已经成功商⽤,⽽下⼀个商⽤的技术将会是迁移学习(TransferLearning),这也是

Andrew预测未来五年最有可能⾛向商⽤的AI技术。

⼆.迁移学习(举⼀反三)

迁移学习解决的问题是如何将学习到知识从⼀个场景迁移到另⼀个场景?

拿图像识别来说,从⽩天到晚上,从BottomView到TopView,从冬天到夏天,从识别中国⼈到识别外国⼈……

这是⼀个普遍存在的问题,问题源⾃于你所关注的场景缺少⾜够的数据来完成训练,在这种情况下你需要通过迁移学习来实现模型本⾝的

泛化能⼒。

借⽤⼀张⽰意图(From:ASurveyonTransferLearning)来进⾏说明:

实际上,你可能在不知不觉中使⽤到了迁移学习,⽐如所⽤到的预训练模型,在此基础所做的Fine-Turning,再⽐如你做Tracking所⽤

的onlinelearning。

迁移学习的必要性和价值体现在:

1、复⽤现有知识域数据,已有的⼤量⼯作不⾄于完全丢弃;

2、不需要再去花费巨⼤代价去重新采集和标定庞⼤的新数据集,也有可能数据根本⽆法获取;

3、对于快速出现的新领域,能够快速迁移和应⽤,体现时效性优势;

关于迁移学习算法有许多不同的思路,我们总结为:

1、通过原有数据和少量新领域数据混淆训练;

2、将原训练模型进⾏分割,保留基础模型(数据)部分作为新领域的迁移基础;

3、通过三维仿真来得到新的场景图像(OpenAI的Universe平台借助赛车游戏来训练);

4、借助对抗⽹络GAN进⾏迁移学习的⽅法;

三.强化学习(反馈与修正)

强化学习全称是DeepReinforcementLearning(DRL),其所带来的推理能⼒是智能的⼀个关键特征衡量,真正的让机器有了⾃我学

习、⾃我思考的能⼒,毫⽆疑问GoogleDeepMind是该领域的执⽜⽿者,其发表的DQN堪称是该领域的破冰之作。

⽬前强化学习主要⽤在游戏AI领域(有我们⽼⽣常谈的AlphaGo)和机器⼈领域,除此之外,Google宣称通过强化学习将数据中⼼的

冷却费⽤降低了40%,虽⽆法考证真伪,但我愿意相信他的价值。

强化学习是个复杂的命题,Deepmind⼤神DavidSilver将其理解为这样⼀种交叉学科:

实际上,强化学习是⼀种探索式的学习⽅法,通过不断“试错”来得到改进,不同于监督学习的地⽅是强化学习本⾝没有Label,每⼀步

的Action之后它⽆法得到明确的反馈(在这⼀点上,监督学习每⼀步都能进⾏Label⽐对,得到TrueorFalse)。

强化学习是通过以下⼏个元素来进⾏组合描述的:

对象(Agent)

也就是我们的智能主题,⽐如AlphaGo。

环境(Environment)

Agent所处的场景-⽐如下围棋的棋盘,以及其所对应的状态(State)-⽐如当前所对应的棋局。

Agent需要从Environment感知来获取反馈(当前局势对我是否更有利)。

动作(Actions)

在每个State下,可以采取什么⾏动,针对每⼀个Action分析其影响。

奖励(Rewards)

执⾏Action之后,得到的奖励或惩罚,Reward是通过对环境的观察得到。

通过强化学习,我们得到的输出就是:NextAction?下⼀步该怎么⾛,这就是AlphaGo的棋局,你能够想到,对应围棋的Action数量

吗?

关于强化学习的具体算法,⼤多从马尔可夫链讲起。

文档评论(0)

199****2782 + 关注
实名认证
文档贡献者

博士毕业生

1亿VIP精品文档

相关文档