2023S04110-强化学习-2023版人才培养方案课程教学大纲.docxVIP

下载本文档

0
0
约2.1千字
约 4页
2024-09-12 发布于北京
举报
版权申诉

2023S04110-强化学习-2023版人才培养方案课程教学大纲.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE4

附件5-1

ADDINCNKISM.UserStyle《强化学习》课程教学大纲

（理论课程·2023版）

一、课程基本信息

课程号

2023S04110

开课单位

网络空间安全与计算机学院

课程名称

（中文）强化学习

（英文）ReinforcementLearning

课程性质

选修

考核类型

考试

课程学分

课程学时

课程类别

专业发展课程（专业拓展课程）

先修课程

人工智能程序设计、人工智能数学基础、机器学习、深度学习

适用专业（类）

人工智能

二、课程描述及目标

（一）课程简介

《强化学习》课程是本专业（类）的一门专业发展课程，是人工智能专业学术方向的专业拓展课程。

本课程针对人工智能中的前沿技术——强化学习开设专业拓展课程，旨在使学生掌握强化学习的基本原理和基本方法，基于强化学习的控制、决策和优化方法设计与理论分析，深度强化学习原理以及平行强化学习等未来强化学习的发展新方向，了解从先行后知到先知后行，再到知行合一的混合平行智能思路，对人工智能专业学生的知识学习、能力提高、素质培养和日后的学术研究、技术开发、经营管理等工作具有十分重要的基础性和引导性作用。

（二）教学目标

通过本课程，学生将掌握强化学习的基本原理和基本方法，基于强化学习的控制、决策和优化方法设计与理论分析。

课程目标1：掌握强化学习的基本原理和基本方法；

课程目标2：掌握基于强化学习的控制、决策和优化方法设计与理论；

课程目标3：学习强化学习的思维方法，培养综合素质与创新能力；

课程目标4：了解强化学习发展趋势、热点问题，促进研究性学习。

三、课程目标对毕业要求的支撑关系

毕业要求指标点

课程目标

权重

1-4：能够利用系统思维的能力，将工程知识用于专业工程问题解决方案的比较与综合，并体现人工智能领域先进的技术。

课程目标1

课程目标2

课程目标3

课程目标4

0.4

2-1：能运用相关科学原理，识别和判断人工智能领域中复杂工程问题的关键环节。

课程目标1

课程目标2

课程目标3

0.4

10-2：了解人工智能专业领域的国际发展趋势、研究热点，理解和尊重世界不同语言、文化的差异性和多元化。

课程目标4

0.2

四、教学方式与方法

（一）教学方式

课堂讲授，辅以适当的课堂提问、讨论和练习。

（二）教学方法

（1）启发式教学、探讨式教学、案例教学相结合。

（2）引导学生充分利用网络资源、相关文献进行自主学习。

五、教学重点与难点

（一）教学重点

马尔可夫决策过程，动态规划，蒙特卡洛学习方法，时序差分学习等内容。

（二）教学难点

马尔可夫决策过程，动态规划，蒙特卡洛学习方法，时序差分学习等内容。

六、教学内容、基本要求与学时分配

序号

教学内容

基本要求

学时

教学

方式

对应课程目标

第1章强化学习概论

了解强化学习的发展历程与研究现状。

讲授

课程目标1

第2章马尔可夫决策过程

掌握马尔可夫决策过程，策略与代价函数，以及最优策略与最优代价函数。

讲授

课程目标2

第3章动态规划

了解动态规划的兴起，动态规划基本思想：多级决策过程；理解最优性原理与递推方程；掌握离散时间动态规划，以及连续时间动态规划。

讲授

课程目标3

第4章蒙特卡洛学习方法

了解蒙特卡洛方法背景，理解蒙特卡洛预测，以及蒙特卡洛控制。

讲授

课程目标4

第5章时序差分学习

掌握时序差分学习基本概念，时序差分学习算法，n步回报，以及TD(λ)算法。

讲授

课程目标5

合计

八、学业评价和课程考核

（一）考核类型：?考试?考查

（二）考核方式：?开卷考试?闭卷考试?课程论文

?课程报告?其它：

（三）成绩评定：

考核

依据

建议分值

（百分比）

考核/评价细则

对应课程目标

过程

考核

30%

出勤

考勤情况。

作业

20%

按时完成上交，作业无抄袭现象，结果正确。

课程目标2

课程目标3

课程目标4

课程目标5

表现

课堂积极回答问题。

课程目标1

课程目标2

课程目标3

课程目标4

课程目标5

期末

考核

70%

以期末卷面成绩为依据。

课程目标1

课程目标2

课程目标3

课程目标4

课程目标5

九、课程目标达成评价

课程目标的实际达成效果计算方式如下，达成值越高，教学效果越好。

课程目标达成度

毕业要求指标点达成度

十、教材与教学参考书

（一）教材

《强化学习》，魏庆来等编著，清华大学出版社，2022.07，第一版，978-7-302-58972-3；

（二）教学参考书

《神经网络与深度学习》，邱锡鹏著，机械工业出版社，2020年，1；

《动手学强化学习》，张伟楠，沈键，俞勇著，人民邮电出版社，2022年，

您可能关注的文档

文档评论（0）

bigeng123 + 关注: 实名认证

文档贡献者

知识杂货铺~

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2023S04110-强化学习-2023版人才培养方案课程教学大纲.docxVIP