- 2
- 0
- 约 6页
- 2016-12-06 发布于北京
- 举报
(开题报告原稿
摘要
随着智能系统日新月益的发展和使用,其对未知环境的适应性就成为迫切需求。而使机器能够从未知环境学习是实现人工智能的一大突破。目前的机器学习技术主要分为监督学习、非监督学习和强化学习三大类。其中强化学习是一种以环境反馈作为输入的,特殊的、适应环境的学习。它将环境抽象成若干状态,通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知,因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢,因此如何能够优化的建立环境模型,如何提高算法效率就成为强化学习面临的主要问题。本次论文首先介绍强化学习的概念、建立系统模型,再介绍几种经典的强化学习算法,接着介绍目前解决若干问题而提出的POMDP模型,PSR 模型、HRL模型,最后就PSR模型提出一种新的算法。
关键词:强化学习;蒙特卡诺法;TD算法;Q学习;Sasar学习;POMDP模型;PSR模型 ;HRL模型
强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的,最早可追溯到巴普洛夫的条件反射实验。但直到20世纪80年代末90年代初,强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛的研究和应用,并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展以后,对强化学习的研究和应用日益开展起来,成为目前机器学习领域的研究热点之一。
强化学
您可能关注的文档
最近下载
- 纪检题库及答案.doc VIP
- 吉林省长春市2026届高三下学期5月模拟考试历史试卷(无答案).pdf VIP
- 标准图集-19K112 金属、非金属风管支吊架(含抗震支吊架).pdf VIP
- 2026中国有色金属企业期货套期保值会计处理实务指南.docx
- 宠物食品制造培训课件.ppt VIP
- 安徽省江淮十校2026届高三4月模拟考试(高考三模)历史试卷.docx VIP
- 静电学 第3-1部分:静电效应的模拟方法人体模型(HBM)的静电放电试验波形.pdf VIP
- (小升初)人教版小学语文总复习—古诗文汇总.docx VIP
- 不动产多测合一测绘技术设计书.pdf VIP
- 急性心衰护理试题及答案.docx VIP
原创力文档

文档评论(0)