- 3
- 0
- 约6.31千字
- 约 6页
- 2016-12-12 发布于北京
- 举报
摘要
随着智能系统日新月益的发展和使用,其对未知环境的适应性就成为迫切需求。而使机器能够从未知环境学习是实现人工智能的一大突破。目前的机器学习技术主要分为监督学习、非监督学习和强化学习三大类。其中强化学习是一种以环境反馈作为输入的,特殊的、适应环境的学习。它将环境抽象成若干状态,通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知,因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢,因此如何能够优化的建立环境模型,如何提高算法效率就成为强化学习面临的主要问题。本次论文首先介绍强化学习的概念、建立系统模型,再介绍几种经典的强化学习算法,接着介绍目前解决若干问题而提出的POMDP模型,PSR 模型、HRL模型,最后就PSR模型提出一种新的算法。
关键词:强化学习;蒙特卡诺法;TD算法;Q学习;Sasar学习;POMDP模型;PSR模型 ;HRL模型
强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的,最早可追溯到巴普洛夫的条件反射实验。但直到20世纪80年代末90年代初,强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛的研究和应用,并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展以后,对强化学习的研究和应用日益开展起来,成为目前机器学习领域的研究热点之一。
强化
您可能关注的文档
- 2014开放式作文的写法及实例评析.doc
- 2014开放教育演讲与口才.doc
- 2014开放汇报材料 .doc
- 2014开放汇报材料.doc
- 2014开放教育理念复习.doc
- 2014开放渠道双节促销工作小结.doc
- 2014开放英语教学实施方案.doc
- 2014开放远程教育水利水电工程专业专科水工方向毕业设计实施方案.doc
- 2014开放系统互联参考模型.doc
- 2014开放系统互联参考模型(Open.doc
- 2026新疆塔城地区检察机关面向社会考试招聘聘用制书记员13人备考题库带答案详解(名师推荐).docx
- 2026日照银行第一次社会招聘100人备考题库及答案详解(名师系列).docx
- 2026春季中国移动校园招聘备考题库精选答案详解.docx
- 中铁二十一局集团有限公司企业报告供应商版.docx
- 中科院上海原子核研究所简介.docx
- 中科院苏州医工所研究和管理部门机构设置方案及职责模板.docx
- 2026春季乐山市商业银行校园招聘100人备考题库附答案详解(培优b卷).docx
- 中通建设股份有限公司述职报告制度.docx
- 2026新疆得仁水务发展有限公司市场化选聘公司及子公司管理人员6人备考题库含答案详解(综合卷).docx
- 2026新疆塔城地区检察机关面向社会考试招聘聘用制书记员13人备考题库含答案详解(名师推荐).docx
最近下载
- 2025下半年教师资格证高级中学地理学科知识与教学能力真题及答案.docx VIP
- T_CACM 1332—2019_肾阳虚证诊断标准.pdf VIP
- Part 6 Unit 6 Food and Drinks教案-中职高一英语(高教版基础模块1).pdf VIP
- JGT14-2010 通风空调风口.docx
- 医疗器械临床试验质量管理规范2025年培训PPT.pdf
- 工程变更申请表.doc VIP
- SN∕T 5532-2022 非种用奇亚籽灭活处理技术.pdf
- JT_T 1414-2022CN 公路桥梁防船撞装置通用技术条件.docx
- US3-8908说明书(201的11009).pdf VIP
- 人教版小学三年级数学下册易错题整理与归纳.docx VIP
原创力文档

文档评论(0)