软件工程-基础课程-算法_强化学习算法：Q学习、SARSA、Deep Q-Network.docx

下载文档

0
0
约1.74万字
约 18页
2024-09-24 发布于境外
举报
版权申诉
保障服务

软件工程-基础课程-算法_强化学习算法：Q学习、SARSA、Deep Q-Network.docx

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PAGE1

强化学习基础

11强化学习的基本概念

强化学习是一种机器学习方法，它使智能体(agent)能够在与环境的交互中学习如何采取行动以最大化某种累积奖励。在强化学习中，智能体通过观察环境状态(state)，选择行动(action)，并根据环境反馈的奖励(reward)和新状态来调整其行动策略(policy)。目标是找到一个策略，使得智能体在长期中获得的奖励最大化。

22环境与智能体的交互模型

在强化学习的框架下，智能体与环境的交互遵循一个循环过程：

智能体观察环境状态：智能体在每个时间步观察到环境的当前状态。

智能体选择行动：基于当前状态，智能体选择一个行动。

环境反馈：环境根据智能体的行动更新状态，并返回一个奖励和新的状态给智能体。

智能体学习并更新策略：智能体根据收到的奖励和新状态来学习并更新其策略。

这个过程可以表示为一个序列：S

33马尔可夫决策过程(MDP)介绍

马尔可夫决策过程(MDP)是强化学习中描述智能体与环境交互的数学模型。MDP由以下四个元素组成：

状态集合(S)：环境可能处于的所有状态。

行动集合(A)：智能体可以采取的所有行动。

转移概率(P)：给定当前状态和行动，环境转移到下一个状态的概率。

奖励函数(R)：智能体在采取行动后从环境获得的即时奖励。

MDP假设环境的未来状态仅依赖于当前状态和行动，而不依赖于过去的状态和行动，这称为马尔可夫性质。

3.1示例代码：MDP的简单实现

#定义MDP的类

classMDP:

def__init__(self,states,actions,transition_prob,reward_func):

self.states=states

self.actions=actions

self.transition_prob=transition_prob

self.reward_func=reward_func

defstep(self,state,action):

#根据当前状态和行动，返回下一个状态和奖励

next_state=np.random.choice(self.states,p=self.transition_prob[state][action])

reward=self.reward_func[state][action][next_state]

returnnext_state,reward

#创建一个简单的MDP实例

states=[A,B,C]

actions=[left,right]

transition_prob={

A:{left:{A:0.6,B:0.4},right:{A:0.3,C:0.7}},

B:{left:{A:0.5,B:0.5},right:{B:0.8,C:0.2}},

C:{left:{A:0.1,B:0.9},right:{C:1.0}}

}

reward_func={

A:{left:{A:-1,B:5},right:{A:-2,C:10}},

B:{left:{A:0,B:-3},right:{B:-4,C:1}},

C:{left:{A:-5,B:2},right:{C:0}}

}

mdp=MDP(states,actions,transition_prob,reward_func)

#智能体在状态A采取行动left

next_state,reward=mdp.step(A,left)

print(fNextstate:{next_state},Reward:{reward})

44策略与价值函数

4.1策略(Policy)

策略是智能体在给定状态时选择行动的规则。在离散状态和行动空间中，策略可以表示为一个概率分布，即πa|s，表示在状态s

4.2价值函数(ValueFunction)

价值函数评估了状态或状态-行动对的好坏，是智能体在该状态下或采取该行动后，未来可能获得的奖励的期望值。主要有两种类型：

状态价值函数(V)：表示在状态s下，遵循策略π时，智能体未来可能获得的奖励的期望值。

状态-行动价值函数(Q)：表示在状态s下采取行动a，遵循策略π时，智能体未来可能获得的奖励的期望值。

4.3示例代码：策略与价值函数的计算

importnu

您可能关注的文档

文档评论（0）

kkzhujl + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

软件工程-基础课程-算法_强化学习算法：Q学习、SARSA、Deep Q-Network.docx