大模型面试题-39-强化学习在自然语言处理下的应用篇.pdf

下载文档

0
0
约1.9千字
约 4页
2025-04-15 发布于山东
举报
版权申诉
保障服务

大模型面试题-39-强化学习在自然语言处理下的应用篇.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

强化学习在自然语言处理下的应用篇

来自：AiGC面试宝典

2024年01月27日20:47

•强化学习在自然语言处理下的应用篇

•一、强化学习基础面

•1.1介绍一下强化学习？

•1.2介绍一下强化学习的状态（States）和观测（Observations）？

•1.3强化学习有哪些动作空间（ActionSpaces），他们之间的区别是什么？

•1.4强化学习有哪些Policy策略？

•1.5介绍一下强化学习的轨迹？

•1.6介绍一下强化学习的奖赏函数？

•1.7介绍一下强化学习问题？

•二、RL发展路径（至PPO）

•2.1介绍一下强化学习中优化方法Value-based？

•2.2介绍一下强化学习中贝尔曼方程？

•2.3介绍一下强化学习中优势函数AdvantageFunctions？

•致谢

一、强化学习基础面

1.1介绍一下强化学习？

强化学习（ReinforcementLearning）是一种时序决策学习框架，通过智能体和环境交互

得到的奖励

从而来优化策略π，使其能够在环境中自主学习。

1.2介绍一下强化学习的状态（States）和观测（Observations）？

•状态（States）：对于世界状态的完整描述

•观测（Observations）：对于一个状态的部分描述，可能会缺失一些信息。当O=S时，称O为完美信息/fully

observed；OS时，称O为非完美信息/partiallyobserved。

1.3强化学习有哪些动作空间（ActionSpaces），他们之间的区别是什么？

•离散动作空间：当智能体只能采取有限的动作，如下棋/文本生成

•连续动作空间：当智能体的动作是实数向量，如机械臂转动角度

其区别会影响policy网络的实现方式。

1.4强化学习有哪些Policy策略？

•确定性策略DeterministicPolicy：at=u(st)，连续动作空间

•随机性策略StochasticPolicy：at~π(·|st)，离散动作空间

1.5介绍一下强化学习的轨迹？

•轨迹：指的是状态和行动的序列

1.状态转换函数（transitionfunction）：

1.初始状态是从初始状态分布中采样的，一般表示为

1.6介绍一下强化学习的奖赏函数？

智能体的目标是最大化行动轨迹的累计奖励：

1.7介绍一下强化学习问题？

•核心问题：选择一种策略从而最大化预期收益

1.假设环境转换和策略都是随机的，则T步行动轨迹概率：

1.预期收益：

1.核心优化问题：找到最优策略

二、RL发展路径（至PPO）

2.1介绍一下强化学习中优化方法Value-based？

•value-based：状态的值V(s)或者状态行动对(state-actionpair)的值Q(s,a)，作为一种累积奖赏的估计，可

以通过最大化值函数来优化得到最优策略

1.最优值函数（OptimalValueFunction）：

1.最优动作-值函数（OptimalAction-ValueFunction）：

最优动作：

1.两者的关系：

2.2介绍一下强化学习中贝尔曼方程？

•中心思想：当前值估计当前奖赏+未来值估计

所以，最优值函数的贝尔曼公式为：

2.3介绍一下强化学习中优势函数AdvantageFunctions？

强化学习中，有时不需要知道一个行动的绝对好坏，而只需要知道它相对于其他action的相对优势。即

您可能关注的文档

文档评论（0）

189****7098 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大模型面试题-39-强化学习在自然语言处理下的应用篇.pdf