- 1、本文档共79页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;;通过有监督微调,大语言模型初步具备了遵循人类指令完成各类型任务的能力。然而,有监督微调需要大量指令和对应的高质量的标准回复,因此会耗费许多人力和时间成本。由于有监督微调通常目标是调整参数使模型输出与标准答案完全相同,不能从整体上对模型输出质量进行判断,因此,模型不能适应自然语言的多样性,也不能解决微小变化的敏感性问题。;强化学习则将模型输出文本作为一个整体进行考虑,其优化目标是使模型生成高质量回复。此外,强化学习方法不依赖人工回复,其模型根据指令生成回复,奖励模型针对所生成的回复给出质量判断。强化学习的模型通过生成回复并接收反馈进行学习,可以生成多个答案,奖励模型对输出文本质量进行排序。模型强化学习方法更适合生成式任务,也是大模型构建中必不可少的关键步骤。;;PART01;强化学习的基本元素包括智能体、环境、状态、动作和奖励,其中,智能体和环境间通过奖励、状态、动作3个信号进行交互,不断地根据环境的反馈信息进行试错学习。
强化学习把学习看作试探评价过程。智能体选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给智能体,智能体根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。;1997年,当“深蓝”击败国际象棋世界冠军加里·卡斯帕罗夫时,人们就把抵御的希望寄托在了围棋上。当时,天体物理学家,也是围棋爱好者的皮特·赫特曾预测称:“计算机在围棋上击败人类需要一百年的时间(甚至可能更久)。”但实际上仅仅20年后,阿尔法狗(AlphaGo)就超越了人类棋手。世界冠军柯洁说:“一年前的阿尔法狗还比较接近于人,现在它越来越像围棋之神。”阿尔法狗得益于对人类棋手过去数十万场棋局的研究以及对团队中围棋专家的知识的提炼。;后继项目AlphaZero不再借助于人类输入,它通过游戏规则自我学习,在围棋、国际象棋和日本将棋领域中击败了包括人类和机器在内的所有对手。与此同时,人???选手也在各种游戏中被人工智能系统击败,包括《危险边缘》、扑克以及电子游戏《刀塔2》《星际争霸11》《雷神之锤3》。这些进展显示了强化学习的巨大作用。
强化学习让智能体在环境里通过分析数据来学习,每个行动对应于各自的奖励。智能体关注不同情况下应该做怎样的事情——这样的学习过程和人类的自然经历十分相似。;想象一个小孩子第一次看到火,他小心地走到火边。
·感受到了温暖。火是个好东西(+1)。
·然后,试着去摸。哇,这么烫(-1)。
这个尝试所得到的结论是,在稍远的地方火是好的,靠得太近就不好——这是人类与环境交互的学习方式,强化学习也是这样的道理。;比如,智能体要学着玩一个新的游戏。强化学习过程可以用一个循环来表示:
·智能体在游戏环境里获得初始状态S0(游戏的第一帧);
·在S0的基础上,智能体做出第一个行动A0(如向右走);
·环境变化,获得新的状态S1(A0发生后的某一帧);
·环境给出第一个奖励R1(没死或成功:+1)。
于是,这个回合输出的就是一个由状态、奖励和行动组成的序列,而智能体的目标就是让预期累积奖励最大化。;强化学习是机器学习的一个分支,它是一种广泛应用于创建智能系统的学习模式,在描述和解决智能体与环境的交互过程中,以“试错”方式,通过学习策略达成回报最大化或实现特定目标问题。强化学习侧重于在线学习并试图在探索和利用之间保持平衡,其目标是使智能体在复杂且不确定的环境中,只依靠于对环境的感知和偶尔的奖励,对某
项任务变得精通,使未来的奖励最大化。
图8-1强化学习;强化学习基本框架主要由智能体和环境两部分组成。在强化学习过程中,智能体与环境不断交互。智能体在环境中获取某个状态后,会根据该状态输出一个动作,也称为决策。动作会在环境中执行,环境会根据智能体采取的动作,给出下一个状态及当前动作带来的奖励。;由于强化学习涉及的知识面广,尤其是涵盖了诸多数学知识,更需要对强化学习有系统性的梳理与认识。强化学习问题主要在信息论、博弈论、自动控制等领域讨论,用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。;从严格意义上说,阿尔法狗程序在人机围棋对弈中赢了人类围棋大师,其中深度强化学习起了主要的作用。所谓深度强化学习,就是在强化学习里加入深度神经网络。例如Q学习是利用传统算法创建Q-table,帮助智能体找到下一步要采取的行动;DQN是利用深度神经网络来近似Q值。智能系统必须能够在没有持续监督信号的情况
文档评论(0)