Sequoia Capital-生成 AI 的行为 o1：一个创造性的新世界(英译中).docx

下载文档

0
0
约7.6千字
约 24页
2024-10-22 发布于山西
举报
版权申诉
保障服务

Sequoia Capital-生成 AI 的行为 o1：一个创造性的新世界(英译中).docx

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

生成AI的行为o1

BySonyaHuang,帕特·格雷迪，o1于2024年10月9日发布机构推理时代开始

两年来，生成式AI革命正在推动该领域从“快速思考”——即快速预训练响应——向“深入思考”——即推理时进行推理转变。这一演变正在解锁一批新的自主应用。

在我们的论文发表两周年之际“生成的AI：一个创造性的新世界“人工智能生态系统看起来非常不同，我们对即将发生的事情有一些预测。

生成式AI市场的底层正在在一个关键的规模化玩家和联盟组成的平衡状态中稳定下来，包括Microsoft/OpenAI、AWS/Anthropic、Meta和Google/DeepMind。只有拥有经济引擎并能够获取巨额资本的规模化玩家仍在竞争之中。尽管这场战斗远未结束（并且仍在不断升级），但目前的格局已经形成。博弈论时尚)，市场的结构本身正在巩固，越来越清楚的是，我们将拥有越来越便宜且充足的下一类预测。

随着LLM市场结构趋于稳定，下一个前沿领域正在逐渐显现。注意力转向了推理层的发展与扩展，其中“系统2”思维占据主导地位。受到AlphaGo等模型的启发，这一层旨在赋予AI系统在推理时进行深思熟虑的推理、问题解决和认知操作的能力，而不仅仅是快速模式匹配。同时，新的认知架构和用户界面正在塑造这些推理能力向用户交付及交互的方式。

这一切对AI市场中的创始人意味着什么？这对现有的软件公司意味着什么？而在我们作为投资者看来，生成式AI栈中哪个层面最具前景？

在我们最新的关于生成式AI市场状态的文章中，我们将探讨基础的大语言模型层的整合如何为扩展这些高层次的推理能力和自主能力奠定了基础，并讨论新一代具有新颖认知架构和用户界面的“杀手级应用”。

永远的草莓田

The2024最核心的模型更新由OpenAI推出，该模型最初名为o1，曾用名Q*或Strawberry。这不仅重新确立了OpenAI在模型质量排行榜上的领先地位，还标志着架构上的显著改进。更具体地说，这是首个具备真正通用推理能力的模型，OpenAI通过推理时的计算实现了这一突破。

这表示什么？预训练模型在大量数据上进行下一个词预测。它们依赖于“训练时计算”。随着规模的扩大，一个emergent属性是基本的推理能力，但这种推理能力非常有限。如果你能教模型进行更直接的推理会怎样？这正是Strawberry所做的事情。当我们提到“推理时计算”，我们指的是让模型在给出响应之前停下来思考，这需要在推理时进行更多的计算（因此称为“推理时计算”）。这里的“停下来思考”就是推理过程。

AlphaGoxLLM

那么，当模型停下来思考时，它在做什么呢？

让我们先brief地回到2016年3月的首尔。深度学习历史上一个最具里程碑意义的时刻就发生在这里：AlphaGo与传奇围棋大师李世石之间的对决。这不仅仅是一场人机对抗的比赛——这是世界看到人工智能不仅仅能够模仿模式的时刻。思考.

AlphaGo与之前的棋类AI系统（如DeepBlue）有何不同？与大规模语言模型（LLMs）类似，AlphaGo首先通过一个包含约3000万步棋的数据集进行预训练，以模仿人类专家的水平，并通过自我对弈获取更多的数据。然而，与直接从预训练模型中产生即时反应不同，AlphaGo会花时间思考。在推理时，模型会在多种潜在未来场景中进行搜索或模拟，评估这些场景的价值，并根据预期价值最高的场景（或答案）做出回应。给予AlphaGo更多的时间，其表现会更好。在没有推理时计算资源的情况下，模型无法超越顶级的人类玩家。但随着推理时间的增加，AlphaGo的表现会越来越好——直到超越最顶尖的人类玩家。

让我们回到LLM的世界。在这里复制AlphaGo的最大挑战在于构建价值函数，即用于评估响应得分的函数。如果是在下围棋，这个过程相对直接：可以模拟整个游戏直到结束，确定胜者，然后计算下一步的预期值。如果是在编程，这个过程也相对直接：可以测试代码并验证其是否有效。但是，如何评分一篇草稿的文章？或者一个旅行计划？或者一份长文档中关键术语的总结？这正是当前方法在推理方面遇到困难的原因，这也是为什么Strawberry在接近逻辑的领域（如编程、数学和科学）表现较强，而在更加开放和无结构的领域（如写作）表现较弱的原因。

虽然草莓的实际实施细节严格保密，但关键思想涉及围绕模型生成的思维链进行强化学习。审查模型的思维链表明，正在发生一些根本且令人兴奋的变化，这些变化实际上类似于人类的思考和推理方式。例如，o1展示了当遇到困难时回溯的能力，这是扩展推理时间的一个emerg