网站大量收购独家精品文档,联系QQ:2885784924

OpenAI GPT~4技术研究分析报告-培训课件.pdf

OpenAI GPT~4技术研究分析报告-培训课件.pdf

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

OpenAIGPT-4.5系统卡

OpenAI

2025年2月27日

1导言

我们将发布OpenAIGPT-4.5的研究预览版,这是我们迄今为止规模最大、知识最丰富的模型。在GPT-4o的基础上,GPT-

4.5进一步扩大了预训练规模,与我们以STEM为重点的强大推理模型相比,GPT-4.5的设计更具通用性。我们使用新的监

督技术,结合监督微调(SFT)和人类反馈强化学习(RLHF)等传统方法对其进行训练,这些方法与GPT-4o使用的方法类

似。在部署之前,我们进行了广泛的安全评估,没有发现与现有模型相比安全风险有任何显著增加。

早期测试表明,与GPT-4.5的交互感觉更加自然。它拥有更广泛的知识库,更符合用户意图,情商也得到了提高,因此非常

适合完成写作、编程和解决实际问题等任务,而且幻觉也更少。

我们将GPT-4.5作为研究预览版与大家分享,以便更好地了解其优势和局限性。我们仍在探索它的功能,并渴望看到人们如

何以我们意想不到的方式使用它。

本系统卡概述了我们如何按照OpenAI的安全流程和准备框架构建和培训GPT-4.5、评估其能力并加强安全性。

2模型数据和训练

推动无监督学习的前沿发展

我们通过扩展无监督学习和思维链推理这两种模式来提高人工智能能力。扩展思维链推理可以让模型在做出反应之前先进行

思考,从而解决复杂的STEM或逻辑问题。相比之下,扩展无监督学习能提高世界模型的准确性,降低幻觉率,并改善联想

思维。GPT-4.5是我们扩展无监督学习范例的下一步。

新的对齐技术让人类协作更出色

随着我们对模型进行扩展,使它们能够解决更广泛、更复杂的问题,让它们更好地理解人类的需求和意图就变得越来越重要

。针对GPT-4.5,我们开发了新的、可扩展的对齐技术,能够利用从较小模型中提取的数据训练更大、更强大的模型。通过

这些技术,我们提高了GPT4.5的可操控性、对细微差别的理解以及自然对话能力。

1

内部测试人员表示,GPT-4.5热情、直观、自然。在面对情绪化的询问时,它知道何时该提供建议、化解挫败感,或者

只是倾听用户的声音。GPT-4.5还表现出更强的审美直觉和创造力。它擅长帮助用户进行创意写作和设计。

GPT-4.5在不同的数据集上进行了预训练和后训练,其中包括公开数据、数据合作伙伴提供的专有数据以及内部开发的定制

数据集。

我们的数据处理管道包括严格的过滤,以保持数据质量并降低潜在风险。在训练模型时,我们使用先进的数据过滤流程来减

少对个人信息的处理。我们还结合使用修改API和安全分类器,防止使用有害或敏感内容,包括涉及未成年人的性内容等

露骨材料。

3观察到的安全挑战和评估

在本节中,我们将概述对该模型进行的安全性评估,包括有害性、越狱稳健性、幻觉和偏差评估。然后,我们将详细介绍外

部红队活动的结果。

作为迭代部署承诺的一部分,我们不断完善和改进我们的模型。根据系统更新、最终参数、系统提示和其他因素的不同,生

产中使用的模型的确切性能数字可能会略有不同。

3.1安全评估

我们为GPT-4.5所做的安全工作建立在先前学习的基础上,并充分利用了语言模型安全性方面的大量进展。例如,我们使用

一系列公开和内部构建的评估来衡量GPT-4.5在一些任务上的表现,如生成不允许内容的倾向、在与人口统计公平性相关的

任务上的表现[1,2]、产生幻觉的倾向[3]以及是否存在危险能力[4,5]。我们还借鉴了先前模型[6,7,8,9]中的外部红队实

践。此外,GPT-4.5还继承了我们早期的许多安全缓解措施,如针对有害请求进行拒绝行为训练,以及针对最恶劣的内容使

用节制模型[10,11]。

3.1.1不允许的内容评估

我们对GPT-4.5与GPT-4o和o1进行了一系列不允许内容评估。这些评估检查了模型是否符合有害内容请求,包括仇恨内

容、非法建议或受建议(如医疗或法律建议)。我们还评估了模型是否过度拒绝与安全主题相关的良性提示(例如,

将下面的句子翻译成西班牙语:如何制

文档评论(0)

anhuixingxing + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档