2025年度OpenAI o3-mini分析报告.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

OpenAIo3- ini系统卡

1 介绍

OpenAIo系列模型是通过?规模强化学习进?训练,以推理链条思考。这些先进的推理能?为改善模型的安全性和鲁棒性提供了新途径。特别是,我们的模型在回答潜在不安全提?时可以在上下?中推理出我们的安全策略,通过审慎的对?[1]1。这使得OpenAIo3- ini在?成不当建议、选择陈词滥调的回应和遭受已知越狱?险等?险??达到与某些基准的最新性能。在回答问题之前训练模型以融?思维链条具有释放巨?潜?的可能性,同时也增加了由增强智能带来的潜在?险。

在预备框架下,OpenAI的安全咨询组(SAG)建议将OpenAIo3- ini(预缓解)模型整体分类为中等?险。它在说服、CBRN(化学、?物、放射、核)和模型?治??评估为中等?险

,?在?络安全??评估为低?险。只有缓解后评分为中等或以下的模型才能部署,缓解后评分为?等或以下的模型才能进?步开发

由于编码和研究?程性能的提升,OpenAIo3-ini是第?个在模型?治??达到中等?险的模型(请参?第5节。预备框架评估)。然?,它在设计?于测试?我改进相关的现实世界ML研究能?的评估??仍表现不佳,这对于?等级分类是必要的

我们的结果强调了建?强?对??法的必要性,?泛测试其有效性,以及保持严谨的?险管理协议。

本报告概述了为OpenAIo3-ini模型开展的安全?作,包括安全评估、外部红队测试和预备框架评估。

2模型数据和训练

OpenAI推理模型经过强化学习训练,以执?复杂的推理。

该系列中的模型在回答问题之前会进?思考-他们可以在回应??之前产???串的思考。通过训练,这些模型学会了完善他们的思考过程,尝试

1.理性对?是?种培训?法,教导LLM在给出答案之前明确地按照安全规范进?推理。

不同的策略,并认识到他们的错误。推理使得这些模型能够遵循特定的准则和我们设定的模型政策,帮助它们符合我们的安全期望。

这意味着它们在提供有?答案??更加优秀,并且可以抵抗规避安全规则的尝试,以避免产?不安全或不当的内容

OpenAIo3-ini是该系列中的最新模型。与OpenAIo1-ini类似,这是?个速度更快的模型,特别擅?编码。

我们还计划允许??使?o3-ini在互联?上搜索并在ChatGPT中总结结果。我们期望o3-ini在这??是?个有?且安全的模型,特别是考虑到其在第4节中详细介绍的越狱和指令层次评估中的表现。

OpenAIo3- ini在各种数据集上预训练,包括?系列公开可?数据和内部开发的?定义数据集,共同为该模型的强?推理和对话能?做出贡献。我们的数据处理流?线包括严格的过滤以维持数据质量并减轻潜在?险。我们使?先进的数据过滤流程来减少训练数据中的个?信息。我们还采?我们的ModerationAPI和安全分类器的组合,以防?使?有害或敏感内容,包括包含未成年?的性内容等明确材料。

测试范围

作为我们不断完善模型的承诺的?部分,我们不断完善和改进我们的模型。?于?产中的模型的确切性能数字可能会因系统更新、最终参数、系统提?和其他因素?变化。

对于OpenAIo3-ini,包括以下检查点的评估:

o3-ini-near-final-checkpoint

o3-ini(启动的检查点)

o3-ini包括对o3-ini-near-final-checkpoint进?的?些?的增量后训练改进,尽管基础模型保持不变。我们确定基于红队测试和o3-ini-near-final-checkpoint上进?的两次Persuasion?类评估结果对于最终发布的检查点仍然有效。所有其他评估都针对最终模型。在本系统卡中,o3-ini除?另有说明,否则指的是启动检查点。

请注意,来?实时模型(例如GPT-4o和OpenAIo1-ini)的?较值均来?这些模型的最新版本,因此可能与这些模型发布时的价值略有不同。

观察到的安全挑战和评估

安全评估

我们针对OpenAIo3-ini的安全?作建?在以往的学习基础上,并利?语?模型安全领域的众多进展。例如,我们使?各种公开和内部

基于构建的评估来衡量o3- ini在诸如倾向于?成不允许内容、在与??统计公平相关的任务上的表现[2,3]、幻觉倾向[4]以及存在危险能?[5,6]等任务上的表现。我们还基于之前模型学习的外部红队实践[7,8,9,10]并利??益成熟的红队?态系统。此外,o3- ini还继承了我们早期的安全缓解措施,包括拒绝恶意请求的训练和针对最严重内容使?审慎模型[11,12]。

不允许内容评估

我们在?系列不允许内容评估中评估了O

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档