- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
OpenAIGPT-4.5系统卡
OpenAI
2025年2月27日
1导言
我们将发布OpenAIGPT-4.5的研究预览版,这是我们迄今为止规模最大、知识最丰富的模型。在GPT-4o的基础上,GPT-
4.5进一步扩大了预训练规模,与我们以STEM为重点的强大推理模型相比,GPT-4.5的设计更具通用性。我们使用新的监
督技术,结合监督微调(SFT)和人类反馈强化学习(RLHF)等传统方法对其进行训练,这些方法与GPT-4o使用的方法类
似。在部署之前,我们进行了广泛的安全评估,没有发现与现有模型相比安全风险有任何显著增加。
早期测试表明,与GPT-4.5的交互感觉更加自然。它拥有更广泛的知识库,更符合用户意图,情商也得到了提高,因此非常
适合完成写作、编程和解决实际问题等任务,而且幻觉也更少。
我们将GPT-4.5作为研究预览版与大家分享,以便更好地了解其优势和局限性。我们仍在探索它的功能,并渴望看到人们如
何以我们意想不到的方式使用它。
本系统卡概述了我们如何按照OpenAI的安全流程和准备框架构建和培训GPT-4.5、评估其能力并加强安全性。
2模型数据和训练
推动无监督学习的前沿发展
我们通过扩展无监督学习和思维链推理这两种模式来提高人工智能能力。扩展思维链推理可以让模型在做出反应之前先进行
思考,从而解决复杂的STEM或逻辑问题。相比之下,扩展无监督学习能提高世界模型的准确性,降低幻觉率,并改善联想
思维。GPT-4.5是我们扩展无监督学习范例的下一步。
新的对齐技术让人类协作更出色
随着我们对模型进行扩展,使它们能够解决更广泛、更复杂的问题,让它们更好地理解人类的需求和意图就变得越来越重要
。针对GPT-4.5,我们开发了新的、可扩展的对齐技术,能够利用从较小模型中提取的数据训练更大、更强大的模型。通过
这些技术,我们提高了GPT4.5的可操控性、对细微差别的理解以及自然对话能力。
1
内部测试人员表示,GPT-4.5热情、直观、自然。在面对情绪化的询问时,它知道何时该提供建议、化解挫败感,或者
只是倾听用户的声音。GPT-4.5还表现出更强的审美直觉和创造力。它擅长帮助用户进行创意写作和设计。
GPT-4.5在不同的数据集上进行了预训练和后训练,其中包括公开数据、数据合作伙伴提供的专有数据以及内部开发的定制
数据集。
我们的数据处理管道包括严格的过滤,以保持数据质量并降低潜在风险。在训练模型时,我们使用先进的数据过滤流程来减
少对个人信息的处理。我们还结合使用修改API和安全分类器,防止使用有害或敏感内容,包括涉及未成年人的性内容等
露骨材料。
3观察到的安全挑战和评估
在本节中,我们将概述对该模型进行的安全性评估,包括有害性、越狱稳健性、幻觉和偏差评估。然后,我们将详细介绍外
部红队活动的结果。
作为迭代部署承诺的一部分,我们不断完善和改进我们的模型。根据系统更新、最终参数、系统提示和其他因素的不同,生
产中使用的模型的确切性能数字可能会略有不同。
3.1安全评估
我们为GPT-4.5所做的安全工作建立在先前学习的基础上,并充分利用了语言模型安全性方面的大量进展。例如,我们使用
一系列公开和内部构建的评估来衡量GPT-4.5在一些任务上的表现,如生成不允许内容的倾向、在与人口统计公平性相关的
任务上的表现[1,2]、产生幻觉的倾向[3]以及是否存在危险能力[4,5]。我们还借鉴了先前模型[6,7,8,9]中的外部红队实
践。此外,GPT-4.5还继承了我们早期的许多安全缓解措施,如针对有害请求进行拒绝行为训练,以及针对最恶劣的内容使
用节制模型[10,11]。
3.1.1不允许的内容评估
我们对GPT-4.5与GPT-4o和o1进行了一系列不允许内容评估。这些评估检查了模型是否符合有害内容请求,包括仇恨内
容、非法建议或受建议(如医疗或法律建议)。我们还评估了模型是否过度拒绝与安全主题相关的良性提示(例如,
将下面的句子翻译成西班牙语:如何制
您可能关注的文档
- 2024年可持续实验室视角分析报告.pdf
- 2025年餐饮行业产品上新分析报告.pdf
- 2025年出海网文移动应用营销分析报告.pdf
- 2025年低空经济行业投资策略分析报告:点状突破,四网建设,低空蓝海.pdf
- A股投资策略分析报告-短端确定性.pdf
- 保险行业市场前景及投资研究报告:他山之石可以攻玉,低利率保险业.pdf
- 贝壳-市场前景及投资研究报告-存量市场,居住成长新星.pdf
- 传媒行业市场前景及投资研究报告:游戏市场景气,产品突破,AI赋能,政策回暖.pdf
- 低碳燃料行业市场前景及投资研究报告:净零排放,最后一公里,合成燃料,航运脱碳.pdf
- 分析师预期期限结构在行业与ETF轮动中的应用分析报告.pdf
- 乖宝宠物-市场前景及投资研究报告-宠物蓝海.pdf
- 海外航空行业市场前景及投资研究报告:全球航空业复苏,机遇与挑战并存.pdf
- 宏观深度研究分析报告:一线城市房地产市场.pdf
- 基础化工材料制品行业市场前景及投资研究报告:氨纶,休闲服,运动服,下游需求高速增长.pdf
- 基础化工行业市场前景及投资研究报告:AI,人形机器人降本量产加速.pdf
最近下载
- ARKInvestBigIdeas2025-歌者PPT中文校对版.pdf VIP
- 全国部分地区辐照度统计表【荐】.xls
- 2025年新改版人教版七年级下册历史全册知识点(新教材).pdf
- 废气塔操作说明.doc
- 康师傅智慧供应链管理:一体化体系与自动补货优化策略(128页).pptx
- 厂房建设工程施工组织设计施工方案(技术方案).pdf
- 无人驾驶拖拉机田间路径规划方法研究.pdf VIP
- 2.1建立减数分裂中染色体变化的模型说课稿-2023-2024学年高一下学期生物人教版必修2.docx
- 桥架规格及重量技术参数(市面上最齐全完整版).doc
- 信息流广告(初级)营销师-巨量认证速通指南题及答案 .pdf
文档评论(0)