通信行业深度:“合成数据%2b强化学习”-大模型进化的新范式.docxVIP

通信行业深度:“合成数据%2b强化学习”-大模型进化的新范式.docx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

内容目录

OpenAI新模型开出高额订阅费,多领域实现新飞跃 3

OpenAI发布新模型o1系列,逻辑 理能力卓越 3

o1或为OpenAI新模型猎户座(Orion)生成合成数据 4

合成数据面面观:定义、优点、不足与解决方案 6

合成数据的定义 6

合成数据的优点 6

相较于人工生成的数据,性价比或更高 6

更 整、全面 6

隐 性更好 6

合成数据的不足与解决方案 7

不足 7

解决方案一:诱导幻觉 7

解决方案二:加入数据评估机制 8

解决方案三:在训练过程中积累数据 9

3“合成数据+强化学习”,o1或确认大模型进化新范式 11

MetaLlama3:使用合成数据和RLAIF训练 11

英伟达Nemotron-4340B:合成数据神器和RLAIF,表现卓越 13

微软Orca-3:智能 框架AgentInstruct,生成式教学 14

4 资建议:OpenAI揭示的 理ScalingLaw利好 力板块 16

表目录

表1:OpenAIo1在不 领域的得分情况 3

表2:OpenAIo1相较gpt4o的多维度性能难升 3

表3:OpenAIo1-preview的API定价 4

表4:OpenAIo1-mini的API定价 4

表5:Claude3.5Sonnet在多项测试中的表现优于GPT4o 5

表6:“诱导-对比解码”策略 8

表7:ICD策略应用前后不 模型的TruthfulQA变化 8

表8:Nemotron-4340B模型应用路径 9

表9:数据在模型拟合迭代 换 9

表10:数据在模型拟合迭代积累 9

表11:数据在模型拟合迭代 换的 失变化 10

表12:数据在模型拟合迭代积累的 失变化 10

表13:自我奖励语言模型训练原理 12

表14:Llama3.1405B与其 模型的人工测评结果 12

表15:Llama3.1405B与Nemotron-4340B、GPT-4等模型各任务表现对比 13

表16:Nemotron-4340B与Llama-3-70b等模型在各任务表现对比 14

表17:Nemotron-4340BInstruct与其 知名模型在硬基准测试中的表现对比 14

表18:Orca-3和其 模型在各任务中表现对比 15

表19:阅读理解任务中Orca-3和其 模型的表现对比 15

表20:数学任务中Orca-3和其 模型的表现对比 15

表21:o1模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现着训练和测试计量的增长而变得更好 16

表22:英伟达科学家JimFan 示o1 理ScalingLaw 17

OpenAI新模型开出高额订阅费,多领域实现新飞跃

OpenAI发布新模型o1系列,逻辑推理能力卓越

当地时间9月12日,OpenAI发布新模型系列o1(代号“草莓”,以下除非注明,统称为“o1”),该模型的特点主要是,在给出推理结果前,花更多时间“思考”,产生较长内部思维链,在解决科学、数学、代码等类问题上的表现比之前的模型更好。

OpenAIo1的理科能力强。o1在编程题库Codeforces得到89分,在美国数学竞赛

(AIME)处于全美学生的前500名,在物理、生物和化学题库GPQA的表现上超过了人

类博士水平,其强大的逻辑能力使o1相较于gpt4o有着多维度的性能提升。

图表1:OpenAIo1在不同领域的得分情况

资料来源:OpenAI,

图表2:OpenAIo1相较gpt4o的多维度性能提升

资料来源:OpenAI,

OpenAIo1的API定价昂贵,且使用次数限制较大。应用程序编程接口(API,ApplicationProgrammingInterface)的价格上,o1-preview每百万token输入15美元,每百万输出token60美元,o1-mini相对便宜,每百万token输入3美元,每百万token输出12

美元。目前ChatGPTPlus和Team用户可以在模型选取器中手动选择,o1-preview每周限制30条消息,o1-mini每周限制50条消息。对于开发者来说,只对已经付过1000美刀的等级5开发者开放,每分钟限制20次。

图表3:OpenAIo1-preview的API定价 图表4:OpenAIo1-mini的API定价

资料

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档