通信行业深度：“合成数据%2b强化学习”-大模型进化的新范式.docxVIP

下载本文档

35
0
约1.22万字
约 16页
2024-10-11 发布于北京
举报
版权申诉

通信行业深度：“合成数据%2b强化学习”-大模型进化的新范式.docx

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

内容目录

OpenAI新模型开出高额订阅费，多领域实现新飞跃 3

OpenAI发布新模型o1系列，逻辑理能力卓越 3

o1或为OpenAI新模型猎户座（Orion）生成合成数据 4

合成数据面面观：定义、优点、不足与解决方案 6

合成数据的定义 6

合成数据的优点 6

相较于人工生成的数据，性价比或更高 6

更整、全面 6

隐性更好 6

合成数据的不足与解决方案 7

不足 7

解决方案一：诱导幻觉 7

解决方案二：加入数据评估机制 8

解决方案三：在训练过程中积累数据 9

3“合成数据+强化学习”，o1或确认大模型进化新范式 11

MetaLlama3：使用合成数据和RLAIF训练 11

英伟达Nemotron-4340B：合成数据神器和RLAIF，表现卓越 13

微软Orca-3：智能框架AgentInstruct，生成式教学 14

4 资建议：OpenAI揭示的理ScalingLaw利好力板块 16

表目录

表1：OpenAIo1在不领域的得分情况 3

表2：OpenAIo1相较gpt4o的多维度性能难升 3

表3：OpenAIo1-preview的API定价 4

表4：OpenAIo1-mini的API定价 4

表5：Claude3.5Sonnet在多项测试中的表现优于GPT4o 5

表6：“诱导-对比解码”策略 8

表7：ICD策略应用前后不模型的TruthfulQA变化 8

表8：Nemotron-4340B模型应用路径 9

表9：数据在模型拟合迭代换 9

表10：数据在模型拟合迭代积累 9

表11：数据在模型拟合迭代换的失变化 10

表12：数据在模型拟合迭代积累的失变化 10

表13：自我奖励语言模型训练原理 12

表14：Llama3.1405B与其模型的人工测评结果 12

表15：Llama3.1405B与Nemotron-4340B、GPT-4等模型各任务表现对比 13

表16：Nemotron-4340B与Llama-3-70b等模型在各任务表现对比 14

表17：Nemotron-4340BInstruct与其知名模型在硬基准测试中的表现对比 14

表18：Orca-3和其模型在各任务中表现对比 15

表19：阅读理解任务中Orca-3和其模型的表现对比 15

表20：数学任务中Orca-3和其模型的表现对比 15

表21：o1模型训练和测试阶段在美国奥林匹克数学竞赛（AIME）的表现着训练和测试计量的增长而变得更好 16

表22：英伟达科学家JimFan 示o1 理ScalingLaw 17

OpenAI新模型开出高额订阅费，多领域实现新飞跃

OpenAI发布新模型o1系列，逻辑推理能力卓越

当地时间9月12日，OpenAI发布新模型系列o1（代号“草莓”，以下除非注明，统称为“o1”），该模型的特点主要是，在给出推理结果前，花更多时间“思考”，产生较长内部思维链，在解决科学、数学、代码等类问题上的表现比之前的模型更好。

OpenAIo1的理科能力强。o1在编程题库Codeforces得到89分，在美国数学竞赛

（AIME）处于全美学生的前500名，在物理、生物和化学题库GPQA的表现上超过了人

类博士水平，其强大的逻辑能力使o1相较于gpt4o有着多维度的性能提升。

图表1：OpenAIo1在不同领域的得分情况

资料来源：OpenAI，

图表2：OpenAIo1相较gpt4o的多维度性能提升

资料来源：OpenAI，

OpenAIo1的API定价昂贵，且使用次数限制较大。应用程序编程接口（API，ApplicationProgrammingInterface）的价格上，o1-preview每百万token输入15美元，每百万输出token60美元，o1-mini相对便宜，每百万token输入3美元，每百万token输出12

美元。目前ChatGPTPlus和Team用户可以在模型选取器中手动选择，o1-preview每周限制30条消息，o1-mini每周限制50条消息。对于开发者来说，只对已经付过1000美刀的等级5开发者开放，每分钟限制20次。

图表3：OpenAIo1-preview的API定价图表4：OpenAIo1-mini的API定价

资料