大模型生态加速突破,2024年应用元年有望到来.docxVIP

大模型生态加速突破,2024年应用元年有望到来.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

图11:Mixtral8x7B、LLaMA2测试结果对比 9

图12:Mixtral8x7B与LLaMA2、GPT-3.5对比 9

图13:GPT-4V输入、输出模式和应用场景 9

图14:Claude2.1开放式QA精度提升 10

图15:Claude2.1减少长文本错误率 10

图16:Claude3模型的部分测试结果超过GPT-4 11

图17:LLaMA1与LLaMA2模型家族的参数和性能等 11

图18:闭源模型基准测试对比结果 11

图19:LLaMA2软硬件投入 12

图20:GLM-4基础能力和中文对齐能力 13

图21:智谱GLMStore 13

图22:百度“芯片+平台+模型+应用“4层架构 13

图23:千帆AI原生应用商店覆盖B端5大领域 13

图24:ERNIE赋能文心产业级知识增强大模型 14

图25:ERNIE效果对比 14

图26:用于训练新一代星火大模型的“飞星一号”平台 14

图27:讯飞星火V3.5七大能力提升 14

图28:讯飞大模型总开发者总数超35万 14

图29:星火开源-13B上线 14

图30:通义千问2.0主流评测结果 15

图31:通义大模型训练的8大行业模型 15

图32:abab6测评数据 15

图33:Baichuan3中英文、数学和代码评测 16

图34:Baichuan3对齐测试和医疗评测结果 16

图35:Sora采用DM+Transformer结构 16

图36:Sora视频生成效果 16

图37:DreamPropeller方法提升视频生成速度效果展示 17

图38:SVD文本-视频生成、图片-视频生成和多视图合成案例 17

图39:SVD定量比较效果 17

图40:VideoPoet能力概览 18

图41:VideoPoet测评效果 18

图42:MidjourneyV6BETA发布 18

图43:MidjourneyV6用户分享 18

图44:GAIA原理示意图 19

图45:GAIA效果定性比较 19

图46:AnimateAnyone模型结构 19

图47:AnimateAnyone模型效果 19

图48:AnimateAnyone时装视频合成测试结果 19

图49:AnimateAnyone舞蹈视频合成测试结果 19

图50:ChatGPT自定义版本 20

图51:OpenAIGPT商店 20

图52:GPTs覆盖领域和趋势榜(2024年2月5日) 20

图53:GPTs解锁费用 20

图54:Meta2021财年Q2到2023财年Q4的资本性支出 21

图55:Microsoft2021财年Q2到2023财年Q2的资本性支出 21

图56:Google2021财年Q2到2023财年Q4的资本性支出 22

图57:Amazon2021财年Q2到2023财年Q4的资本性支出 22

表1:GPT-4V与Gemini对比 10

海外大模型形成一超多强格局,OpenAI被加速追赶

GoogleGemini:原生多模态且能力有望追平GPT-4

2023年12月7日,Google发布了新一款基于联合训练的原生多模态大模型Gemini。谷歌所发布的Gemini基于文本、图片、语音和视频联合训练,形成了跨模态的强大泛化能力,并在多个测试中有优秀表现。在Gemini的模型报告中,Gemini可以理解文档和手写笔迹,识别学生的推理步骤,并给出详细的解答,生成对应的Latex公式。

图1:Gemini采用原生多模态的模型结构 图2:Gemini可用来修订学生作业

资料来源:《Gemini:AFamilyofHighlyCapableMultimodalModels》(作者GeminiTeam,Google),

资料来源:《Gemini:AFamilyofHighlyCapableMultimodalModels》(作者GeminiTeam,Google),

Gemini模型分为3种规模,适用于从大型数据中心到移动设备的各种场景。Ultra是Gemini家族中最强大的模型,可以完成高度复杂的推理和多模态任务。Pro在Ultra基础上进行了优化和平衡,仍然具有较强的推理性能和广泛的多模态能力。Nano专为设备部署设计,Nano-1、Nano-2参数量分别为

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档