大模型生态加速突破，2024年应用元年有望到来.docxVIP

下载本文档

3
0
约1.97万字
约 33页
2024-03-23 发布于北京
举报
版权申诉

大模型生态加速突破，2024年应用元年有望到来.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

图11：Mixtral8x7B、LLaMA2测试结果对比 9

图12：Mixtral8x7B与LLaMA2、GPT-3.5对比 9

图13：GPT-4V输入、输出模式和应用场景 9

图14：Claude2.1开放式QA精度提升 10

图15：Claude2.1减少长文本错误率 10

图16：Claude3模型的部分测试结果超过GPT-4 11

图17：LLaMA1与LLaMA2模型家族的参数和性能等 11

图18：闭源模型基准测试对比结果 11

图19：LLaMA2软硬件投入 12

图20：GLM-4基础能力和中文对齐能力 13

图21：智谱GLMStore 13

图22：百度“芯片+平台+模型+应用“4层架构 13

图23：千帆AI原生应用商店覆盖B端5大领域 13

图24：ERNIE赋能文心产业级知识增强大模型 14

图25：ERNIE效果对比 14

图26：用于训练新一代星火大模型的“飞星一号”平台 14

图27：讯飞星火V3.5七大能力提升 14

图28：讯飞大模型总开发者总数超35万 14

图29：星火开源-13B上线 14

图30：通义千问2.0主流评测结果 15

图31：通义大模型训练的8大行业模型 15

图32：abab6测评数据 15

图33：Baichuan3中英文、数学和代码评测 16

图34：Baichuan3对齐测试和医疗评测结果 16

图35：Sora采用DM+Transformer结构 16

图36：Sora视频生成效果 16

图37：DreamPropeller方法提升视频生成速度效果展示 17

图38：SVD文本-视频生成、图片-视频生成和多视图合成案例 17

图39：SVD定量比较效果 17

图40：VideoPoet能力概览 18

图41：VideoPoet测评效果 18

图42：MidjourneyV6BETA发布 18

图43：MidjourneyV6用户分享 18

图44：GAIA原理示意图 19

图45：GAIA效果定性比较 19

图46：AnimateAnyone模型结构 19

图47：AnimateAnyone模型效果 19

图48：AnimateAnyone时装视频合成测试结果 19

图49：AnimateAnyone舞蹈视频合成测试结果 19

图50：ChatGPT自定义版本 20

图51：OpenAIGPT商店 20

图52：GPTs覆盖领域和趋势榜（2024年2月5日） 20

图53：GPTs解锁费用 20

图54：Meta2021财年Q2到2023财年Q4的资本性支出 21

图55：Microsoft2021财年Q2到2023财年Q2的资本性支出 21

图56：Google2021财年Q2到2023财年Q4的资本性支出 22

图57：Amazon2021财年Q2到2023财年Q4的资本性支出 22

表1：GPT-4V与Gemini对比 10

海外大模型形成一超多强格局，OpenAI被加速追赶

GoogleGemini：原生多模态且能力有望追平GPT-4

2023年12月7日，Google发布了新一款基于联合训练的原生多模态大模型Gemini。谷歌所发布的Gemini基于文本、图片、语音和视频联合训练，形成了跨模态的强大泛化能力，并在多个测试中有优秀表现。在Gemini的模型报告中，Gemini可以理解文档和手写笔迹，识别学生的推理步骤，并给出详细的解答，生成对应的Latex公式。

图1：Gemini采用原生多模态的模型结构图2：Gemini可用来修订学生作业

资料来源：《Gemini:AFamilyofHighlyCapableMultimodalModels》（作者GeminiTeam,Google），

Gemini模型分为3种规模，适用于从大型数据中心到移动设备的各种场景。Ultra是Gemini家族中最强大的模型，可以完成高度复杂的推理和多模态任务。Pro在Ultra基础上进行了优化和平衡，仍然具有较强的推理性能和广泛的多模态能力。Nano专为设备部署设计，Nano-1、Nano-2参数量分别为

大模型生态加速突破，2024年应用元年有望到来.docx 原文免费试下载