2024年数字经济专题：人工智能行业应用如火如荼_数字经济算力基建再接再砺.docx

下载文档

7
0
约1.69万字
约 32页
2024-06-13 发布于重庆
举报
版权申诉
保障服务

2024年数字经济专题：人工智能行业应用如火如荼_数字经济算力基建再接再砺.docx

1、本文档共32页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2024年数字经济专题：人工智能行业应用如火如荼_数字经济算力基建再接再砺

一、OpenAI推出Sora文生视频模型，AI全球应用发展更进一步

（一）Sora文生视频模型推出超预期，有效驱动AI应用发展

从全球看，OpenAI推出文生视频模型Sora，人工智能赋能短视频领域。2024年2月美国OpenAI继2022年底ChatGPT发布后，推出全球首款文生视频模型Sora，该款模型可以通过输入文字及提示词（最长135个）后，生成细节连贯的相关视频。Sora的发布，使得ChatGPT从文字、图片层面正式向成熟短视频层面进行演进，可生成最长60秒的全动态视频，通过深入理解物体在现实世界中的存在方式，具备创建复杂场景和多人物角色的能力。它能够描绘道具、生成表现出丰富情感的角色，充分展示了对物体存在的出色理解，确保了生成视频过程中人物、环境等一致性，一经推出备受关注。Sora具备“世界模拟器”的潜力，视频长度提升和效果超预期。Sora发布前，友商Pika、Runway等生成模型大多处于生成4秒左右的“动图”范畴，60秒连贯视频叠加Sora更强的语义理解能力、对不同宽高比和分辨率的适应能力、优秀的视频扩展能力等优势，使得Sora发布后便同其它模型产生较大代差，对AI制作视频领域带来新一轮突破。

算法原理方面，Sora本质上基于“Transformer+Diffusion”。Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型，同时采用了Transformer架构，也就是一种“扩散型Transformer”。Sora主要的算法基础原理在于Transformer+Diffusion，从文字生成视频主要经过三步，分别为语义理解、生成图像以及图像排序生成视频，语义理解主要基于ChatGPT，生成图像基于Diffusion，图像排序生成视频则基于Diffusion及Transformer。首先，Sora需要巨量数据进行学习分析。由于Sora属于文生视频模型，故而需要互联网规模的海量视频数据库进行分析学习，进而通过数据库进行联想，从而对输入的语义有加深的了解；其次，通过文字生成图片。在文字输入后，Sora会将文字先利用ChatGPT生成（Transform）图片，即Transformer，给出的文字越多，生成的图片细节愈发丰富；而Diffusion则会根据关键词特征值对应的可能性概率，在使用视频库中数据进行多次拟合后，将碎片化信息粘合进行完整的图片输出；生成图片后，再多次重复该过程，生成完整视频。将完整的图片进行时间序列排序，利用时空补片技术（Spacetimelatentpatches）生成具有语义代表性的视频成品。给定一个压缩的输入视频，模型会提取一系列时空补片，充当Transformer的token。正是这个基于补片的表示，让Sora能够对不同分辨率、持续时间和长宽比的视频和图像进行训练，在推理时，模型则通过在适当大小的网格中排列随机初始化的补片来控制生成视频的大小。

（二）Sora将AI潜力具象化，全球未来AI发展潜力无限

Sora是对已有信息的整合，未来发展仍可持续演进。根据Sora算法原理，我们可以发现其核心是基于互联网上已有的视频信息，根据文字输入要求进行碎片化拼接整理，从而具备基于现有数据库的基础联想能力，虽然Sora目前突破了文生视频模型的时长限制及连贯性的问题，但尚未完全理解现实世界中的物理法则和随机应变，未来AI发展潜力仍有较大提升空间。Sora是ChatGPT的延伸，商用前景大有可为。鉴于Sora的算法及底层核心逻辑机制，我们认为当前Sora更多的意义在于将AI潜力具象化，当前处于该具象化进程早期阶段，其本质仍然是以ChatGPT为底座的文生视频模型，与其它文生视频模型相比，拥有时长更久、长期一致性、多样化视频格式输出等特点，其内核仍以ChatGPT及自身视频训练量关联度较大。我们认为Sora作为在ChatGPT上衍生的文生视频模型，未来主要发展方向也正如其所说，或将以“世界模拟器”为前景，逐步提升其创作能力和推理能力。长期来看，Sora将远远不只是内容生产工具，其构建的基于三维物理世界来创造数字原生世界的强大引擎，将给一些产业从底层工具层面带来变化，形成深远影响。

二、我国数字基建“适度超前”，有效助力AI+快速发展

（一）政策持续支持，大力转型数字经济发展

我国大力推进现代化产业体系建设，“人工智能+战略”明确提出。2024年《政府工作报告》中提出

2024年数字经济专题：人工智能行业应用如火如荼_数字经济算力基建再接再砺.docx 原文免费试下载