- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
谨请参阅尾页重要声明及财通证券股票和行业评级标准证券研究报告
谨请参阅尾页重要声明及财通证券股票和行业评级标准
证券研究报告
内容目录
内容目录
多模态技术再迎“奇点”时刻 3
谷歌Veo3推动AI视频进入“音画同步”时代 3
豆包发布视频通话功能,AI视觉理解与交互加速落地 5
视频生成赛道竞争胶着,商业化曙光已现 6
视频生成模型中外各领风骚,谷歌、快手成为近期“黑马” 6
实测体验:视频一致性、稳定性明显提升,指令跟随、物理规律理解仍偏弱 7
投资建议 11
风险提示 12
图表目录
图表目录
图1.谷歌发布Veo3实现生成视频人物开口说话 3
图2.Veo文生视频技术框架 4
图3.谷歌为视频生成音频技术框架 5
图4.豆包视频通话应用场景 5
图5.视频生成领域活跃度竞争格局 6
图6.在Huggingface上Vbench提出了评价视频生成模型的参考标准 7
图7.快手可灵2.1视频生成效果 8
图8.快手可灵2.1订阅价格 8
图9.Vidu视频生成效果 9
图10.Vidu订阅价格 9
图11.海螺AI视频生成效果 10
图12.海螺AI订阅价格 10
图13.Runway视频生成效果 11
谨请参阅尾页重要声明及财通证券股票和行业评级标准证券研究报告
谨请参阅尾页重要声明及财通证券股票和行业评级标准
证券研究报告
1 多模态技术再迎“奇点”时刻
谷歌Veo3推动AI视频进入“音画同步”时代
谷歌发布视频生成模型Veo3,让AI视频角色开口说话。5月21日,谷歌2025
开发者大会上,谷歌推出了Veo3视频生成模型和Imagen4图像生成模型,其中
Veo3支持原生音频生成,能够为视频添加背景音乐、音效甚至对白。Veo3已内嵌入谷歌的影视制作工具Flow,可赋能电影制作人和内容创作者工作流,Flow支持用户创建场景、管理素材、编辑故事情节并控制镜头运动。当前需要订阅GoogleGemini的AIUltra(每月249.99美元)才能使用Veo3。根据新智元报道,Klarna等公司正在使用Veo来提高营销内容创作效率,从而显著缩短制作周期;数字营销公司Jellyfish已将Veo集成到其AI营销平台Pencil中,并与航空公司合作提供AI生成的机上娱乐内容,平均成本和制作时间减少了50%。我们认为,Veo3带来了多模态发展的“奇点”,AI生成视频商业化进程被极大加速,对推理算力的需求也将进一步推升。
图1.谷歌发布Veo3实现生成视频人物开口说话
数据来源:Veo3官网,
训练方法:使用潜在扩散模型(Latentdiffusionmodel)。Diffusion是现代图像、音频和视频生成模型的标准方法。Veo3采用潜在扩散技术,将扩散过程同时应用于时间音频潜变量(temporalaudiolatents)和时空视频潜变量(spatio-temporalvideolatents)。视频和音频通过各自的自动编码器编码为压缩的潜在表示,与原始像素或波形相比,在该表示中学习可以更高效地进行。在训练过程中,基于Transformer的去噪网络经过优化,可从含噪潜变量向量中去除
谨请参阅尾页重要声明及财通证券股票和行业评级标准证券研究报告
谨请参阅尾页重要声明及财通证券股票和行业评级标准
证券研究报告
噪声。然后在采样过程中,将该网络迭代应用于输入的高斯噪声,以生成视频。
训练数据:在一个包含图像、视频和相关注释的大型数据集上进行训练。谷歌利用多个Gemini模型,使用不同详细级别的文本标题对数据进行注释,并应用过滤器来删除不安全的标题和个人身份信息;根据各种合规性和安全性指标以及质量对训练视频进行筛选。所有数据在不同来源间进行语义去重,以最大程度降低输出过度拟合训练数据特定元素的风险。
图2.Veo文生视频技术框架
数据来源:谷歌Deepmind官网,
谷歌提出视频到音频技术(V2A),将视频像素与自然语言提示相结合,可为屏幕上的动作生成丰富的声音。2024年6月,谷歌Deepmind分享了一篇关于“为视频生成音频”的博客,展示了V2A生成背景音的效果。通过V2A,用户可以为任何视频输入生成无限数量的音轨,也可以定义一个“positiveprompt”来引导生成的输出指向所需的声音,或者定义一个“negativeprompt”来引导它远离不需要的声音。生成音频时,V2A系统首先将视频压缩为编码进行输入,然后扩散模
您可能关注的文档
- 通信行业全球运营商月报12:新时代企业制度纲领文件出台,DOU高增带动电信收入回暖.docx
- 金融工程定期-港股量化:5月南下资金净流入有所放缓,6月增配价值.docx
- 金工定期报告:预期高股息组合跟踪.docx
- 重估“安全资产”系列报告:并购重组,起风了.docx
- 轻工制造行业定期报告:618大促看好个护国牌崛起,关注智能眼镜新品催化.docx
- 证券行业中期策略:筑底蓄势,头部集聚.docx
- 软件与服务行业美股科技股观察|FY26Q1业绩跟踪:英伟达,业绩延续强劲,强需求对冲H20损失.docx
- 轻工制造&纺织服饰行业6月投资策略展望:国补拉动需求、关税仍有扰动,关注电子烟、AI眼镜投资机会.docx
- 诺邦股份个护家清行业机遇期,高端水刺无纺布打开成长空间.docx
- 资产配置月报:六月配置视点,今年业绩领先的基金有何特征?.docx
最近下载
- GBT . 色漆和清漆 防护涂料体系对钢结构的防腐蚀保护 第部分 表面类型和表面处理.docx VIP
- XXX集团ERP项目一期上线切换方案.doc
- 审计服务承诺及质量保证措施.docx VIP
- 人教版(PEP)小学六年级英语上册《Unit 1 How can I get there》大单元整体教学设计.docx
- 皮肤病学常见皮肤病治疗(98页).pptx VIP
- 诽谤和解承诺书范文.docx VIP
- chrome谷歌浏览器官方下载「chrome谷歌浏览器官方下载安卓」.docx VIP
- 华为任职资格标准管理三级.doc VIP
- 2022年秋高中数学必修第一册讲义(人教版).pdf VIP
- 初中文言文必背18个文言虚词(附记忆口诀)!.pdf VIP
文档评论(0)