CN117911584B 基于文本提示词和图像驱动的内容生成方法、设备、介质（上海人工智能创新中心）.docxVIP

下载本文档

0
0
约1.22万字
约 21页
2026-01-14 发布于重庆
举报
版权申诉

CN117911584B 基于文本提示词和图像驱动的内容生成方法、设备、介质（上海人工智能创新中心）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN117911584B(45)授权公告日2025.07.01

(21)申请号202311759693.8

(22)申请日2023.12.20

(65)同一申请的已公布的文献号申请公布号CN117911584A

(43)申请公布日2024.04.19

(73)专利权人上海人工智能创新中心

地址200232上海市徐汇区云锦路701号

37、38层

(72)发明人曾艳红张倚铭邢哲宁方友清

陈恺

(74)专利代理机构上海科盛知识产权代理有限公司31225

专利代理师宣慧兰

(51)Int.CI.

GO6T11/60(2006.01)

GO6V30/41(2022.01)

GO6V30/19(2022.01)

GO6V20/40(2022.01)

GO6T5/70(2024.01)

(56)对比文件

CN116939325A,2023.10.24

CN116681630A,2023.09.01

审查员姚梦琦

权利要求书2页说明书7页附图2页

(54)发明名称

基于文本提示词和图像驱动的内容生成方法、设备、介质

(57)摘要

CN117911584B本发明涉及一种基于文本提示词和图像驱动的内容生成方法、设备、介质，一方面，本发明对图像驱动任务构建了一个条件编码模块，该模块能够兼容现有的文本生成图像、文本生成视频模型，以条件帧和帧间一致性为输入，能更好编码和保留条件帧的细节；另一方面，本发明对训练数据集的扩充，除了条件帧、目标条件帧，该数据集还包含了条件帧和目标条件帧的帧间一致性，该发明能够有效提高生成视频的稳定性和可控性；最后，针对图像驱动模型的训练策略，将动作过快或静止的数据映射到特定的输入区间，通过在推理时回避该输入区间以获得高质量的生

CN117911584B

程度。

盖网一最生场

CN117911584B权利要求书1/2页

1.一种基于文本提示词和图像驱动的内容生成方法，其特征在于，基于给定的文本提示词和给定的图像，利用预训练好的图像驱动模型生成视频，所述图像驱动模型的训练过程包括如下步骤：

获取包括输入文本、给定条件帧、目标视频帧序列和帧间一致性编码的样本，其中，基于所述给定条件帧和所述目标视频帧序列计算所述帧间一致性编码；

对所述给定条件帧进行编码，得到图像编码，基于所述图像编码和所述帧间一致性编码，通过条件编码得到条件帧特征；

初始化噪声帧，通过特征提取得到噪声特征；

基于所述条件帧特征、所述噪声特征和所述输入文本，得到输出编码并进行去噪，作为新的噪声帧，完成本轮迭代，重复本步骤进行多次迭代；

基于多次迭代后的去噪后的输出编码，得到输出视频帧，基于所述目标视频帧序列和所述输出视频帧更新所述图像驱动模型的参数，完成针对所述样本的训练，

其中，利用条件编码模块实现条件编码，所述条件编码模块插在文本生成视频模型的第一层，所述条件编码模块包括结构为4×3×3×320的一层卷积层，所述条件编码模块利用320个尺寸为4×3×3的卷积核对通道数为4的输入进行条件编码，得到和输入同样尺寸大小且通道数为320的条件编码。

2.根据权利要求1所述的一种基于文本提示词和图像驱动的内容生成方法，其特征在于，所述图像驱动模型包括：

条件编码模块，用于基于所述图像编码和所述帧间一致性编码得到条件帧特征；

原始输入模块，用于基于所述噪声帧得到噪声特征；

至少一组Unet模块和时序模块，用于基于所述条件帧特征、所述噪声特征和所述输入文本经编码得到的文本编码，得到输出编码。

3.根据权利要求2所述的一种基于文本提示词和图像驱动的内容生成方法，其特征在于，所述Unet模块用于基于文本编码逐帧处理视频帧，所述时序模块用于对齐视频帧。

4.根据权利要求2所述的一种基于文本提示词和图像驱动的内容生成方法，其特征在于，所述原始输入模块和所述Unet模块预先训练好，在所述图像驱动模型训练的过程中不更新参数。

5.根据权利要求1所述的一种基于文本提示词和图像驱动的内容生成方法，其特征在于，通过将所述图像编码和所述帧间一致性编码在通道维度上拼接并进行条件编码，得到所述条件帧特征。

6.根据权利要求1所述的一种基于文本提示词和图像驱动的内容生成方法，其特征在于，所述帧间一致性编码的计算过程包括：

计算给

您可能关注的文档

文档评论（0）

aabbcc + 关注: 实名认证

文档贡献者

若下载文档格式有问题，请咨询qq1643702686索取原版

咨询Ta 进入空间

1亿VIP精品文档

更多 >

CN117911584B 基于文本提示词和图像驱动的内容生成方法、设备、介质（上海人工智能创新中心）.docxVIP