CN119788886B 一种基于aigc的智能mv生成方法、系统、设备及介质 (北京流金岁月传媒科技股份有限公司).docxVIP

CN119788886B 一种基于aigc的智能mv生成方法、系统、设备及介质 (北京流金岁月传媒科技股份有限公司).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN119788886B(45)授权公告日2025.07.04

(21)申请号202510264817.8

(22)申请日2025.03.07

(65)同一申请的已公布的文献号申请公布号CN119788886A

(43)申请公布日2025.04.08

(73)专利权人北京流金岁月传媒科技股份有限

公司

地址100144北京市石景山区实兴大街30

号院3号楼2层B-0103房间

(72)发明人郭云辉孟庆国宁黎王俭

刘诗源

(74)专利代理机构北京友欣客一专利代理事务所(普通合伙)16355

专利代理师陈陈数

(51)Int.CI.

HO4N21/2343(2011.01)

HO4N21/233(2011.01)

HO4N21/234(2011.01)

H04N21/242(2011.01)

H04N21/43(2011.01)

HO4N21/439(2011.01)

HO4N21/44(2011.01)H04N21/4402(2011.01)HO4N21/472(2011.01)

(56)对比文件

CN119299806A,2025.01.10

审查员于利娜

权利要求书3页说明书17页附图7页

(54)发明名称

一种基于AIGC的智能MV生成方法、系统、设备及介质

(57)摘要

CN119788886B本申请涉及一种基于AIGC的智能MV生成方法、系统、设备及介质,属于人工智能生成内容技术领域。其中,方法包括:接收用户输入的原始音乐文件和用户指令;对原始音乐文件进行音频预处理生成标准化音频信号,并将用户指令映射为语义向量;提取节奏特征和情感特征,生成音乐特征向量并与语义向量进行特征对齐,基于扩散模型生成初始关键帧序列;对初始关键帧序列进行粒子特效密度动态调整和镜头切换点生成,输出增强关键帧序列并进行光流插帧和长时序预测,生成优化视频帧序列;根据目标平台参数对优化视频帧序列进行分块并行渲染,生成MV文件及元数据。本申请能够实现音频与视觉内容的深

CN119788886B

接收用户输入的原始音乐文件和用户

接收用户输入的原始音乐文件和用户指令

对原始音乐文件进行音频预处理生成

标准化音频信号,并通过跨模态编码

模型将用户指令映射为语义向量

提取标准化音频信号中的节奏特征和情感特征,生成音乐特征向量

将音乐特征向量与语义向量进行特征

对齐,生成联合特征向量,并基于扩散模型生成初始关键帧序列

根据音乐特征向量中的频谱能量特征,对初始关键帧序列进行粒子特效密度动态调整和镜头切换点生成,输

出增强关键顿序列

对增强关键帧序列进行光流插帧和长时序预测,生成优化视频帧序列

根据目标平台参数对优化视频帧序列进行分块并行渲染,生成MV文件及元

数据

S101

S102

S103

S104

S106

CN119788886B权利要求书1/3页

2

1.一种基于AIGC的智能MV生成方法,其特征在于,所述生成方法包括:

接收用户输入的原始音乐文件和用户指令;其中,用户指令包括文本关键词、参考图像和风格参数;

对所述原始音乐文件进行音频预处理生成标准化音频信号,并通过跨模态编码模型将所述用户指令映射为语义向量;

提取所述标准化音频信号中的节奏特征和情感特征,生成音乐特征向量;

将所述音乐特征向量与语义向量进行特征对齐,生成联合特征向量,并基于扩散模型生成初始关键帧序列;

根据所述音乐特征向量中的频谱能量特征,对所述初始关键帧序列进行粒子特效密度动态调整和镜头切换点生成,输出增强关键帧序列;

对所述增强关键帧序列进行光流插帧和长时序预测,生成优化视频帧序列;

根据目标平台参数对所述优化视频帧序列进行分块并行渲染,生成MV文件及元数据;提取所述标准化音频信号中的节奏特征和情感特征,生成音乐特征向量的步骤包括:

对所述标准化音频信号进行分帧加窗处理,生成短时信号帧序列并进行时频变换,得到复数时频矩阵;

基于所述复数时频矩阵计算频谱通量序列,通过动态规划节拍跟踪算法生成节拍时间戳序列;

基于Mel尺度滤波器组对所述复数时频矩阵进行频谱包络提取,生成MFCC特征矩阵,并计算低频能量占比序列;

将所述MFCC特征矩阵与低频能量占比序列进行拼接,构建增强特

您可能关注的文档

文档评论(0)

xm + 关注
实名认证
文档贡献者

专业学习资料,专业文档

1亿VIP精品文档

相关文档