文本到视频生成:研究现状、进展和挑战.pdfVIP

  • 1
  • 0
  • 约5.13万字
  • 约 13页
  • 2025-10-21 发布于海南
  • 举报

文本到视频生成:研究现状、进展和挑战.pdf

第46卷第5期电

报Vol.

46No.

5

2024年5月Journal

of

Electronics

Information

TechnologyMay

2024

文本到视频生成:研究现状、进展和挑战

邓梓焌

何相腾

彭宇新*

(北京大学王选计算机研究所

北京

100080)

要:文本到视频生成旨在根据用户给定的文本描述生成语义一致、内容真实、时序连贯且符合逻辑的视频。

该文首先介绍了文本到视频生成领域的研究现状,详细介绍了3类主流的文本到视频生成方法:基于循环网络与

生成对抗网络(GAN)的生成方法,基于Transformer的生成方法和基于扩散模型的生成方法。这3类生成方法在视

频生成任务上各有优劣:基于循环网络与生成对抗网络的生成方法能生成较高分辨率和时长的视频,但难以生成

复杂的开放域视频;基于Transformer的生成方法有能力生成复杂的开放域视频,但受限于Transformer模型单向

偏置、累计误差等问题,难以生成高保真视频;扩散模型具有很好的泛化性,但受制于推理速度和高昂的内存消

耗,难以生成高清的长视频。然后,该文介绍了文本到视频生成领域的评测基准和指标,并分析比较了现有主流

方法的性能。最后,展望了未来可能的研究方向。

关键词:文本到视频生成;扩散模型;生成对抗网络.

中图分类号:TN911.6;

TP18文献标识码:A文章编号:1009-5896(2024)05-1632-13

DOI:

10.11999/JEIT240074

Text-to-videoGeneration:ResearchStatus,ProgressandChallenges

DENG

Zijun

HE

Xiangteng

PENG

Yuxin

(WangxuanInstituteofComputerTechnology,PekingUniversity,Beijing100080,China)

Abstract:

The

generation

of

video

from

text

aims

to

produce

semantically

consistent,

photo-realistic,

temporal

consistent,

and

logically

coherent

videos

based

on

provided

textual

descriptions.

Firstly,

the

current

state

of

research

in

the

field

of

text-to-video

generation

is

elucidated

in

this

paper,

providing

a

detailed

overview

of

three

mainstream

approaches:

methods

based

on

recurrent

networks

and

Generative

Adversarial

Networks

(GAN),

methods

based

on

Transformers,

and

methods

based

on

diffusion

models.

Each

of

these

models

has

its

strengths

and

weaknesses

in

video

generation.

The

recurrent

networks

and

GAN-based

methods

can

generate

文档评论(0)

1亿VIP精品文档

相关文档