从感知到创造：图像视频生成式方法前沿探讨.pdf

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第43卷第15期/2023年8月/光学学报特邀综述

从感知到创造：图像视频生成式方法前沿探讨

林倞，杨斌斌*

中山大学计算机学院，广东广州510006

摘要随着计算机软硬件的迅速发展，人工智能（AI）模型在感知型任务中实现了接近或者超越人类能力的性能水平。

然而，为了开发能够全面理解世界的成熟AI系统，模型必须能够生成视觉概念，而非仅仅是识别它们。首先全面概述现

有的生成框架，其中包括对抗生成网络、变分自动编码器、流模型和扩散模型；然后，回顾最近在图像和视频生成方面的

最新进展，并讨论它们的局限性；最后，提出改进现有视觉生成模型的可行策略，并概述有前途的未来研究方向。这些讨

论和探究对推动视觉生成建模领域的发展和全面挖掘AI系统在视觉概念生成领域的潜能具有重要的意义。

关键词人工智能模型；视觉生成建模；扩散模型；图像和视频生成

中图分类号TP391文献标志码ADOI：10.3788/AOS230758

从技术角度上来看，感知模型只需要利用神经网

1引言

络拟合现有的数据分布的决策边界，将一个分布划分

［14］

人工智能（AI）作为计算机科学技术领域的一为多个子分布（对应于分类任务），而不需要考量数据

---

［58］［3031］［3237］

个分支，研究的是如何让计算机通过与环境交互进分布是如何产生的。而对于生成式AI，则需

行经验性学习后，获得类似人类的智能并能够在特定要站在一个更高的角度，全面地剖析真实数据分布的

的任务中做出合理的推断与决策。由于飞速进步的计各种数学特征，进而通过参数优化的方式来得到一个

［910］［11

数学毕业，从事大数据工作十几年，涉及二三十个行业

更多 >