EndoGen：条件自回归内镜视频生成-计算机科学-人工智能-自回归模型-条件视频生成.pdfVIP

下载本文档

2
0
约2.02万字
约 12页
2025-07-30 发布于北京
举报
版权申诉

EndoGen：条件自回归内镜视频生成-计算机科学-人工智能-自回归模型-条件视频生成.pdf

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

EndoGen：条件自回归内镜视频生成

XinyuLiu,HengyuLiu,ChengWang,TianmingLiu,YixuanYuan

TheChineseUniversityofHongKong,HongKongSAR

UniversityofGeorgia,GA,USA

yxyuan@.hk

摘要内窥镜视频生成对于推进医学成像和增强诊断能力至关重要。然而，

该领域的先前研究要么专注于静态图像，缺乏实际应用所需的动态背景，

要么依赖于无条件生成，无法为临床医生提供有意义的参考。因此，在本

本文中，我们提出了第一个有条件内窥镜视频生成框架，即EndoGen。具体

译来说，我们构建了一个具有定制时空网格帧模式（SGP）策略的自回归模

中型。它重新定义了生成多帧的学习过程，将其作为基于网格的图像生成模

式，有效地利用了自回归架构固有的全局依赖建模能力。此外，我们提出

v了一种语义感知标记掩码（SAT）机制，通过在生成过程中选择性地关注

8语义上有意义的区域来增强模型产生丰富和多样化内容的能力。通过广泛

8的实验，我们展示了我们的框架在生成高质量、有条件引导的内窥镜内容

7方面的有效性，并提高了息肉分割下游任务的表现。代码已发布于https:

1///CUHK-AIM-Group/EndoGen。

0Keywords:内窥镜·自回归模型·令牌屏蔽·条件视频生成。

x1介绍

内镜视频生成是一项具有深远影响的关键任务，对于医疗应用包括外科

培训、诊断系统开发和患者教育[11,13,15,25]具有重要意义。真实且可控的

视频合成可以模拟罕见的病理条件，实现个性化的手术规划，并为训练AI

模型提供高质量的数据集。然而，现有的生成方法主要集中在静态图像合

成[4,18]或无条件视频生成[11]。静态图像缺乏用于模拟内镜程序所需的时

态动态特性[19]。对于无条件视频模型[11]，它们产生的任意序列与医生需

要的特定解剖或病理条件不一致[29]。这些限制阻碍了它们在需要针对性输

出场景中的实际应用，例如生成特定病理的视频或为外科培训定制模拟。因

此，迫切需要一个有条件内镜视频生成框架，能够生产符合特定解剖或程序

约束的高质量视频。

2Liuetal.

图1.内窥镜框架和视频由EndoGen生成，具有不同的分辨率。

近期自回归（AR）模型[10,23]在条件建模能力方面展现出了优于基

于扩散的方法的性能，尤其是在需要长程依赖的任务中，如文本和图像生

成[12,21,22,28]。通过一个条件标记，AR模型

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

EndoGen：条件自回归内镜视频生成-计算机科学-人工智能-自回归模型-条件视频生成.pdfVIP