基于映射融合嵌入扩散模型的文本引导图像编辑方法.pdfVIP

基于映射融合嵌入扩散模型的文本引导图像编辑方法.pdf

ISSN1004‑9037，CODENSCYCE4http：//sjcj.nuaa.edu.cn

JournalofDataAcquisitionandProcessingVol.40，No.4，Jul.2025，pp.1035-1045E‑mail：sjcjnuaa.edu.cn

DOI：10.16337/j.1004‑9037.2025.04.016Tel/Fax：+86‑025

基于映射融合嵌入扩散模型的文本引导图像编辑方法

111123

吴飞，马永恒，邓哲颖，王银杰，季一木，荆晓远

（1.南京邮电大学人工智能学院，南京210023；2.南京邮电大学计算机学院，南京210023；3.武汉大学计算机学

院，武汉430072）

摘要：在只有图像和目标文本提示作为输入的情况下，对真实图像进行基于文本引导的编辑是一项

极具挑战性的任务。以往基于微调大型预训练扩散模型的方法，往往对源文本特征和目标文本特征进

行简单的插值组合，用于引导图像生成过程，这限制了其编辑能力，同时微调大型扩散模型极易出现过

拟合且耗时长的问题。提出了一种基于映射融合嵌入扩散模型的文本引导图像编辑方法（Text‑guided

imageeditingmethodbasedondiffusionmodelwithmapping‑fusionembedding，MFE‑Diffusion）。该方法

由两部分组成：（1）大型预训练扩散模型与源文本特征向量联合学习框架，使模型可以快速学习以重建

给定的原图像；（2）特征映射融合模块，深度融合目标文本与原图像的特征信息，生成条件嵌入，用于引

导图像编辑过程。在具有挑战性的文本引导图像编辑基准TEdBench上进行实验验证，结果表明所提

方法在图像编辑性能上具有优势。

关键词：文本引导图像编辑；扩散模型；图像生成；图像编辑；特征映射融合

中图分类号：TP391文献标志码：A

Text⁃GuidedImageEditingMethodBasedonDiffusionModelwithMapping⁃

FusionEmbedding

WUFei1，MAYongheng1，DENGZheying1，WANGYinjie1，JIYimu2，JINGXiaoyuan3

(1.CollegeofArtificialIntelligence,NanjingUniversityofPostsandTelecommunications,Nanjing210023,China;2.Schoolof

ComputerScience,NanjingUniversityofPostsandTelecommunications,Nanjing210023,China;3.SchoolofComputerScience,

WuhanUniversity,Wuhan430072,China)

Abstract：Text-guidededitingofrealimageswithonlyimagesandtargettextpromptsasinputisan

extremelychallengingproblem.Previousapproachesbasedonfine-tuninglargepre-traineddiffusionmodels

oftensimplyinterpolateandcombinesourceandtargettextfeaturestoguidetheimagegenerationprocess，