LayerTracer: 认知对齐的分层 SVG 合成通过扩散变换器.pdfVIP

LayerTracer: 认知对齐的分层 SVG 合成通过扩散变换器.pdf

LayerTracer:认知对齐的分层SVG合成通过扩散变换器

YirenSongDanzeChenMikeZhengShou∗

ShowLab,NationalUniversityofSingapore

aniconofabottlewithalightningsymbolaniconoficedlemontea

本

译

中aemojioffemaledoctoraniconofalogisticscustomerservice

1acastleiconwithlineoutlinesInputimageAniconofadeliverytruckwithanotificationbell

0Texttolayer-wiseSVGGeneraonLayer-wiseVectorizaon

0图1.LayerTracer从文本提示或通过将图像转换为分层SVG创建认知对齐的分层SVG。

:Abstract布于/showlab/LayerTracer。

r生成与认知一致的分层SVG仍然具有挑战性，因

a1.介绍

为现有方法倾向于产生要么过于简化的单层输出，要么

是由于优化导致的形状冗余。我们提出了LayerTracer，可缩放矢量图形（SVG）在现代数字设计中被广泛

这是一个基于DiT的框架，通过从一系列设计操作的使用，通过数学方程而非像素网格来表示路径、曲线和

新数据集中学习设计师的分层SVG创作过程来弥补这几何形状等视觉元素。与光栅图像不同，SVG在任何

一差距。我们的方法分为两个阶段：首先，文本条件下尺度下都能保持独立于分辨率的清晰度，使其适用于需

的DiT生成多阶段栅格化构建蓝图以模拟人类的设计要高精度的应用程序，包括UI/UX设计和工业CAD

工作流程。其次，逐层矢量化并删除重复路径，从而系统。分层SVG进一步增强了这种灵活性，允许设计

产生干净且可编辑的SVG文件。对于图像矢量化，我者操纵各个图层以调整描边属性、空间排列和合成效

们引入了一种条件扩散机制，该机制将参考图像编码果。这种结构化的可编辑性支持当代设计实践中动态

为潜隐令牌，在保持结构完整性的同时引导分层重建。修改和协作工作流程。

广泛的实验表明，LayerTracer在生成质量和可编辑性然而，当前基于深度学习的SVG生成技术与专业

方面优于基于优化和神经网络的基础模型。代码已发要求之间仍存在显著差距。现有方法面临三个系统性挑

战：首先，大规模分层SVG数据集的稀缺迫使模型依赖

∗Correspondingauthor.于合成或过度简化的训练数据，导致输出缺乏人类设计

中固有的细微层次结构。其次，方法论上的碎片化现象构建逻辑——元素排序、图层分组和空间推理——

普遍存在于基于优化的方法[13,17,19,23,50,56,57]，来生成分层SVG框架，LayerTracer确保输出符合

它们使用光栅先验生成矢量路径，但经常产生冗余锚点专业编辑标准。

的杂乱几何形状；大型语言模型（LLMs）[29,44,54,55]•统一的DiT基础架构：我们的框架无缝集成了文本