- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
Talk2Image:一个多智能体系统用于多轮次图像生成和编辑
ShichaoMa,YunheGuo,JiahaoSu,QiheHuang,ZhengyangZhou,YangWang
UniversityofScienceandTechnologyofChina
Abstract(与累积用户目标不一致)和不连贯的编辑(迭代过程
中的视觉不一致性)。
文本到图像生成任务在多种媒体应用中取得了显著进
多代理系统(MAS)通过任务分解和协作提供了
展,但大多数集中在单轮场景上,并且难以应对迭代、多
轮次的创意任务。近期基于对话的系统试图弥补这一差应对这些限制的一种有前景的替代方案(Calegarietal.
距,但其单一代理、顺序范式往往导致意图漂移和不连2021;CardosoandFerrando2021)。随着像Civitai这
本贯的编辑。为了解决这些问题,我们提出了对话到图像,样的平台上专门生成模型的日益普及,一个自然的问题
译这是一种用于多轮对话场景中交互图像生成与编辑的新出现了:我们能否利用这些资源来开发一个支持持续多
中颖多代理系统。我们的方法集成了三个关键组件:从对轮图像生成和编辑的MAS框架?将这一愿景变为现实,
话历史解析意图、任务分解及专业代理间的协作执行,以必须解决三个关键挑战:(1)准确解析用户意图并将其
1及基于多视角评估机制的反馈驱动细化。Talk2Image能转化为结构化、可执行的提示;(2)将复杂任务分解为
v够逐步与用户意图保持一致并进行连贯的图像编辑。实
6多种子任务(例如,对象添加、风格修改),并通过多代
1验表明,在迭代图像生成和编辑任务中,Talk2Image在理协作协调其执行;以及(3)通过迭代反馈来完善输
9可控性、连贯性和用户满意度方面优于现有基线。
6出,以确保语义对齐和视觉质量。
0为应对这些挑战,我们提出了一种新颖的多智能体
8.介绍系统对话生图,用于多轮交互式图像生成和编辑。该系
0
5近年来,文本到图像(T2I)生成模型取得了显著统包括三个核心组件,解决了现有框架的关键限制:(1)
2进展,特别是基于扩散的方法(Ho,Jain,andAbbeel动态意图解析模块,根据对话历史合成结构化提示,直
:
v2020;Podelletal.2023),这些方法可以从简洁的文本接缓解意图漂移;(2)模块化智能体协作机制,支持任
i提示中生成高质量和多样的图像。这推动了在艺术创务分解和专业化执行,并通过有向无环图确保跨迭代的
x
r作、图形设计、广告等领域的广泛采用。同时,像Hug-一致性和有效执行以实现连贯的编辑;以及(3)多视图
a
gingFace(Face2018)、Civitai(Civitai2022)和Ope-评估和优化循环,保持与用户意图逐步骤对齐。
nArt(OpenArt2021)这样的活跃开源社区加速了模型我们的贡献总结如下:
和工作流程的共享,拓宽了用户可选择的模型范围。•我们引入了对话到图像,这是一个专为多轮对话中
尽管取得了这些进展,大多数T2I模型仍然缺乏动的图像生成和编辑设计的首个多智能体系统。
您可能关注的文档
- 固定时间电压调节用于升压转换器通过单位安全饱和函数.pdf
- SSD 卸载对 LLM 混合专家权重有害于能源效率.pdf
- 融合顺序嵌入、图和工程特征:2025 年 RecSys 挑战赛第 4 名解决方案.pdf
- 评估兼容鱼眼的 3D 高斯散射方法在超过 180° 视场的真实图像上的效果.pdf
- 超越频率:通过空间分解的视角观察细微线索以进行细粒度视觉分类.pdf
- 你的体贴对手:与同伴代理拥抱认知冲突.pdf
- 通过概念检索增强的大型语言模型实现自动化形式化.pdf
- 基于振动的能量指标用于恢复自主机器人超声中的针具对齐.pdf
- Maestro-EVC:由参考 和显式韵律指导的可控情感语音转换.pdf
- 重提摘要 系统用于回答关于个人信息的问题.pdf
- 主题课程整理大班上.doc
- 2026人教版小学语文三年级上册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学语文四年级下册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学二年级上册数学期末综合试卷精选3套(含答案解析).docx
- 2026人教版小学语文四年级上册期末综合试卷3套(含答案解析).docx
- 2026人教版小学二年级下册数学期末综合试卷3套(打印版含答案解析).docx
- 2026年地理信息行业年终总结汇报PPT.pptx
- 板块四第二十一单元封建时代的欧洲和亚洲 中考历史一轮复习.pptx
- 中考历史一轮复习:板块四第二十单元古代亚、非、欧文明+课件.pptx
- 第二次工业革命和近代科学文化中考历史一轮复习.pptx
最近下载
- 精细化调试管理实施方案119..doc VIP
- 华南师范大学《Java语言程序设计》2022-2023学年第一学期期末试卷A卷.doc VIP
- 立式圆筒形钢制焊接储罐施工及验收规范》.pptx VIP
- 怀素草书千字文.doc精选.doc VIP
- 2025年大庆医学高等专科学校单招(语文)测试试卷.docx VIP
- 儿童小学生成长档案A4大小模板.docx VIP
- 服装店创业计划书.pdf VIP
- 年产6000吨猪肉脯加工车间设计.docx VIP
- 武汉大学 2011-2012 学年第二学期期末考试线性代数 B 试题(A) .docx VIP
- 2025年建筑工程检验批质量验收记录全套表格.docx VIP
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
原创力文档


文档评论(0)