CN120071055B 基于多模态大模型的文本到图像生成模型评估方法及系统 (浙江大学).docxVIP

CN120071055B 基于多模态大模型的文本到图像生成模型评估方法及系统 (浙江大学).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN120071055B(45)授权公告日2025.07.04

(21)申请号202510546309.9

(22)申请日2025.04.28

(65)同一申请的已公布的文献号申请公布号CN120071055A

(43)申请公布日2025.05.30

(73)专利权人浙江大学

地址310058浙江省杭州市西湖区余杭塘

路866号

GO6V10/74(2022.01)

GO6V10/82(2022.01)

G06T7/00(2017.01)

GO6T11/00(2006.01)

(56)对比文件

CN119601182A,2025.03.11JP7594075B1,2024.12.03审查员王齐强

(72)发明人庄越挺苗嘉旭孟楚天马凡张弛杨易

(74)专利代理机构杭州求是专利事务所有限公司33200

专利代理师傅朝栋张法高

(51)Int.CI.

GO6V10/776(2022.01)权利要求书3页说明书15页附图4页

(54)发明名称

基于多模态大模型的文本到图像生成模型评估方法及系统

(57)摘要

120071055BCN本发明公开了一种基于多模态大模型的文本到图像生成模型评估方法与系统。本发明包括多层次图像信息提取与图像特征矩阵构建、分层文本提示生成与优化、生成图像批量化生成、交互式图像对比与评分、多维反馈与提示修订多个步骤,通过重复执行这些步骤流程动态调整生成策略,直至满足预设停止条件。最终,根据参考图像与最优生成图像的多维视觉评估结果,全面分析目标生成模型的性能表现。本发明的评估方法通过图像再生成任务,使生成模型能够基于参考图像的内容和风格进行精准生成,克服了现有评

120071055B

CN

利用多模态大语言模型(MLIM)对参考图像进行多层次分析,以

全局特征和关键对象信息表作为多层次分析最终输出的图像特征

矩阵信息

基于图像特征矩阵信息生成初始文本提示,并对初始文本提示进行同义扩展和语义增强,生成多样化文本提示集

利用所述多样化文本提示集驱动待评估的文本到图像生成模型进行图像生成,得到生成图像集合

通过计算生成图像集合中每张生成图像与参考图像之间的语义相

似度、视觉相似度和结构相似度,以结合三个相似度的综合评分

来评估每张生成图像的质量,并选出综合评分最高的最优生成图

像及对应的最优文本提示

利用所述多样化文本提示集驱动待评估的文本到图像生成模型进行图像生成,得到生成图像集合

通过计算生成图像集合中每张生成图像与参考图像之间的语义相

似度、视觉相似度和结构相似度,以结合三个相似度的综合评分

来评估每张生成图像的质量,并选出综合评分最高的最优生成图

像及对应的最优文本提示

S2

S3

S4

S5

CN120071055B权利要求书1/3页

2

1.一种基于多模态大模型的文本到图像生成模型评估方法,其特征在于,包括:

S1、利用多模态大语言模型对参考图像进行多层次分析,首先提取参考图像中整体宏观的全局特征,然后根据全局特征筛选出参考图像中的关键对象,对两两关键对象之间的交互关系进行识别和重要度评分从而筛选出重要交互关系,针对每个重要交互关系对应的两个关键对象生成交互关系描述,最后进一步抽取每个关键对象在参考图像中显示的细粒度特征信息构建关键对象信息表,并将所述交互关系描述合并至关键对象信息表中,以所述全局特征和所述关键对象信息表作为多层次分析最终输出的图像特征矩阵信息;

S2、基于图像特征矩阵信息生成初始文本提示,并对初始文本提示进行同义扩展和语义增强,生成多样化文本提示集;

S3、利用所述多样化文本提示集驱动待评估的文本到图像生成模型进行图像生成,得到生成图像集合;

S4、通过计算生成图像集合中每张生成图像与参考图像之间的语义相似度、视觉相似度和结构相似度,以结合三个相似度的综合评分来评估每张生成图像的质量,并选出综合评分最高的最优生成图像及对应的最优文本提示;

S5、利用多模态大语言模型分析最优生成图像与参考图像在语义、视觉和结构方面的差异,基于差异分析结果对所述最优文本提示进行反馈改进后将其作为新的初始文本提示;

您可能关注的文档

文档评论(0)

aabbcc + 关注
实名认证
文档贡献者

若下载文档格式有问题,请咨询qq1643702686索取原版

1亿VIP精品文档

相关文档