- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN120071055B(45)授权公告日2025.07.04
(21)申请号202510546309.9
(22)申请日2025.04.28
(65)同一申请的已公布的文献号申请公布号CN120071055A
(43)申请公布日2025.05.30
(73)专利权人浙江大学
地址310058浙江省杭州市西湖区余杭塘
路866号
GO6V10/74(2022.01)
GO6V10/82(2022.01)
G06T7/00(2017.01)
GO6T11/00(2006.01)
(56)对比文件
CN119601182A,2025.03.11JP7594075B1,2024.12.03审查员王齐强
(72)发明人庄越挺苗嘉旭孟楚天马凡张弛杨易
(74)专利代理机构杭州求是专利事务所有限公司33200
专利代理师傅朝栋张法高
(51)Int.CI.
GO6V10/776(2022.01)权利要求书3页说明书15页附图4页
(54)发明名称
基于多模态大模型的文本到图像生成模型评估方法及系统
(57)摘要
120071055BCN本发明公开了一种基于多模态大模型的文本到图像生成模型评估方法与系统。本发明包括多层次图像信息提取与图像特征矩阵构建、分层文本提示生成与优化、生成图像批量化生成、交互式图像对比与评分、多维反馈与提示修订多个步骤,通过重复执行这些步骤流程动态调整生成策略,直至满足预设停止条件。最终,根据参考图像与最优生成图像的多维视觉评估结果,全面分析目标生成模型的性能表现。本发明的评估方法通过图像再生成任务,使生成模型能够基于参考图像的内容和风格进行精准生成,克服了现有评
120071055B
CN
利用多模态大语言模型(MLIM)对参考图像进行多层次分析,以
全局特征和关键对象信息表作为多层次分析最终输出的图像特征
矩阵信息
基于图像特征矩阵信息生成初始文本提示,并对初始文本提示进行同义扩展和语义增强,生成多样化文本提示集
利用所述多样化文本提示集驱动待评估的文本到图像生成模型进行图像生成,得到生成图像集合
通过计算生成图像集合中每张生成图像与参考图像之间的语义相
似度、视觉相似度和结构相似度,以结合三个相似度的综合评分
来评估每张生成图像的质量,并选出综合评分最高的最优生成图
像及对应的最优文本提示
利用所述多样化文本提示集驱动待评估的文本到图像生成模型进行图像生成,得到生成图像集合
通过计算生成图像集合中每张生成图像与参考图像之间的语义相
似度、视觉相似度和结构相似度,以结合三个相似度的综合评分
来评估每张生成图像的质量,并选出综合评分最高的最优生成图
像及对应的最优文本提示
S2
S3
S4
S5
CN120071055B权利要求书1/3页
2
1.一种基于多模态大模型的文本到图像生成模型评估方法,其特征在于,包括:
S1、利用多模态大语言模型对参考图像进行多层次分析,首先提取参考图像中整体宏观的全局特征,然后根据全局特征筛选出参考图像中的关键对象,对两两关键对象之间的交互关系进行识别和重要度评分从而筛选出重要交互关系,针对每个重要交互关系对应的两个关键对象生成交互关系描述,最后进一步抽取每个关键对象在参考图像中显示的细粒度特征信息构建关键对象信息表,并将所述交互关系描述合并至关键对象信息表中,以所述全局特征和所述关键对象信息表作为多层次分析最终输出的图像特征矩阵信息;
S2、基于图像特征矩阵信息生成初始文本提示,并对初始文本提示进行同义扩展和语义增强,生成多样化文本提示集;
S3、利用所述多样化文本提示集驱动待评估的文本到图像生成模型进行图像生成,得到生成图像集合;
S4、通过计算生成图像集合中每张生成图像与参考图像之间的语义相似度、视觉相似度和结构相似度,以结合三个相似度的综合评分来评估每张生成图像的质量,并选出综合评分最高的最优生成图像及对应的最优文本提示;
S5、利用多模态大语言模型分析最优生成图像与参考图像在语义、视觉和结构方面的差异,基于差异分析结果对所述最优文本提示进行反馈改进后将其作为新的初始文本提示;
您可能关注的文档
- CN115884685B 使用黄原胶来稳定水性基质中的至少一种尿石素的组合物和方法 (雀巢产品有限公司).docx
- CN115908842B 变压器局部放电数据增强与识别方法 (淮南市潘阳光伏发电有限公司).docx
- CN115909040B 一种基于自适应多特征融合模型的水声目标识别方法 (西安邮电大学).docx
- CN116068900B 面向多非完整约束移动机器人的强化学习行为控制方法 (福州大学).docx
- CN116072134B 基于dct-ddpm的音乐音频修复方法及系统 (四川大学).docx
- CN116125285B 基于单体间流量不均匀性的液流电池性能预测方法 (西安交通大学).docx
- CN116163798B 一种采空区下长壁工作面开采覆岩离层注浆方法 (安徽理工大学).docx
- CN116171156B 含嘧啶基团的三并环类化合物的盐型、晶型及其制备方法 (江苏奥赛康药业有限公司).docx
- CN116273416B 一种聚丙烯酸钠水凝胶助磨剂及其制备方法和应用 (江西广源化工有限责任公司).docx
- CN116377477B 用于大电流二氧化碳电催化产乙烯的石墨烯量子点负载CuO催化剂及其制备方法与应用 (华南理工大学).docx
最近下载
- 2025中国临床肿瘤学会(CSCO)十二指肠乳头腺癌诊疗指南.docx
- 硝酸理化性质及危险特性表.pdf VIP
- AECOPD急救护理要点.pptx VIP
- 2026年新媒体运营B站视频选题调研.pptx VIP
- 《团结互助主题班会》课件.pptx VIP
- 深度解析(2026)《GBT 19025-2023质量管理 能力管理和人员发展指南》.pptx VIP
- 基于两阶段鲁棒的多综合能源微网-共享储能电站协同优化运行策略.pdf VIP
- 2025国家开放大学电大本科《农村发展理论与实践》期末试题及答案(试.docx VIP
- 培养团结互助的精神主题班会PPT课件.pptx VIP
- 四川省资阳市2024-2025学年九年级上学期物理期末试卷(含答案).pdf VIP
原创力文档


文档评论(0)