- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
项目8以文修图:基于Grounded-SAM大模型的图像编辑
教学目标能力目标(1)掌握Grounded-SAM安装与使用。(2)了解Grounded-SAM图像编辑的3个步骤及原理。(3)掌握Gradio快速演示工具。(4)掌握基于MMDetection的模型微调。知识目标(1)掌握基于Grounded-SAM项目进行图像编辑的实际操作技能。(2)掌握Gradio快速演示工具使用。(3)掌握大模型GroundingDINO微调。
目录2基于Grounded-SAM的图像编辑1认识Grounded-SAM开源项目3GroundingDINO模型的微调
目录2基于Grounded-SAM的图像编辑1认识Grounded-SAM开源项目3GroundingDINO模型的微调
1.认识数据集任务目标1.了解Grounding-SAM项目。2.掌握GroundingDINO的安装及使用。3.掌握SAM的安装及使用。4.掌握stablediffusion的安装及使用。
1.1Grounded-SAM概述GroundingDINO:这是一个文本驱动的检测模型,能够根据文本提示检测图像中的物体。SegmentAnything:这是一个图像分割模型,可以基于文本提示进行分割,简称SAM。StableDiffusion:这是一个图像生成模型,可以用于生成新的图像内容。??Grounded-SAM开源项目全名为Grounded-Segment-Anything,由IDEA-Research团队创建。项目的核心思想是结合不同的大模型优势,构建一个强大的流程来解决复杂的问题。就本项目具体来说,该组合通过结合以下几个关键组件来实现自动检测、分割和生成任何物体:这种整合为连接各种视觉模型打开了一扇门,使得可以使用Grounded-SAM的组合流程来灵活完成广泛的视觉任务(值得一提的是,这是一个结合强大专家模型的工作流程,其中的所有部分都可以单独使用或组合使用,并且可以用任何类似但不同的模型替换)。例如,通过组合BLIP、GroundingDINO和SAM等模型用于自动标签系统,可以实现仅基于输入图像实现自动标注流程;通过组合Whisper、GroundingDINO和SAM等模型可以实现通过语音检测和分割任何物体。本项目主要利用Grounding-SAM项目中GroundingDINO、SAM和Stable-Diffusion进行组合,实现以文修图的功能任务。
1.2GroundingDINO、SAM、stablediffusion模型简介GroundingDINO是一个由IDEA-Research团队提出和发布的开集目标检测算法模型,它的独特之处在于能够识别并定位图像中由文本提示指定的任意对象,而且不受限于在训练阶段遇到的特定类别。这意味着,与传统的闭集目标检测模型(仅能识别训练期间见过的类别)不同,GroundingDINO具有更强的灵活性和泛化能力,可以被称为“DetectAnything”模型。SAM(SegmentAnythingModel)是由Meta(前Facebook)提出的一种图像分割模型,旨在实现对图像中任何内容的语义分割。SAM同样结合了深度学习和自然语言处理技术,以支持对由文本提示指定的的任何对象或场景的分割。StableDiffusion是由StabilityAI等共同开发的。它是一种基于深度学习的图像生成模型,采用扩散模型和变分自编码器的技术,旨在生成高质量、高分辨率的图像。它能够根据用户的文本描述生成详细、逼真的图像。用户可以输入任何描述,例如“一只在月光下飞翔的猫”,模型则能生成与描述相匹配的图像。
1.3Grounded-SAM的部署Grounded-SAM项目整合了多个视觉大模型的使用代码,其中就包括了GroundingDINO、SAM和stablediffusion模型。本小节主要带领读者们通过对Grounded-SAM进行部署。(1)源码下载。有三种方式获取源码(2)安装依赖包(3)预训练模型下载下载GroundingDINO模型的预训练权重”GroundingDINO_swint_ogc.pth”和SAM模型的预训练权重”sam_vit_h_4b8939.pth”,并放入根目录Grounded-Segment-Anything-main的weights目录下;然后需要下载stablediffusion模型的模型权重及配置文件,并放在根目录的runwayml/stable-diffusion-inpainting路径下;此外,因GroundingDINO用到BERT的预训练权重,也需要下载”bert-base-uncased”版本
您可能关注的文档
- 图像处理算法及其Python实践 课件 第5--9章 图像分割---图像描述 .pptx
- 图像处理算法及其Python实践 课件 第1--4章 Python 程序设计基础 ---图像分类.pptx
- 图像处理算法及其Python实践 课件全套 张晓燕第1--9章 Python 程序设计基础 ---图像描述 .pptx
- 计算机视觉技术实战 课件 项目1 卷积入门:手动搭建入门级卷积神经网络.pptx
- 计算机视觉技术实战 课件 项目2 图像分类:基于ResNet-18的时尚商品识别.pptx
- 计算机视觉技术实战 课件 项目5 目标跟踪:基于YOLOv8-track的宠物猫目标跟踪.pptx
- 计算机视觉技术实战 课件 项目6 人脸识别:基于insightface的人脸检索.pptx
- 计算机视觉技术实战 课件 项目7 风格迁移:基于NST与AnimeGAN的图像古风化.pptx
- 计算机视觉技术实战 课件 项目9 综合应用:火情识别算法研发及部署.pptx
- 社区爱老敬老活动总结.doc
最近下载
- (人教2024版)化学九年级上册 跨学科实践:基于碳中和理念设计低碳行动方案 课件.pptx
- ECAM23.420.SB ECAM23.420.SW Chinese manual德隆全自动咖啡机说明书.pdf
- 2025年春新星球版地理七年级下册课件 8.2 俄罗斯(第1课时).pptx
- 施工现场文明施工环境保护管理措施【精选文档】.pdf
- 棉花叶面肥的选择与使用.pptx
- 三级综合医院医疗质量管理与控制指标表.pdf
- 市政道路施工测量的方案.doc VIP
- 2025年新改版苏教版六年级下册科学全册精编知识点(精心编辑).pdf
- 食品配送售后服务承诺.docx VIP
- 煤矿作业规程编制指南.pdf
文档评论(0)