DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程.docxVIP

DeepSeek 多模态大模型 Janus-Pro 一键安装包,附使用教程.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

DeepSeek多模态大模型Janus-Pro一键安装包,附使用教程

今天给大家介绍一个强大的开源多模态模型-?DeepSeek?的Janus系列的最新版?Janus-Pro?。它不仅能看懂图片、回答问题,还能根据文字描述生成图片。简单来说,它集成了类似GPT-4V的看图能力和StableDiffusion的画图能力。

本篇主要分享Janus的一些优缺点、使用方法、部署相关以及整合包。

?

什么是Janus?

DeepSeek开源的多模态大模型,简单点说就是一个可以理解图片内容和生成图片的模型。目前有三个版本的模型,分别是:Janus、JanusFlow、Janus-Pro。

详情可阅读:DeepSeek发布统一多模态理解与生成模型:从JanusFlow到Janus-Pro

?

Janus实测

颜色识别

这里我上传了一张不同颜色的安全帽图片,并让Janus去解释这张图。

Janus的回复

这张图片展示了四顶安全帽,分别是红色、白色、黄色和蓝色的。每顶安全帽都有一个通风口,用于通风和散热。这些安全帽通常用于建筑工地、工厂或其他需要佩戴安全装备的工作环境。图片背景为白色,使得安全帽的颜色更加显眼。

可以看到Janus能够准确的识别出安全帽的颜色和数量。

物体识别

这里我找了一张数控机床的图片,扔给Janus看它是否能理解。

Janus的回复

这是一台工业设备,具体来说是一台数控机床(CNC机床)。机床的正面有一个控制面板,上面有几个按钮和显示屏,用于操作和监控机床的运行。机床的左侧有一个可调节的托盘,用于放置工件或材料。机床的顶部有一个冷却风扇,用于保持工作区域的温度。机床的侧面和前面板上有一些显示屏和指示灯,用于显示机床的状态和操作信息。机床的正面和侧面有“VNT-600L”的标识,表明这是VNT品牌的600L型号。整体设计现代且功能性强,适合进行精密加工和制造。

这里有些问题,正确的是Janus能够识别出这事一台数控机床,包括整个设备的大体结构。但是“VNT-600L”标识这里识别错了,应该是VMC850L。

?

文本识别

这里是用官方的例子进行的测试,可以看到Janus对数学公式也能识别。

Janus的回复

这个公式是关于一个函数(A_n)的定义,它用于描述一个数(n)在某个集合(S)中的位置。具体来说,公式定义了一个函数(A_n)的值,它取决于一个数(n)在集合(S)中的位置。

具体来说,公式定义如下:

[

A_n=a_0left[1+frac{3}{4}sum_{k=1}^{n}frac{4}{9}right]^{k}

]

这个公式可以被解释为:

函数(a_0)是一个常数,它定义了函数(A_n)的初始值。

函数(A_n)的值取决于(n)在集合(S)中的位置。

在(S)中,(n)的位置由一个数(k)表示,这个数(k)的值取决于(n)在集合(S)中的位置。

这个公式可以用于计算(A_n)在集合(S)中的值,其中(S)是一个包含(n)的集合。

某些情况下,对于文本的识别并不理想,比如下图

?

文生图

Janus的另一大亮点就是文生图,但是使用下来,我感觉并不出色。生成速度不快,而且所需要显存很高。

不过...有总比没有强????

?

Janus系列不同版本的区别

Janus,第一代版本,首次提出视觉解耦的概念。模型大小:1.3B参数。

JanusFlow,第二代版本,相比上一代改进了图片生成的方法,提高图片生成的速度和质量。

Janus-Pro,最新版本,全面升级,大幅度提升了模型理解能力。模型大小:有1B和7B两个版本。

这三个版本就像是同一个产品的不断升级,每一代都有明显的改进,Janus-Pro是目前最强大的版本。

?

本地部署

python版本3.10

gitclone/deepseek-ai/Janus.git

pipinstall-e.

pythondemo/app_januspro.py

?

修改模型

Janus-Pro有1B、7B两个版本的模型,不同模型所需的显存不同,相比1B来说,7B的效果最好。

在我提供的MAC版本的整合包中,默认使用的是1B的模型。

如果你的内存够大,想要使用7B的模型,可以将demo/app_januspro.py脚本load_model方法中的

model_path=deepseek-ai/Janus-Pro-1B

修改为

model_path=deepseek-ai/Janus-Pro-7B

当然,windows小伙伴不需要担心这个问题,有1B和7B两种启动方式进行选择。

?

运行配置

WIN

Windows英伟达显卡1B需8G显存

文档评论(0)

AI优质资料创作家 + 关注
实名认证
文档贡献者

工业和信息化人才能力认证持证人

从事10年计算机专业,目前是AI算法工程师,致力于将自己的知识和想法整理出来帮助到有需要的朋友。

领域认证该用户于2024年06月20日上传了工业和信息化人才能力认证

1亿VIP精品文档

相关文档