DeepSeek 多模态大模型 Janus-Pro 一键安装包，附使用教程.docxVIP

下载本文档

0
0
约2.55千字
约 8页
2026-01-09 发布于四川
举报
版权申诉

DeepSeek 多模态大模型 Janus-Pro 一键安装包，附使用教程.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DeepSeek多模态大模型Janus-Pro一键安装包，附使用教程

今天给大家介绍一个强大的开源多模态模型-?DeepSeek?的Janus系列的最新版?Janus-Pro?。它不仅能看懂图片、回答问题，还能根据文字描述生成图片。简单来说，它集成了类似GPT-4V的看图能力和StableDiffusion的画图能力。

本篇主要分享Janus的一些优缺点、使用方法、部署相关以及整合包。

什么是Janus？

DeepSeek开源的多模态大模型，简单点说就是一个可以理解图片内容和生成图片的模型。目前有三个版本的模型，分别是：Janus、JanusFlow、Janus-Pro。

详情可阅读：DeepSeek发布统一多模态理解与生成模型：从JanusFlow到Janus-Pro

Janus实测

颜色识别

这里我上传了一张不同颜色的安全帽图片，并让Janus去解释这张图。

Janus的回复

这张图片展示了四顶安全帽，分别是红色、白色、黄色和蓝色的。每顶安全帽都有一个通风口，用于通风和散热。这些安全帽通常用于建筑工地、工厂或其他需要佩戴安全装备的工作环境。图片背景为白色，使得安全帽的颜色更加显眼。

可以看到Janus能够准确的识别出安全帽的颜色和数量。

物体识别

这里我找了一张数控机床的图片，扔给Janus看它是否能理解。

Janus的回复

这是一台工业设备，具体来说是一台数控机床（CNC机床）。机床的正面有一个控制面板，上面有几个按钮和显示屏，用于操作和监控机床的运行。机床的左侧有一个可调节的托盘，用于放置工件或材料。机床的顶部有一个冷却风扇，用于保持工作区域的温度。机床的侧面和前面板上有一些显示屏和指示灯，用于显示机床的状态和操作信息。机床的正面和侧面有“VNT-600L”的标识，表明这是VNT品牌的600L型号。整体设计现代且功能性强，适合进行精密加工和制造。

这里有些问题，正确的是Janus能够识别出这事一台数控机床，包括整个设备的大体结构。但是“VNT-600L”标识这里识别错了，应该是VMC850L。

文本识别

这里是用官方的例子进行的测试，可以看到Janus对数学公式也能识别。

Janus的回复

这个公式是关于一个函数(A_n)的定义，它用于描述一个数(n)在某个集合(S)中的位置。具体来说，公式定义了一个函数(A_n)的值，它取决于一个数(n)在集合(S)中的位置。

具体来说，公式定义如下：

[

A_n=a_0left[1+frac{3}{4}sum_{k=1}^{n}frac{4}{9}right]^{k}

]

这个公式可以被解释为：

函数(a_0)是一个常数，它定义了函数(A_n)的初始值。

函数(A_n)的值取决于(n)在集合(S)中的位置。

在(S)中，(n)的位置由一个数(k)表示，这个数(k)的值取决于(n)在集合(S)中的位置。

这个公式可以用于计算(A_n)在集合(S)中的值，其中(S)是一个包含(n)的集合。

某些情况下，对于文本的识别并不理想，比如下图

文生图

Janus的另一大亮点就是文生图，但是使用下来，我感觉并不出色。生成速度不快，而且所需要显存很高。

不过...有总比没有强????

Janus系列不同版本的区别

Janus，第一代版本，首次提出视觉解耦的概念。模型大小：1.3B参数。

JanusFlow，第二代版本，相比上一代改进了图片生成的方法，提高图片生成的速度和质量。

Janus-Pro，最新版本，全面升级，大幅度提升了模型理解能力。模型大小：有1B和7B两个版本。

这三个版本就像是同一个产品的不断升级，每一代都有明显的改进，Janus-Pro是目前最强大的版本。

本地部署

python版本3.10

gitclone/deepseek-ai/Janus.git

pipinstall-e.

pythondemo/app_januspro.py

修改模型

Janus-Pro有1B、7B两个版本的模型，不同模型所需的显存不同，相比1B来说，7B的效果最好。

在我提供的MAC版本的整合包中，默认使用的是1B的模型。

如果你的内存够大，想要使用7B的模型，可以将demo/app_januspro.py脚本load_model方法中的

model_path=deepseek-ai/Janus-Pro-1B

修改为

model_path=deepseek-ai/Janus-Pro-7B

当然，windows小伙伴不需要担心这个问题，有1B和7B两种启动方式进行选择。

运行配置

WIN

Windows英伟达显卡1B需8G显存

您可能关注的文档

文档评论（0）

AI优质资料创作家 + 关注: 实名认证

文档贡献者

工业和信息化人才能力认证持证人

从事10年计算机专业，目前是AI算法工程师，致力于将自己的知识和想法整理出来帮助到有需要的朋友。

咨询Ta 进入空间

领域认证该用户于2024年06月20日上传了工业和信息化人才能力认证

1亿VIP精品文档

更多 >

DeepSeek 多模态大模型 Janus-Pro 一键安装包，附使用教程.docxVIP