- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
DeepSeek多模态大模型Janus-Pro一键安装包,附使用教程
今天给大家介绍一个强大的开源多模态模型-?DeepSeek?的Janus系列的最新版?Janus-Pro?。它不仅能看懂图片、回答问题,还能根据文字描述生成图片。简单来说,它集成了类似GPT-4V的看图能力和StableDiffusion的画图能力。
本篇主要分享Janus的一些优缺点、使用方法、部署相关以及整合包。
?
什么是Janus?
DeepSeek开源的多模态大模型,简单点说就是一个可以理解图片内容和生成图片的模型。目前有三个版本的模型,分别是:Janus、JanusFlow、Janus-Pro。
详情可阅读:DeepSeek发布统一多模态理解与生成模型:从JanusFlow到Janus-Pro
?
Janus实测
颜色识别
这里我上传了一张不同颜色的安全帽图片,并让Janus去解释这张图。
Janus的回复
这张图片展示了四顶安全帽,分别是红色、白色、黄色和蓝色的。每顶安全帽都有一个通风口,用于通风和散热。这些安全帽通常用于建筑工地、工厂或其他需要佩戴安全装备的工作环境。图片背景为白色,使得安全帽的颜色更加显眼。
可以看到Janus能够准确的识别出安全帽的颜色和数量。
物体识别
这里我找了一张数控机床的图片,扔给Janus看它是否能理解。
Janus的回复
这是一台工业设备,具体来说是一台数控机床(CNC机床)。机床的正面有一个控制面板,上面有几个按钮和显示屏,用于操作和监控机床的运行。机床的左侧有一个可调节的托盘,用于放置工件或材料。机床的顶部有一个冷却风扇,用于保持工作区域的温度。机床的侧面和前面板上有一些显示屏和指示灯,用于显示机床的状态和操作信息。机床的正面和侧面有“VNT-600L”的标识,表明这是VNT品牌的600L型号。整体设计现代且功能性强,适合进行精密加工和制造。
这里有些问题,正确的是Janus能够识别出这事一台数控机床,包括整个设备的大体结构。但是“VNT-600L”标识这里识别错了,应该是VMC850L。
?
文本识别
这里是用官方的例子进行的测试,可以看到Janus对数学公式也能识别。
Janus的回复
这个公式是关于一个函数(A_n)的定义,它用于描述一个数(n)在某个集合(S)中的位置。具体来说,公式定义了一个函数(A_n)的值,它取决于一个数(n)在集合(S)中的位置。
具体来说,公式定义如下:
[
A_n=a_0left[1+frac{3}{4}sum_{k=1}^{n}frac{4}{9}right]^{k}
]
这个公式可以被解释为:
函数(a_0)是一个常数,它定义了函数(A_n)的初始值。
函数(A_n)的值取决于(n)在集合(S)中的位置。
在(S)中,(n)的位置由一个数(k)表示,这个数(k)的值取决于(n)在集合(S)中的位置。
这个公式可以用于计算(A_n)在集合(S)中的值,其中(S)是一个包含(n)的集合。
某些情况下,对于文本的识别并不理想,比如下图
?
文生图
Janus的另一大亮点就是文生图,但是使用下来,我感觉并不出色。生成速度不快,而且所需要显存很高。
不过...有总比没有强????
?
Janus系列不同版本的区别
Janus,第一代版本,首次提出视觉解耦的概念。模型大小:1.3B参数。
JanusFlow,第二代版本,相比上一代改进了图片生成的方法,提高图片生成的速度和质量。
Janus-Pro,最新版本,全面升级,大幅度提升了模型理解能力。模型大小:有1B和7B两个版本。
这三个版本就像是同一个产品的不断升级,每一代都有明显的改进,Janus-Pro是目前最强大的版本。
?
本地部署
python版本3.10
gitclone/deepseek-ai/Janus.git
pipinstall-e.
pythondemo/app_januspro.py
?
修改模型
Janus-Pro有1B、7B两个版本的模型,不同模型所需的显存不同,相比1B来说,7B的效果最好。
在我提供的MAC版本的整合包中,默认使用的是1B的模型。
如果你的内存够大,想要使用7B的模型,可以将demo/app_januspro.py脚本load_model方法中的
model_path=deepseek-ai/Janus-Pro-1B
修改为
model_path=deepseek-ai/Janus-Pro-7B
当然,windows小伙伴不需要担心这个问题,有1B和7B两种启动方式进行选择。
?
运行配置
WIN
Windows英伟达显卡1B需8G显存
您可能关注的文档
- 突破信息孤岛:Dify为本地化DeepSeek AI助手添加联网搜索.docx
- DeepSeek 实战:三步搞定知识图谱构建 - 单篇提取、多篇融合、主题生成.docx
- 基于DeepSeek-R1实现本地API知识库,并接入微信BOT.docx
- 面向 OpenAI O1 与 O3-mini 推理模型的提示工程.docx
- 2026年游戏行业年终计划方案.pptx
- 2026年家政行业年终总结汇报范文.pptx
- 2026年伤口护理效果评价培训课件.pptx
- 2026年眼科医疗年终分析汇报.pptx
- 2026年农产品业务总结PPT.pptx
- 九鼎话术销售必修课之实战销售话术.doc
- 主题课程整理大班上.doc
- 2026人教版小学语文三年级上册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学语文四年级下册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学二年级上册数学期末综合试卷精选3套(含答案解析).docx
- 2026人教版小学语文四年级上册期末综合试卷3套(含答案解析).docx
- 2026人教版小学二年级下册数学期末综合试卷3套(打印版含答案解析).docx
- 2026年地理信息行业年终总结汇报PPT.pptx
- 板块四第二十一单元封建时代的欧洲和亚洲 中考历史一轮复习.pptx
- 中考历史一轮复习:板块四第二十单元古代亚、非、欧文明+课件.pptx
- 第二次工业革命和近代科学文化中考历史一轮复习.pptx
最近下载
- 黔东南州2024—2025学年度第一学期期末文化水平测试九年级数学试卷.docx VIP
- 七年级数学上学期期末试卷(含解析)新人教版及答案.doc VIP
- 石油化工项目管理三查四定.pdf VIP
- T_CEAC 105-2025 TIL细胞治疗临床应用指南.pdf VIP
- 2020年电大考试《汉语基础》试题四份及答案【电大备考篇】.docx VIP
- 不同湿度、风速条件下的体感温度示意图.xls VIP
- ZJ70LC钻机使用说明书.doc VIP
- 土的不均匀系数和曲率系数自动计算表.xls VIP
- 《格林童话》课外阅读测试题【附答案】.docx VIP
- 人教版数学4年级下册全册课件(2025年3月修订).pptx
原创力文档


文档评论(0)