DeepSeek又一開源模型Janus-Pro 以文生圖模型

黃金屋3399 2025-02-02

展開全文

一簡(jiǎn)介

DeepSeek R1 模型，在文字創(chuàng)作，代碼編程、數(shù)據(jù)推理等多方面都具有不俗的表現(xiàn)，但是R1模型并不支持以文生圖的功能，DeepSeek在多模態(tài)方面已早有布局，其實(shí)去年，他們就曾發(fā)過(guò)一個(gè)多模態(tài)模型就是Janus，2025年的1月27日，又發(fā)布了Janus的pro版本即 Janus-Pro。

二 Janus-Pro

2.1 以文生圖功能

Janus-Pro 為DeepSeek開源的最新的多模態(tài)模型，主要為以文生圖而設(shè)計(jì)，在同類模型測(cè)試中也表現(xiàn)優(yōu)異，見下測(cè)試對(duì)比圖。 Pro版本相對(duì)Janus有幾大改進(jìn)：

提供更好的訓(xùn)練策略；
擴(kuò)大了訓(xùn)練的數(shù)據(jù)集；
提供了1B和7B尺寸模型，1B模型甚至可以在瀏覽器中運(yùn)行；
提高了生成圖像的穩(wěn)定性和一致性，這個(gè)可以通過(guò)下面的生成圖對(duì)比看出來(lái)；

通過(guò)對(duì)比可以看出，Janus-Pro已經(jīng)躋身最優(yōu)秀的以文生圖的模型之列，同尺寸規(guī)模的模型測(cè)試中，Janus-Pro-7B的表現(xiàn)最優(yōu)；右圖，在基準(zhǔn)測(cè)試中，Janus-Pro在GenEval這個(gè)模型生成效果測(cè)試中得分最高80%，在執(zhí)行準(zhǔn)確度DPG-Bench測(cè)試中，也是得到了最高84.2%分；

Janus和Janus-Pro生成圖的對(duì)比效果如下圖，差距還是非常巨大的；

2.2 分析理解圖功能

Janus-Pro不光可以以文生圖，還可以反過(guò)來(lái)分析圖片中的信息，比如你可以上傳圖像，讓它分析圖中的物體，解釋圖中的文本，分析上下文等。

比如下圖的分析效果：

我將官網(wǎng)的測(cè)試對(duì)比圖發(fā)送給它官網(wǎng)的在線圖片分析模型，進(jìn)行分析，得到如下結(jié)果：

同一句提示詞，英文交互給出的分析結(jié)果更為詳細(xì)些：

英文交互分析結(jié)果

2.3 以文生圖功能對(duì)比

在官網(wǎng)中，以文生圖更推薦FLUX而不是Janus-Pro，Janus-Pro和FlUX的對(duì)比如下：以下是將圖片中的英文轉(zhuǎn)換成中文后的 Markdown 表格：

特性 Janus Pro Flux 主要關(guān)注點(diǎn) 多模態(tài)任務(wù)，文本-圖像交互高質(zhì)量圖像生成性能擅長(zhǎng)指令執(zhí)行，多模態(tài)任務(wù) 高質(zhì)量圖像且生成速度快訓(xùn)練成本相對(duì)較低的預(yù)算未明確說(shuō)明，可能更高圖像分辨率輸入：384 x 384 像素，輸出：最高 768 x 768 可生成高達(dá) 1024 x 1024 像素社區(qū)支持開源，在 Hugging Face 上可用擁有強(qiáng)大的社區(qū)支持和優(yōu)化

總結(jié)，F(xiàn)lux更擅長(zhǎng)高質(zhì)量的圖像快速生成，Janus Pro 是一個(gè)可以處理文本和圖像的多模態(tài)模型。它擅長(zhǎng)將數(shù)學(xué)方程式圖像轉(zhuǎn)換為 LaTeX 代碼以及根據(jù)詳細(xì)的文本提示生成圖像等任務(wù)。

我測(cè)試了下發(fā)現(xiàn)網(wǎng)頁(yè)版本，兩個(gè)生成圖像的速度都比較慢，也許是高峰期比較擁堵的原因。

2.4 本地運(yùn)行和體驗(yàn)

如果只是簡(jiǎn)單的體驗(yàn)，可以直接去https:// 網(wǎng)址來(lái)體驗(yàn)在線以文生圖和分析圖片內(nèi)容兩個(gè)功能，不過(guò)可能是因?yàn)槭褂谜咛嗟脑颍瑢?dǎo)致生成圖片的速度特別慢，所以也可以考慮下本地部署Janus-Pro-1B和Janus-Pro-7B這兩個(gè)開源版本的模型；

Janus-Pro-1B

適用于資源有限的設(shè)備，甚至移動(dòng)設(shè)備，適用個(gè)人用戶（16GB VRAM的顯卡)
生成的圖像質(zhì)量有限,可用于個(gè)人測(cè)試

Janus-Pro-7B

24GB VRAM 以及以上的顯卡（20GB以上也基本可行），比如RTX4090顯卡；
高質(zhì)量圖像生成，文字和信息識(shí)別基本準(zhǔn)確，內(nèi)容理解完整清晰，但是局部細(xì)節(jié)有所欠缺；
圖像生成速度約15秒/張；
模型支持中文理解和交互；

下載地址

7B模型：https:///deepseek-ai/Janus-Pro-7B1B模型：https:///deepseek-ai/Janus-Pro-1B

三總結(jié)

Janus-Pro作為DeekSeek開源的多模態(tài)模型，不光可以以文生圖，還具備強(qiáng)大的圖像理解能力，無(wú)論對(duì)個(gè)人AI用戶，還是對(duì)有需要的企業(yè)用戶，都提供了一種多模態(tài)模型的解決方案，期待DeepSeek后續(xù)給我們帶來(lái)更多優(yōu)秀的模型；

四 AI名詞解釋和開源語(yǔ)言模型發(fā)布平臺(tái)

4.1 AI交流中常見的術(shù)語(yǔ)

AI（人工智能）：AI即人工智能（Artificial Intelligence），是讓機(jī)器（如計(jì)算機(jī)系統(tǒng)）展現(xiàn)出智能的技術(shù) ，使機(jī)器能像人一樣學(xué)習(xí)、思考與決策。
LLM（大語(yǔ)言模型）：LLM也就是大語(yǔ)言模型（Large Language Model），它屬于人工神經(jīng)網(wǎng)絡(luò)，是一種憑借強(qiáng)大的通用語(yǔ)言生成及自然語(yǔ)言處理任務(wù)（如文本分類）能力而備受矚目的語(yǔ)言模型。
GenAI（生成式人工智能）：GenAI即生成式人工智能（Generative Artificial Intelligence），也簡(jiǎn)稱GAI 。它運(yùn)用生成式模型，能依據(jù)提示語(yǔ)生成文本、圖像、視頻等各類數(shù)據(jù)。
GPT（生成式預(yù)訓(xùn)練變換器）：GPT即Generative Pre-trained Transformer，作為大語(yǔ)言模型的一種，是廣為人知的GenAI技術(shù)，在語(yǔ)言處理方面表現(xiàn)卓越。
ChatGPT：這是OpenAI基于GPT技術(shù)開發(fā)的聊天機(jī)器人，專為對(duì)話場(chǎng)景優(yōu)化，能與人自然流暢交流，解答問(wèn)題、提供建議。
Autonomous Agent（自主型智能體）：自主型智能體可獨(dú)立開展工作，具有主動(dòng)性，不僅能主動(dòng)和人類溝通，還會(huì)給出建設(shè)性意見，以高效達(dá)成工作目標(biāo)。
chat模型：指自帶聊天功能的模型，像Qwen/Qwen2.5 - 7B - Instruct、DeepSeek - R1等，能與人進(jìn)行聊天互動(dòng)。
Embedding模型：該模型將文本、圖像等數(shù)據(jù)轉(zhuǎn)化為低維向量，便于計(jì)算機(jī)理解分析，向量關(guān)系反映數(shù)據(jù)間相似性。

關(guān)系圖

4.2 開源語(yǔ)言模型發(fā)布平臺(tái)

Hugging Face Hub：https:// 這是世界最大的開源 AI 模型發(fā)布平臺(tái)，可以看做ML的github；https://：開源的LLM服務(wù)包括模型和工具，工具提供與OpenAI兼容的API。https://www./home： 可以理解成中國(guó)版本的Hugging Face Hub

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：黃金屋3399 > 《數(shù)字AI人工智能》

舉報(bào)/認(rèn)領(lǐng)