一 簡(jiǎn)介DeepSeek R1 模型,在文字創(chuàng)作,代碼編程、數(shù)據(jù)推理等多方面都具有不俗的表現(xiàn),但是R1模型并不支持以文生圖的功能,DeepSeek在多模態(tài)方面已早有布局,其實(shí)去年,他們就曾發(fā)過(guò)一個(gè)多模態(tài)模型就是Janus,2025年的1月27日,又發(fā)布了Janus的pro版本即 Janus-Pro。 二 Janus-Pro2.1 以文生圖功能Janus-Pro 為DeepSeek開源的最新的多模態(tài)模型,主要為以文生圖而設(shè)計(jì),在同類模型測(cè)試中也表現(xiàn)優(yōu)異,見下測(cè)試對(duì)比圖。 Pro版本相對(duì)Janus有幾大改進(jìn):
![]() 通過(guò)對(duì)比可以看出,Janus-Pro已經(jīng)躋身最優(yōu)秀的以文生圖的模型之列,同尺寸規(guī)模的模型測(cè)試中,Janus-Pro-7B的表現(xiàn)最優(yōu);右圖,在基準(zhǔn)測(cè)試中,Janus-Pro在GenEval這個(gè)模型生成效果測(cè)試中得分最高80%,在執(zhí)行準(zhǔn)確度DPG-Bench測(cè)試中,也是得到了最高84.2%分; Janus和Janus-Pro生成圖的對(duì)比效果如下圖,差距還是非常巨大的; ![]() 2.2 分析理解圖功能Janus-Pro不光可以以文生圖,還可以反過(guò)來(lái)分析圖片中的信息,比如你可以上傳圖像,讓它分析圖中的物體,解釋圖中的文本,分析上下文等。 比如下圖的分析效果: ![]() 我將官網(wǎng)的測(cè)試對(duì)比圖發(fā)送給它官網(wǎng)的在線圖片分析模型,進(jìn)行分析,得到如下結(jié)果: ![]() 同一句提示詞,英文交互給出的分析結(jié)果更為詳細(xì)些: ![]() 英文交互分析結(jié)果 2.3 以文生圖功能對(duì)比在官網(wǎng)中,以文生圖更推薦FLUX而不是Janus-Pro,Janus-Pro和FlUX的對(duì)比如下: 以下是將圖片中的英文轉(zhuǎn)換成中文后的 Markdown 表格: 特性 Janus Pro Flux 主要關(guān)注點(diǎn) 多模態(tài)任務(wù),文本-圖像交互 高質(zhì)量圖像生成 性能 擅長(zhǎng)指令執(zhí)行,多模態(tài)任務(wù) 高質(zhì)量圖像且生成速度快 訓(xùn)練成本 相對(duì)較低的預(yù)算 未明確說(shuō)明,可能更高 圖像分辨率 輸入:384 x 384 像素,輸出:最高 768 x 768 可生成高達(dá) 1024 x 1024 像素 社區(qū)支持 開源,在 Hugging Face 上可用 擁有強(qiáng)大的社區(qū)支持和優(yōu)化 總結(jié),F(xiàn)lux更擅長(zhǎng)高質(zhì)量的圖像快速生成,Janus Pro 是一個(gè)可以處理文本和圖像的多模態(tài)模型。它擅長(zhǎng)將數(shù)學(xué)方程式圖像轉(zhuǎn)換為 LaTeX 代碼以及根據(jù)詳細(xì)的文本提示生成圖像等任務(wù)。 我測(cè)試了下發(fā)現(xiàn)網(wǎng)頁(yè)版本,兩個(gè)生成圖像的速度都比較慢,也許是高峰期比較擁堵的原因。 2.4 本地運(yùn)行和體驗(yàn)如果只是簡(jiǎn)單的體驗(yàn),可以直接去https:// 網(wǎng)址來(lái)體驗(yàn)在線以文生圖和分析圖片內(nèi)容兩個(gè)功能,不過(guò)可能是因?yàn)槭褂谜咛嗟脑颍瑢?dǎo)致生成圖片的速度特別慢,所以也可以考慮下本地部署Janus-Pro-1B和Janus-Pro-7B這兩個(gè)開源版本的模型; Janus-Pro-1B
Janus-Pro-7B
下載地址 7B模型:https:///deepseek-ai/Janus-Pro-7B1B模型:https:///deepseek-ai/Janus-Pro-1B 三 總結(jié)Janus-Pro作為DeekSeek開源的多模態(tài)模型,不光可以以文生圖,還具備強(qiáng)大的圖像理解能力,無(wú)論對(duì)個(gè)人AI用戶,還是對(duì)有需要的企業(yè)用戶,都提供了一種多模態(tài)模型的解決方案,期待DeepSeek后續(xù)給我們帶來(lái)更多優(yōu)秀的模型; 四 AI名詞解釋和開源語(yǔ)言模型發(fā)布平臺(tái)4.1 AI交流中常見的術(shù)語(yǔ)
![]() 關(guān)系圖 4.2 開源語(yǔ)言模型發(fā)布平臺(tái)
|
|
來(lái)自: 黃金屋3399 > 《數(shù)字AI人工智能》