日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

DeepSeek又一開源模型Janus-Pro 以文生圖模型

 黃金屋3399 2025-02-02

一 簡(jiǎn)介

DeepSeek R1 模型,在文字創(chuàng)作,代碼編程、數(shù)據(jù)推理等多方面都具有不俗的表現(xiàn),但是R1模型并不支持以文生圖的功能,DeepSeek在多模態(tài)方面已早有布局,其實(shí)去年,他們就曾發(fā)過(guò)一個(gè)多模態(tài)模型就是Janus,2025年的1月27日,又發(fā)布了Janus的pro版本即 Janus-Pro。

二 Janus-Pro

2.1 以文生圖功能

Janus-Pro 為DeepSeek開源的最新的多模態(tài)模型,主要為以文生圖而設(shè)計(jì),在同類模型測(cè)試中也表現(xiàn)優(yōu)異,見下測(cè)試對(duì)比圖。 Pro版本相對(duì)Janus有幾大改進(jìn):

  1. 提供更好的訓(xùn)練策略;
  2. 擴(kuò)大了訓(xùn)練的數(shù)據(jù)集;
  3. 提供了1B和7B尺寸模型,1B模型甚至可以在瀏覽器中運(yùn)行;
  4. 提高了生成圖像的穩(wěn)定性和一致性,這個(gè)可以通過(guò)下面的生成圖對(duì)比看出來(lái);
DeepSeek又一開源模型Janus-Pro 以文生圖模型

通過(guò)對(duì)比可以看出,Janus-Pro已經(jīng)躋身最優(yōu)秀的以文生圖的模型之列,同尺寸規(guī)模的模型測(cè)試中,Janus-Pro-7B的表現(xiàn)最優(yōu);右圖,在基準(zhǔn)測(cè)試中,Janus-Pro在GenEval這個(gè)模型生成效果測(cè)試中得分最高80%,在執(zhí)行準(zhǔn)確度DPG-Bench測(cè)試中,也是得到了最高84.2%分;

Janus和Janus-Pro生成圖的對(duì)比效果如下圖,差距還是非常巨大的;

DeepSeek又一開源模型Janus-Pro 以文生圖模型

2.2 分析理解圖功能

Janus-Pro不光可以以文生圖,還可以反過(guò)來(lái)分析圖片中的信息,比如你可以上傳圖像,讓它分析圖中的物體,解釋圖中的文本,分析上下文等。

比如下圖的分析效果:

DeepSeek又一開源模型Janus-Pro 以文生圖模型

我將官網(wǎng)的測(cè)試對(duì)比圖發(fā)送給它官網(wǎng)的在線圖片分析模型,進(jìn)行分析,得到如下結(jié)果:

DeepSeek又一開源模型Janus-Pro 以文生圖模型

同一句提示詞,英文交互給出的分析結(jié)果更為詳細(xì)些:

DeepSeek又一開源模型Janus-Pro 以文生圖模型

英文交互分析結(jié)果

2.3 以文生圖功能對(duì)比

在官網(wǎng)中,以文生圖更推薦FLUX而不是Janus-Pro,Janus-Pro和FlUX的對(duì)比如下: 以下是將圖片中的英文轉(zhuǎn)換成中文后的 Markdown 表格:

特性 Janus Pro Flux 主要關(guān)注點(diǎn) 多模態(tài)任務(wù),文本-圖像交互 高質(zhì)量圖像生成 性能 擅長(zhǎng)指令執(zhí)行,多模態(tài)任務(wù) 高質(zhì)量圖像且生成速度快 訓(xùn)練成本 相對(duì)較低的預(yù)算 未明確說(shuō)明,可能更高 圖像分辨率 輸入:384 x 384 像素,輸出:最高 768 x 768 可生成高達(dá) 1024 x 1024 像素 社區(qū)支持 開源,在 Hugging Face 上可用 擁有強(qiáng)大的社區(qū)支持和優(yōu)化

總結(jié),F(xiàn)lux更擅長(zhǎng)高質(zhì)量的圖像快速生成,Janus Pro 是一個(gè)可以處理文本和圖像的多模態(tài)模型。它擅長(zhǎng)將數(shù)學(xué)方程式圖像轉(zhuǎn)換為 LaTeX 代碼以及根據(jù)詳細(xì)的文本提示生成圖像等任務(wù)。

我測(cè)試了下發(fā)現(xiàn)網(wǎng)頁(yè)版本,兩個(gè)生成圖像的速度都比較慢,也許是高峰期比較擁堵的原因。

2.4 本地運(yùn)行和體驗(yàn)

如果只是簡(jiǎn)單的體驗(yàn),可以直接去https:// 網(wǎng)址來(lái)體驗(yàn)在線以文生圖和分析圖片內(nèi)容兩個(gè)功能,不過(guò)可能是因?yàn)槭褂谜咛嗟脑颍瑢?dǎo)致生成圖片的速度特別慢,所以也可以考慮下本地部署Janus-Pro-1B和Janus-Pro-7B這兩個(gè)開源版本的模型;

Janus-Pro-1B

  1. 適用于資源有限的設(shè)備,甚至移動(dòng)設(shè)備,適用個(gè)人用戶(16GB VRAM的顯卡)
  2. 生成的圖像質(zhì)量有限,可用于個(gè)人測(cè)試

Janus-Pro-7B

  1. 24GB VRAM 以及以上的顯卡(20GB以上也基本可行),比如RTX4090顯卡;
  2. 高質(zhì)量圖像生成,文字和信息識(shí)別基本準(zhǔn)確,內(nèi)容理解完整清晰,但是局部細(xì)節(jié)有所欠缺;
  3. 圖像生成速度約15秒/張;
  4. 模型支持中文理解和交互;

下載地址

7B模型:https:///deepseek-ai/Janus-Pro-7B1B模型:https:///deepseek-ai/Janus-Pro-1B

三 總結(jié)

Janus-Pro作為DeekSeek開源的多模態(tài)模型,不光可以以文生圖,還具備強(qiáng)大的圖像理解能力,無(wú)論對(duì)個(gè)人AI用戶,還是對(duì)有需要的企業(yè)用戶,都提供了一種多模態(tài)模型的解決方案,期待DeepSeek后續(xù)給我們帶來(lái)更多優(yōu)秀的模型;

四 AI名詞解釋和開源語(yǔ)言模型發(fā)布平臺(tái)

4.1 AI交流中常見的術(shù)語(yǔ)

  • AI(人工智能):AI即人工智能(Artificial Intelligence),是讓機(jī)器(如計(jì)算機(jī)系統(tǒng))展現(xiàn)出智能的技術(shù) ,使機(jī)器能像人一樣學(xué)習(xí)、思考與決策。
  • LLM(大語(yǔ)言模型):LLM也就是大語(yǔ)言模型(Large Language Model),它屬于人工神經(jīng)網(wǎng)絡(luò),是一種憑借強(qiáng)大的通用語(yǔ)言生成及自然語(yǔ)言處理任務(wù)(如文本分類)能力而備受矚目的語(yǔ)言模型。
  • GenAI(生成式人工智能):GenAI即生成式人工智能(Generative Artificial Intelligence),也簡(jiǎn)稱GAI 。它運(yùn)用生成式模型,能依據(jù)提示語(yǔ)生成文本、圖像、視頻等各類數(shù)據(jù)。
  • GPT(生成式預(yù)訓(xùn)練變換器):GPT即Generative Pre-trained Transformer,作為大語(yǔ)言模型的一種,是廣為人知的GenAI技術(shù),在語(yǔ)言處理方面表現(xiàn)卓越。
  • ChatGPT:這是OpenAI基于GPT技術(shù)開發(fā)的聊天機(jī)器人,專為對(duì)話場(chǎng)景優(yōu)化,能與人自然流暢交流,解答問(wèn)題、提供建議。
  • Autonomous Agent(自主型智能體):自主型智能體可獨(dú)立開展工作,具有主動(dòng)性,不僅能主動(dòng)和人類溝通,還會(huì)給出建設(shè)性意見,以高效達(dá)成工作目標(biāo)。
  • chat模型:指自帶聊天功能的模型,像Qwen/Qwen2.5 - 7B - Instruct、DeepSeek - R1等,能與人進(jìn)行聊天互動(dòng)。
  • Embedding模型:該模型將文本、圖像等數(shù)據(jù)轉(zhuǎn)化為低維向量,便于計(jì)算機(jī)理解分析,向量關(guān)系反映數(shù)據(jù)間相似性。
DeepSeek又一開源模型Janus-Pro 以文生圖模型

關(guān)系圖

4.2 開源語(yǔ)言模型發(fā)布平臺(tái)

Hugging Face Hub:https:// 這是世界最大的開源 AI 模型發(fā)布平臺(tái),可以看做ML的github;https://:開源的LLM服務(wù)包括模型和工具,工具提供與OpenAI兼容的API。https://www./home: 可以理解成中國(guó)版本的Hugging Face Hub

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多