【原】胖·觀察｜Deepseek最新發(fā)布的多模態(tài)模型Janus-Pro究竟強(qiáng)在哪里？

昵稱8021013 2025-01-28 發(fā)布于上海

展開全文

今天是中國農(nóng)歷除夕，胖胖老師首先祝各位讀者朋友金蛇納福，新春快樂，感謝大家過去一年的支持與鼓勵(lì)，新的一年也請多多關(guān)照。

言歸正傳，今天凌晨風(fēng)頭正盛的Deepseek再次放出“王炸”——多模態(tài)模型Janus-Pro發(fā)布，并給出了開源部署方法和研究論文，一時(shí)間再次抓住了公眾眼球。那么這個(gè)Janus-Pro（中文譯名可以是“吉娜婆”，哈哈）究竟給我們帶來哪些驚喜呢？胖胖老師就借助Deepseek和豆包AI文獻(xiàn)閱讀給大家做個(gè)分析。

論文地址：
https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

多模態(tài)Janus-Pro是什么？

根據(jù)官方提供的研究論文，Janus-pro 大模型在多模態(tài)理解和生成領(lǐng)域展現(xiàn)出顯著特點(diǎn)與獨(dú)特價(jià)值，它改進(jìn)了 Janus，在訓(xùn)練策略、數(shù)據(jù)、模型規(guī)模上進(jìn)行優(yōu)化，提升了性能。

Janus-pro 大模型的特點(diǎn)架構(gòu)設(shè)計(jì)解耦優(yōu)勢：采用與 Janus 相同的架構(gòu)，解耦多模態(tài)理解和視覺生成的視覺編碼。理解任務(wù)用 SigLIP 編碼器提取圖像語義特征，生成任務(wù)通過 VQ 分詞器轉(zhuǎn)換圖像為離散 ID，經(jīng)適配器處理后輸入 LLM，這種設(shè)計(jì)有效緩解兩個(gè)任務(wù)間的沖突，提高模型在不同模態(tài)任務(wù)中的表現(xiàn)。

優(yōu)化訓(xùn)練策略：延長訓(xùn)練第一階段，在 ImageNet 數(shù)據(jù)集充分訓(xùn)練，讓模型在固定 LLM 參數(shù)時(shí)也能有效建模像素依賴。第二階段舍棄 ImageNet 數(shù)據(jù)，直接用普通文生圖數(shù)據(jù)訓(xùn)練，提高訓(xùn)練效率。還調(diào)整第三階段不同類型數(shù)據(jù)集的數(shù)據(jù)比例，提升多模態(tài)理解性能。

數(shù)據(jù)擴(kuò)展豐富：多模態(tài)理解方面，增加約 9000 萬樣本，涵蓋圖像字幕、表格、圖表和文檔理解等多種數(shù)據(jù)集。視覺生成方面，引入 7200 萬合成美學(xué)數(shù)據(jù)，使真實(shí)與合成數(shù)據(jù)比例達(dá) 1:1，提升生成圖像的穩(wěn)定性和美學(xué)質(zhì)量。

模型規(guī)模擴(kuò)大與性能提升：將模型從 15 億參數(shù)擴(kuò)展到 70 億，實(shí)驗(yàn)發(fā)現(xiàn)大模型在多模態(tài)理解和視覺生成任務(wù)中損失收斂更快，展現(xiàn)出強(qiáng)大的可擴(kuò)展性，提高了模型的整體性能。

Janus-pro 大模型的獨(dú)特價(jià)值多模態(tài)理解能力領(lǐng)先：在多個(gè)多模態(tài)理解基準(zhǔn)測試中表現(xiàn)出色，Janus-Pro-7B 在 MMBench 上得分達(dá) 79.2，超越 Janus、TokenFlow 等眾多先進(jìn)模型，能更好地處理多模態(tài)信息，理解圖像與文本結(jié)合的復(fù)雜內(nèi)容。

文本 - 圖像生成能力卓越：在 GenEval 和 DPG-Bench 等視覺生成基準(zhǔn)測試中，Janus-Pro-7B 分別取得 0.80 和 84.19 的高分，超越其他統(tǒng)一或僅用于生成的模型，具備優(yōu)秀的指令跟隨能力，能根據(jù)文本指令生成高質(zhì)量、符合語義的圖像。

推動(dòng)多模態(tài)技術(shù)發(fā)展：其優(yōu)化的訓(xùn)練策略、數(shù)據(jù)擴(kuò)展和模型擴(kuò)展方法為多模態(tài)模型的發(fā)展提供了新的思路和經(jīng)驗(yàn)，開源的代碼和模型方便研究人員進(jìn)一步探索和改進(jìn)，促進(jìn)整個(gè)多模態(tài)領(lǐng)域的技術(shù)進(jìn)步。

簡而言之，其在7B數(shù)據(jù)訓(xùn)練量下，能夠使用較低的算力就能實(shí)現(xiàn)主流商用多模態(tài)模型的使用效果，尤其是基于Deepseek底層大模型所提供的強(qiáng)大數(shù)理推理能力，使得其在數(shù)理學(xué)科的解題識別領(lǐng)域有著更好的使用體驗(yàn)，即便是個(gè)人用戶也能利用家用計(jì)算機(jī)或者筆記本實(shí)現(xiàn)自行部署個(gè)性化學(xué)習(xí)模型的可能。（盡管這個(gè)可能也并不便宜，至少7B大模型需要不低于4090的GPU算力。）

Janus-Pro的應(yīng)用場景

圖像理解與描述圖像內(nèi)容分析：能夠準(zhǔn)確理解圖像中的各種元素，如識別圖片中物體的類別、位置、屬性以及它們之間的關(guān)系。在一張包含山水風(fēng)景的圖片中，它可以識別出山脈、河流、樹木等物體，并描述出河流在山脈腳下流淌，樹木分布在河岸兩側(cè)等場景信息。

圖像描述生成：基于對圖像的深入理解，為圖像生成自然、準(zhǔn)確且詳細(xì)的文本描述。對于一幅展示城市街景的圖片，Janus-Pro 可以生成 “在繁華的城市街道上，高樓大廈林立，街道上車水馬龍，人們在人行道上匆匆行走，街邊的商店琳瑯滿目” 這樣的描述，使視障人士等群體也能通過文字感受到圖像內(nèi)容。

文本 - 圖像生成創(chuàng)意設(shè)計(jì)輔助：在廣告設(shè)計(jì)、游戲開發(fā)、影視制作等創(chuàng)意領(lǐng)域，設(shè)計(jì)師可以通過輸入文本描述，讓 Janus-Pro 生成相應(yīng)的圖像，為創(chuàng)意構(gòu)思提供靈感和視覺參考。廣告設(shè)計(jì)師想要設(shè)計(jì)一款新飲料的宣傳海報(bào)，輸入 “一杯冒著冷氣的彩色果汁，周圍有新鮮水果環(huán)繞”，模型就能生成大致符合描述的圖像，幫助設(shè)計(jì)師快速確定設(shè)計(jì)方向。

個(gè)性化圖像定制：滿足用戶個(gè)性化的圖像需求。用戶可以根據(jù)自己的喜好和想象，輸入特定的文本指令，如 “一幅以星空為背景，有一只獨(dú)角獸在飛翔的夢幻畫面”，模型生成定制化圖像，用于個(gè)人創(chuàng)作、社交媒體分享等場景。

視覺問答教育領(lǐng)域：在智能教育系統(tǒng)中，基于圖像的學(xué)習(xí)資料，學(xué)生提出關(guān)于圖像內(nèi)容的問題，Janus-Pro 能夠理解問題并結(jié)合圖像信息給出準(zhǔn)確答案。在地理課上，針對一幅世界地圖的圖像，學(xué)生提問 “澳大利亞在哪個(gè)半球”，模型可以快速給出正確回答，輔助教學(xué)和學(xué)生自主學(xué)習(xí)。

信息檢索：在圖像數(shù)據(jù)庫檢索場景中，用戶通過輸入關(guān)于圖像特征的問題進(jìn)行檢索。在一個(gè)包含大量歷史文物圖片的數(shù)據(jù)庫里，用戶詢問 “有沒有唐朝時(shí)期，帶有龍紋圖案的陶瓷器具圖片”，Janus-Pro 可理解問題并從數(shù)據(jù)庫中篩選出符合條件的圖片，提高信息檢索的效率和準(zhǔn)確性。

多模態(tài)對話系統(tǒng)智能客服：在電商、旅游等行業(yè)的客服場景中，客戶可能會(huì)發(fā)送包含圖片的咨詢信息，Janus-Pro 可以同時(shí)理解文本和圖像信息，提供更全面、準(zhǔn)確的回復(fù)?？蛻舭l(fā)送一張手機(jī)故障的圖片并描述 “手機(jī)屏幕出現(xiàn)條紋，該怎么辦”，模型能夠結(jié)合圖像和文本判斷故障原因并給出解決方案。

虛擬社交助手：在虛擬社交平臺中，作為社交助手與用戶進(jìn)行多模態(tài)交互。用戶分享一張旅行照片并表達(dá)感受，助手可以根據(jù)圖像內(nèi)容和用戶文本，進(jìn)行富有情感的回應(yīng)，如 “這張照片拍得真美！看起來你在海邊玩得很開心，那里的風(fēng)景一定很棒”，提升社交交互體驗(yàn)。