日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

胖·觀察|Deepseek最新發(fā)布的多模態(tài)模型Janus-Pro究竟強(qiáng)在哪里?

 昵稱8021013 2025-01-28 發(fā)布于上海

今天是中國農(nóng)歷除夕,胖胖老師首先祝各位讀者朋友金蛇納福,新春快樂,感謝大家過去一年的支持與鼓勵(lì),新的一年也請多多關(guān)照。

言歸正傳,今天凌晨風(fēng)頭正盛的Deepseek再次放出“王炸”——多模態(tài)模型Janus-Pro發(fā)布,并給出了開源部署方法和研究論文,一時(shí)間再次抓住了公眾眼球。那么這個(gè)Janus-Pro(中文譯名可以是“吉娜婆”,哈哈)究竟給我們帶來哪些驚喜呢?胖胖老師就借助Deepseek和豆包AI文獻(xiàn)閱讀給大家做個(gè)分析。

論文地址:
https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

多模態(tài)Janus-Pro是什么?

根據(jù)官方提供的研究論文,Janus-pro 大模型在多模態(tài)理解和生成領(lǐng)域展現(xiàn)出顯著特點(diǎn)與獨(dú)特價(jià)值,它改進(jìn)了 Janus,在訓(xùn)練策略、數(shù)據(jù)、模型規(guī)模上進(jìn)行優(yōu)化,提升了性能。

Janus-pro 大模型的特點(diǎn)架構(gòu)設(shè)計(jì)解耦優(yōu)勢:采用與 Janus 相同的架構(gòu),解耦多模態(tài)理解和視覺生成的視覺編碼。理解任務(wù)用 SigLIP 編碼器提取圖像語義特征,生成任務(wù)通過 VQ 分詞器轉(zhuǎn)換圖像為離散 ID,經(jīng)適配器處理后輸入 LLM,這種設(shè)計(jì)有效緩解兩個(gè)任務(wù)間的沖突,提高模型在不同模態(tài)任務(wù)中的表現(xiàn)。

優(yōu)化訓(xùn)練策略:延長訓(xùn)練第一階段,在 ImageNet 數(shù)據(jù)集充分訓(xùn)練,讓模型在固定 LLM 參數(shù)時(shí)也能有效建模像素依賴。第二階段舍棄 ImageNet 數(shù)據(jù),直接用普通文生圖數(shù)據(jù)訓(xùn)練,提高訓(xùn)練效率。還調(diào)整第三階段不同類型數(shù)據(jù)集的數(shù)據(jù)比例,提升多模態(tài)理解性能 。

數(shù)據(jù)擴(kuò)展豐富:多模態(tài)理解方面,增加約 9000 萬樣本,涵蓋圖像字幕、表格、圖表和文檔理解等多種數(shù)據(jù)集。視覺生成方面,引入 7200 萬合成美學(xué)數(shù)據(jù),使真實(shí)與合成數(shù)據(jù)比例達(dá) 1:1,提升生成圖像的穩(wěn)定性和美學(xué)質(zhì)量。

模型規(guī)模擴(kuò)大與性能提升:將模型從 15 億參數(shù)擴(kuò)展到 70 億,實(shí)驗(yàn)發(fā)現(xiàn)大模型在多模態(tài)理解和視覺生成任務(wù)中損失收斂更快,展現(xiàn)出強(qiáng)大的可擴(kuò)展性,提高了模型的整體性能。

Janus-pro 大模型的獨(dú)特價(jià)值多模態(tài)理解能力領(lǐng)先:在多個(gè)多模態(tài)理解基準(zhǔn)測試中表現(xiàn)出色,Janus-Pro-7B 在 MMBench 上得分達(dá) 79.2,超越 Janus、TokenFlow 等眾多先進(jìn)模型,能更好地處理多模態(tài)信息,理解圖像與文本結(jié)合的復(fù)雜內(nèi)容。

文本 - 圖像生成能力卓越:在 GenEval 和 DPG-Bench 等視覺生成基準(zhǔn)測試中,Janus-Pro-7B 分別取得 0.80 和 84.19 的高分,超越其他統(tǒng)一或僅用于生成的模型,具備優(yōu)秀的指令跟隨能力,能根據(jù)文本指令生成高質(zhì)量、符合語義的圖像。

推動(dòng)多模態(tài)技術(shù)發(fā)展:其優(yōu)化的訓(xùn)練策略、數(shù)據(jù)擴(kuò)展和模型擴(kuò)展方法為多模態(tài)模型的發(fā)展提供了新的思路和經(jīng)驗(yàn),開源的代碼和模型方便研究人員進(jìn)一步探索和改進(jìn),促進(jìn)整個(gè)多模態(tài)領(lǐng)域的技術(shù)進(jìn)步。

簡而言之,其在7B數(shù)據(jù)訓(xùn)練量下,能夠使用較低的算力就能實(shí)現(xiàn)主流商用多模態(tài)模型的使用效果,尤其是基于Deepseek底層大模型所提供的強(qiáng)大數(shù)理推理能力,使得其在數(shù)理學(xué)科的解題識別領(lǐng)域有著更好的使用體驗(yàn),即便是個(gè)人用戶也能利用家用計(jì)算機(jī)或者筆記本實(shí)現(xiàn)自行部署個(gè)性化學(xué)習(xí)模型的可能。(盡管這個(gè)可能也并不便宜,至少7B大模型需要不低于4090的GPU算力。)

Janus-Pro的應(yīng)用場景

圖像理解與描述圖像內(nèi)容分析:能夠準(zhǔn)確理解圖像中的各種元素,如識別圖片中物體的類別、位置、屬性以及它們之間的關(guān)系。在一張包含山水風(fēng)景的圖片中,它可以識別出山脈、河流、樹木等物體,并描述出河流在山脈腳下流淌,樹木分布在河岸兩側(cè)等場景信息。

圖像描述生成:基于對圖像的深入理解,為圖像生成自然、準(zhǔn)確且詳細(xì)的文本描述。對于一幅展示城市街景的圖片,Janus-Pro 可以生成 “在繁華的城市街道上,高樓大廈林立,街道上車水馬龍,人們在人行道上匆匆行走,街邊的商店琳瑯滿目” 這樣的描述,使視障人士等群體也能通過文字感受到圖像內(nèi)容。

文本 - 圖像生成創(chuàng)意設(shè)計(jì)輔助:在廣告設(shè)計(jì)、游戲開發(fā)、影視制作等創(chuàng)意領(lǐng)域,設(shè)計(jì)師可以通過輸入文本描述,讓 Janus-Pro 生成相應(yīng)的圖像,為創(chuàng)意構(gòu)思提供靈感和視覺參考。廣告設(shè)計(jì)師想要設(shè)計(jì)一款新飲料的宣傳海報(bào),輸入 “一杯冒著冷氣的彩色果汁,周圍有新鮮水果環(huán)繞”,模型就能生成大致符合描述的圖像,幫助設(shè)計(jì)師快速確定設(shè)計(jì)方向。

個(gè)性化圖像定制:滿足用戶個(gè)性化的圖像需求。用戶可以根據(jù)自己的喜好和想象,輸入特定的文本指令,如 “一幅以星空為背景,有一只獨(dú)角獸在飛翔的夢幻畫面”,模型生成定制化圖像,用于個(gè)人創(chuàng)作、社交媒體分享等場景。

視覺問答教育領(lǐng)域:在智能教育系統(tǒng)中,基于圖像的學(xué)習(xí)資料,學(xué)生提出關(guān)于圖像內(nèi)容的問題,Janus-Pro 能夠理解問題并結(jié)合圖像信息給出準(zhǔn)確答案。在地理課上,針對一幅世界地圖的圖像,學(xué)生提問 “澳大利亞在哪個(gè)半球”,模型可以快速給出正確回答,輔助教學(xué)和學(xué)生自主學(xué)習(xí)。

信息檢索:在圖像數(shù)據(jù)庫檢索場景中,用戶通過輸入關(guān)于圖像特征的問題進(jìn)行檢索。在一個(gè)包含大量歷史文物圖片的數(shù)據(jù)庫里,用戶詢問 “有沒有唐朝時(shí)期,帶有龍紋圖案的陶瓷器具圖片”,Janus-Pro 可理解問題并從數(shù)據(jù)庫中篩選出符合條件的圖片,提高信息檢索的效率和準(zhǔn)確性。

多模態(tài)對話系統(tǒng)智能客服:在電商、旅游等行業(yè)的客服場景中,客戶可能會(huì)發(fā)送包含圖片的咨詢信息,Janus-Pro 可以同時(shí)理解文本和圖像信息,提供更全面、準(zhǔn)確的回復(fù)??蛻舭l(fā)送一張手機(jī)故障的圖片并描述 “手機(jī)屏幕出現(xiàn)條紋,該怎么辦”,模型能夠結(jié)合圖像和文本判斷故障原因并給出解決方案。

虛擬社交助手:在虛擬社交平臺中,作為社交助手與用戶進(jìn)行多模態(tài)交互。用戶分享一張旅行照片并表達(dá)感受,助手可以根據(jù)圖像內(nèi)容和用戶文本,進(jìn)行富有情感的回應(yīng),如 “這張照片拍得真美!看起來你在海邊玩得很開心,那里的風(fēng)景一定很棒”,提升社交交互體驗(yàn)。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多