日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

首個(gè)視頻思維鏈推理框架Video-of-Thought來(lái)了:像人一樣從感知到認(rèn)知全面推理視頻

 天承辦公室 2024-07-13 發(fā)布于江蘇
圖片
本文作者來(lái)自于新加坡國(guó)立大學(xué)、南洋理工大學(xué)以及哈工深。其中,費(fèi)豪的研究方向?yàn)槎嗄B(tài)學(xué)習(xí)、多模態(tài)大語(yǔ)言模型。吳勝瓊,新加坡國(guó)立大學(xué)博士生,主要研究方向?yàn)槎嗄B(tài)大語(yǔ)言模型。吉煒的主要研究方向?yàn)槎嗄B(tài)學(xué)習(xí),多模態(tài)內(nèi)容生成。張含望教授的研究興趣包含計(jì)算機(jī)視覺(jué)、因果推斷。張梅山教授的研究方向包括代碼智能,自然語(yǔ)言處理,多模態(tài)生成與理解。Mong-Li Lee和Wynne Hsu教授的研究方向?yàn)樯缃幻襟w分析,協(xié)同機(jī)器學(xué)習(xí)等等。
最近,新加坡國(guó)立大學(xué)聯(lián)合南洋理工大學(xué)和哈工深的研究人員共同提出了一個(gè)全新的視頻推理框架,這也是首次大模型推理社區(qū)提出的面向視頻的思維鏈框架(Video-of-Thought, VoT)。視頻思維鏈VoT讓視頻多模態(tài)大語(yǔ)言模型在復(fù)雜視頻的理解和推理性能上大幅提升。該工作已被ICML 2024錄用為Oral paper。

圖片

  • 論文鏈接: https:///pdf?id=fO31YAyNbI
  • 項(xiàng)目鏈接: http:///VoT/

從感知到認(rèn)知的飛躍

相比于理解和推理靜態(tài)的圖片,在視覺(jué)處理社區(qū),推理視頻的難度要復(fù)雜困難很多,因?yàn)橐曨l天然地存在更具挑戰(zhàn)的動(dòng)態(tài)時(shí)序特性,以及存在更多冗余的視覺(jué)內(nèi)容。過(guò)去的視頻理解研究多集中于視頻的淺層感知,如視頻動(dòng)作識(shí)別、動(dòng)態(tài)識(shí)別和視頻描述生成。然而,這些方法對(duì)復(fù)雜視頻的深入理解和推理仍存在顯著不足。相較于淺層的視頻感知,復(fù)雜視頻的推理不僅需要對(duì)視頻的時(shí)空特性有復(fù)雜的理解,還需深刻把握像素背后的內(nèi)在高階常識(shí)。為了徹底解決這一問(wèn)題,VoT應(yīng)運(yùn)而生。

對(duì)于人類(lèi)而言,理解視頻就像吃飯喝水一樣簡(jiǎn)單。那么我們?nèi)祟?lèi)是如何進(jìn)行視頻理解推理的呢?我們不妨考慮以下一個(gè)案例。以下的這段視頻展示了一個(gè)場(chǎng)景:一輛高速行駛的汽車(chē)與一輛紅色油罐卡車(chē)在公路上相撞。對(duì)應(yīng)的問(wèn)題是:“這輛紅色油罐卡車(chē)會(huì)發(fā)生什么?” 

當(dāng)人類(lèi)拿到這個(gè)題目的視頻,首先,我們會(huì)根據(jù)問(wèn)題確定感興趣的目標(biāo),即紅色油罐卡車(chē)。然后,我們會(huì)仔細(xì)觀看視頻,跟蹤目標(biāo)對(duì)象在視頻中的動(dòng)作語(yǔ)義。接著,我們會(huì)進(jìn)行一些深入和高層次的推理,可能會(huì)結(jié)合一些常識(shí)知識(shí)。最后,我們給出推理答案:“可能會(huì)著火甚至爆炸。”

圖片

 
雙重能力:感知與認(rèn)知的完美結(jié)合

從以上的人類(lèi)的認(rèn)知模式和模式汲取靈感,研究團(tuán)隊(duì)指出,要實(shí)現(xiàn)復(fù)雜視頻推理,需要具備兩個(gè)關(guān)鍵能力:像素理解的感知能力和語(yǔ)義理解的認(rèn)知能力。并且最重要的是,視頻推理可能不是一個(gè)瞬時(shí)一步到位的過(guò)程,而是一個(gè)由低級(jí)感知到高級(jí)認(rèn)知的多跳過(guò)程。

感知能力:為了實(shí)現(xiàn)精確的內(nèi)容感知,必須對(duì)視頻運(yùn)動(dòng)進(jìn)行細(xì)致的像素級(jí)理解。這個(gè)過(guò)程可能需要深入結(jié)合給定的視頻內(nèi)容,并且具備精細(xì)的內(nèi)容定位。
 

圖片



然而,大多數(shù)現(xiàn)有視頻理解方法局限于實(shí)例分析,缺乏精細(xì)的控制和準(zhǔn)確的對(duì)象級(jí)識(shí)別或跟蹤,更不用說(shuō)深入的視頻理解了。

認(rèn)知能力:深入的推理需要認(rèn)知能力,允許模型提供合理的解釋甚至因果想象。這個(gè)層次需要結(jié)合一定的世界常識(shí)知識(shí)。例如理解「從高處跳下可能導(dǎo)致骨折」,或者「與油罐車(chē)相撞可能引發(fā)爆炸」。
 

圖片



全新推理框架:視頻思維鏈的誕生

為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)提出了一個(gè)全新的推理框架——“視頻思維鏈”。該思維鏈將復(fù)雜的視頻推理問(wèn)題分解為從底層視覺(jué)感知到上層常識(shí)認(rèn)知的一系列子問(wèn)題。

與此同時(shí),為了協(xié)助實(shí)現(xiàn)上述的細(xì)粒度視頻感知能力,作者還提出利用時(shí)空?qǐng)鼍皥D(Spatial-Temporal Scene Graph, STSG)表征協(xié)助推理過(guò)程,幫助生成的細(xì)粒度感知中間結(jié)果,從而實(shí)現(xiàn)精細(xì)的時(shí)空特征理解。

圖片

 
并與視頻多模態(tài)大模型相結(jié)合,最終提出了一個(gè)全新的視頻MLLM, MotionEmpic。
 

圖片



實(shí)驗(yàn)結(jié)果表明,作者提出的全新推理框架可顯著提升模型在各類(lèi)視頻QA上的性能,超越了當(dāng)前所有傳統(tǒng)視頻MLLM以及CoT方法的表現(xiàn)。

A.視頻思維鏈VoT推理框架

VoT推理框架一共包含5個(gè)步驟:

Step-1:任務(wù)定義與目標(biāo)識(shí)別

首先,給定輸入視頻和問(wèn)題,VoT會(huì)識(shí)別問(wèn)題中涉及的所有可能目標(biāo)。這個(gè)過(guò)程確保系統(tǒng)明確了解需要分析的對(duì)象和相關(guān)任務(wù)。
 

圖片


Step-2:目標(biāo)追蹤

接下來(lái),VoT分析視頻內(nèi)容,追蹤問(wèn)題所涉及的目標(biāo)行為軌跡,輸出感知層面的時(shí)空?qǐng)鼍皥D (STSG)。生成的關(guān)于目標(biāo)軌跡STSG將為下一步行為分析的感知證據(jù)。
 

圖片


Step-3:行為分析

在這一步中,VoT通過(guò)整合STSG中的目標(biāo)跟蹤結(jié)果,進(jìn)一步提示模型考慮更多潛在相關(guān)的常識(shí)知識(shí),使模型能夠?qū)⒁曨l像素觀察與現(xiàn)實(shí)世界聯(lián)系起來(lái),實(shí)現(xiàn)對(duì)視頻的更深入理解。
 

圖片


Step-4:排名機(jī)制回答問(wèn)題

在深入理解了視頻中目標(biāo)行為之后,現(xiàn)在開(kāi)始回答原始問(wèn)題。首先,本系統(tǒng)將所有QA問(wèn)題統(tǒng)一為多項(xiàng)題,即從提供的多個(gè)候選答案中選出最終答案。進(jìn)一步,受人類(lèi)解答多選題的模式啟發(fā),本系統(tǒng)還采用了排名機(jī)制來(lái)確定最終答案。具體來(lái)說(shuō),對(duì)于每個(gè)候選答案,VoT將提示模型根據(jù)常識(shí)知識(shí)評(píng)估其可能性(從1到10),并提供相應(yīng)的理由。最終根據(jù),排名高的候選則為最終回答。
 

圖片


Step-5:答案驗(yàn)證

鑒于復(fù)雜視頻任務(wù)通常涉及復(fù)雜的問(wèn)題和答案,并且整個(gè)推理過(guò)程包含了多個(gè)環(huán)節(jié),因此核實(shí)上一步提供的答案至關(guān)重要。本系統(tǒng)的基本核驗(yàn)思路是,假設(shè)答案A是正確的,我們將從兩個(gè)方面回顧性評(píng)估答案是否與輸入問(wèn)題和視頻內(nèi)容相矛盾:

  • 感知驗(yàn)證:檢查像素定位信息是否與視頻中從感知角度呈現(xiàn)的事實(shí)一致。
  • 認(rèn)知驗(yàn)證:從認(rèn)知角度提示模型,確定答案中固有的常識(shí)性知識(shí)是否與第三步推理中推斷出的主要觀察結(jié)果相矛盾。
 

圖片



最終,確保VoT能夠輸出最正確的結(jié)果。

VoT推理框架的五個(gè)步驟,從任務(wù)定義與目標(biāo)識(shí)別,到最終的答案驗(yàn)證,全面提升了視頻理解和推理的精確性和可靠性,為復(fù)雜視頻任務(wù)提供了強(qiáng)有力的解決方案

B.實(shí)驗(yàn)驗(yàn)證

1. 主實(shí)驗(yàn)比較

作者首先在多個(gè)復(fù)雜VideoQA的數(shù)據(jù)集上進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果證明VoT在所有的測(cè)試集上獲得了持續(xù)的強(qiáng)于SoTA基線模型的表現(xiàn),甚至超越傳統(tǒng)CoT的性能。

圖片圖片


圖片


2. Zero-shot結(jié)果

接下來(lái),作者比較了不同模型在zero-shot下的性能。值得注意的是,相比較與傳統(tǒng)的CoT,VoT性能提升更大、更明顯。并且,在兩個(gè)復(fù)雜的視頻問(wèn)答任務(wù)上的增強(qiáng)效果比在相對(duì)簡(jiǎn)單的任務(wù)(例如,MSR-VTT和ActivityNet)上的增強(qiáng)更為明顯。這主要是因?yàn)楹笳叩臄?shù)據(jù)集更傾向于感知推理(例如,描述視頻中的內(nèi)容),而不是認(rèn)知推理(例如,解釋、預(yù)見(jiàn))。
 

圖片



3. 推理能力詳細(xì)分析

首先,作者進(jìn)行了人類(lèi)評(píng)估。如圖7上表所示,使用VoT推理框架的MotionEpic取得了相當(dāng)出色的結(jié)果,甚至可以與人類(lèi)表現(xiàn)相媲美。進(jìn)一步,作者總結(jié)了六種常見(jiàn)的錯(cuò)誤案例,并分析六種最常見(jiàn)錯(cuò)誤類(lèi)別的差異。如圖下部分所示,MotionEpic(使用VoT)顯著降低了VideoLLaVA(使用CoT)的錯(cuò)誤率,特別是在動(dòng)作語(yǔ)義和常識(shí)理解方面。

圖片


4. 推理過(guò)程可視化分析

最后,作者通過(guò)一個(gè)案例分析直觀地展示了VoT的優(yōu)越性。如圖8所示,視頻內(nèi)容顯示了“訓(xùn)導(dǎo)員帶著小狗跨越各類(lèi)障礙比賽”的復(fù)雜場(chǎng)景,而給定的問(wèn)題是抽象且復(fù)雜,需要結(jié)合常識(shí),而不能簡(jiǎn)單地通過(guò)視頻本身的感知直接回答。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),只有本系統(tǒng)給出了正確的答案。具體地,在內(nèi)容感知層面,VoT通過(guò)基于STSG的視頻定位確保了準(zhǔn)確且穩(wěn)健的理解,防止了幻覺(jué),即正確地解釋了動(dòng)物是一只狗,然后從常識(shí)推斷場(chǎng)景涉及訓(xùn)練者正在訓(xùn)練狗。然后,在認(rèn)知層面,它分析每個(gè)選項(xiàng)以確定最佳答案。通過(guò)進(jìn)一步驗(yàn)證,結(jié)果與視頻內(nèi)容和事實(shí)常識(shí)理解一致??傮w而言,通過(guò)問(wèn)題分解,整個(gè)推理在每個(gè)步驟上大大提高了準(zhǔn)確性,同時(shí)確保了一個(gè)可解釋的過(guò)程決策理由。

圖片


作者還提供了更多的可視化分析:

圖片

圖片

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多