現(xiàn)在,給視頻添加字幕,又有了新玩法。 這就是Facebook、哥倫比亞大學(xué)等大學(xué)的新研究,共同開發(fā)了一個(gè)框架——Vx2Text。 這個(gè)框架可以幫助我們,從視頻、音頻等輸入內(nèi)容中提取信息,再以人類可以理解的文字,生成字幕或者回答問題等。 并且,與之前的最新技術(shù)相比,Vx2Text在三個(gè)任務(wù)中均展現(xiàn)出最佳的性能。 Vx2Text究竟是什么?一起往下看。 技術(shù)原理Vx2Text是從多模態(tài)輸入(由視頻、文本、語音或音頻組成)中提取信息,再以人類可以理解的方式,生成自然語言文本(例如:字幕、回答問題等)。 研究團(tuán)隊(duì)通過引入大型基準(zhǔn),來評估Vx2Text解釋信息和生成自然語言的能力。 這些基準(zhǔn)主要包括:用于圖像或視頻字幕、問答(QA)和視聽對話的數(shù)據(jù)集。 為了在這些基準(zhǔn)測試中表現(xiàn)出色,Vx2Text必須完成幾個(gè)目標(biāo):
并且,將這些目標(biāo)嵌入一個(gè)統(tǒng)一的、端到端的可訓(xùn)練的框架中。 整個(gè)過程可以分為三步:
△Vx2Text框架圖解 具體而言: 輸入及識別Vx2Text接收視頻、音頻和語音作為輸入。利用特定模態(tài)分類器,來識別輸入的聲音或動作等,得到相應(yīng)類別的文本信息。 嵌入通過可區(qū)分標(biāo)記化,將識別得到的不同模態(tài)的文本信息,嵌入同一語言空間中,以便執(zhí)行多模態(tài)融合,實(shí)現(xiàn)端到端的訓(xùn)練。
先前不同模態(tài)輸入信號的組合方法,大多依賴于額外的跨模態(tài)融合模塊,繁重且計(jì)算成本高。 而使用Vx2Text,無需設(shè)計(jì)專門的跨模態(tài)網(wǎng)絡(luò)模塊,這種設(shè)計(jì)不僅簡單得多,還可以帶來更好的性能。 融合采用通用的編-解碼器語言模型,即自回歸解碼器模型,來融合多模態(tài)信息,以生成文本。 不同于以前的僅編碼器模型,這一模型具有通用性,能直接適用于“不同模態(tài)生成文本”問題,無縫處理兩種類型的任務(wù),無需為每個(gè)任務(wù)設(shè)計(jì)專門的架構(gòu)。 處理生成式任務(wù),需要通過解碼生成連貫的句子; 實(shí)驗(yàn)對Vx2Text在三個(gè)任務(wù)中的有效性進(jìn)行評估:包括視頻問答、視聽場景感知對話和視頻字幕。 評估每種模態(tài)的重要性使用不同的輸入組合,評估各個(gè)模態(tài)對基于視頻的文本生成性能的影響。結(jié)果表明:
可區(qū)分標(biāo)記化的的有效性將不同的模態(tài)融合機(jī)制(包括:多模態(tài)特征嵌入、凍結(jié)標(biāo)記化、可區(qū)分標(biāo)記化),在AVSD和TVQA中的性能進(jìn)行比較,得到結(jié)論:
生成模型的優(yōu)勢對四個(gè)模型的準(zhǔn)確性進(jìn)行評估,得到結(jié)論:
與最新技術(shù)的比較Vx2Text(這里使用凍結(jié)標(biāo)記化,而非可區(qū)分標(biāo)記化)與最新技術(shù),在AVSD上進(jìn)行比較,得到結(jié)論:
Vx2Text與最新技術(shù),在TVQA上進(jìn)行比較(數(shù)字代表Top-1準(zhǔn)確性(%)),得到結(jié)論:
Vx2Text與最新技術(shù),在TVC上進(jìn)行對比,得到結(jié)論:
定性結(jié)論
△TVC驗(yàn)證集上的視頻字幕任務(wù),Vx2Text生成文本描述示例 雖然輸入內(nèi)容中包含一些文本,例如:對話歷史記錄或語音記錄,但生成的文本還包含了來自其他模態(tài)的信息。例如,上圖中模型成功地識別了動作,例如,幫助站起來等。 實(shí)驗(yàn)表明:Vx2Text能夠在多模態(tài)輸入中,為視聽場景感知對話和視頻字幕,生成逼真自然的文本。 Vx2Text可以用于為錄制的視頻或流媒體視頻添加字幕,以及服務(wù)YouTube和Vimeo等視頻共享平臺,依靠字幕以及其他信號來改善搜索結(jié)果的相關(guān)性。 作者論文一作藺旭東,目前是哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)專業(yè)的博士生,主要研究領(lǐng)域是嵌入學(xué)習(xí)、視頻分析和生成模型,本科就讀于清華大學(xué)。這項(xiàng)研究是在其擔(dān)任Facebook AI實(shí)習(xí)生時(shí)完成的。
想要了解更多細(xì)節(jié),可戳文末鏈接查看~ 參考鏈接: — 完 — 本文系網(wǎng)易新聞·網(wǎng)易號特色內(nèi)容激勵(lì)計(jì)劃簽約賬號【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載。 |
|