郭一璞 發(fā)自 凹非寺 量子位 報(bào)道 | 公眾號(hào) QbitAI 人工智能技術(shù),現(xiàn)在可以實(shí)現(xiàn)自動(dòng)剪視頻了。 只要有一篇現(xiàn)成的圖文鏈接,AI就可以根據(jù)圖文描述的主題,重新組織語言,自動(dòng)搜尋素材,剪出一條短視頻。 換句話說,如果看到有意思的新聞卻懶得讀文章,那就把你在讀的這篇文章的地址輸入給AI,文章就自動(dòng)變成了短視頻。 而且,這個(gè)過程只需要幾分鐘的時(shí)間,完全無人化自動(dòng)操作,你下樓買了杯咖啡,視頻就自動(dòng)做好了。 這個(gè)“AI做視頻”技術(shù)來自百度研究院,產(chǎn)品的名字,叫做VidPress。你看,它可以自己做一條視頻,來報(bào)道自己的出生: 看起來就像正常的電視新聞一樣。這下,視頻編輯們?cè)僖膊挥脼榱怂阉夭?、改腳本、加特效、渲染導(dǎo)出而加班熬夜了。 做視頻的AI本質(zhì)上,VidPress是做的事情是“圖文轉(zhuǎn)視頻”,把人類寫好的圖文稿件重新編輯成視頻,可以參考一下上面視頻內(nèi)容的原文: 比較之下,你會(huì)發(fā)現(xiàn)視頻和文章的文案部分都是類似的,但視頻中用到的素材卻遠(yuǎn)不止文章中這么少,增加了許多人物和場景的動(dòng)態(tài)鏡頭,而且相當(dāng)契合主題。 那一定是用語音合成做了配音部分,然后視頻編輯隨手搜了幾個(gè)視頻素材放上去了咯? 非也。整個(gè)視頻都是AI生成的,視頻編輯只需要給出一篇文章的鏈接,過幾分鐘,熱騰騰的視頻就出鍋了。 不信往下看。 只要有鏈接,視頻自動(dòng)生成用VidPress來做視頻,不需要視頻編輯有任何技術(shù)背景,會(huì)復(fù)制粘貼就行。 首先,把需要改成視頻的文章地址復(fù)制,粘貼到VidPress。 然后,選擇用哪個(gè)聲音合成,確定所需視頻的長度以及分辨率。 現(xiàn)在,視頻編輯就可以放手讓AI開始工作了。 獲得圖文內(nèi)容后,AI會(huì)借助NLP模型進(jìn)行語義理解,用主題模型聚合相關(guān)新聞和素材。 之后,需要分別完成音頻和圖像的編輯工作。 音頻方面,系統(tǒng)會(huì)用多種語言模型處理解析原文,生成解說詞,之后借助語音合成技術(shù)變成音頻。 而圖像方面,原文中的圖片肯定是不太夠的,需要再搜尋更多視頻和圖片素材。素材的來源可以是視頻編輯自己的素材庫,也可以直接實(shí)時(shí)的用百度搜索來找素材。 找到素材后,需要借助人臉識(shí)別、物體識(shí)別、OCR、視頻內(nèi)容理解等技術(shù)來解析理解視頻素材的內(nèi)容,自動(dòng)剪切選取合適的片段。 有了視頻素材和解說詞音頻文件,需要把兩者合二為一。在這個(gè)任務(wù)上,百度自研了兩代對(duì)齊算法,第一代對(duì)齊算法是基于段落的對(duì)齊,第二代則是基于錨點(diǎn)的時(shí)間軸對(duì)齊算法。 第二代對(duì)齊的算法首先需要找出解說詞里觀眾的興趣點(diǎn),然后再將搜到的素材和這些興趣點(diǎn),進(jìn)行相關(guān)度打分,綜合考慮素材的來源、相似度、圖片/視頻內(nèi)容的貼合度、內(nèi)容質(zhì)量等方面。 之后,得分高的素材就率先被翻牌子,放到視頻時(shí)間軸里興趣點(diǎn)的位置。而剩下的素材就會(huì)被填充到空隙里,最后再對(duì)整個(gè)時(shí)間軸的內(nèi)容分布進(jìn)行調(diào)整。 現(xiàn)在,AI就把視頻做好了,渲染一下,就是一個(gè)完整的視頻。 這個(gè)過程只花費(fèi)幾分鐘后。當(dāng)編輯再次切回VidPress頁面,視頻已經(jīng)自動(dòng)生成好了,還自動(dòng)配好了字幕。 之后,編輯也可以人工修改。如果覺得某一部分的文案不夠好,可以替換編輯成所需的文案重新導(dǎo)出視頻。 誠然,VidPress目前還無法完成真人視頻博主那樣專門策劃拍攝的短視頻作品,但是如果用來做新聞簡訊類視頻,那VidPress的水平已經(jīng)足夠?qū)崿F(xiàn)商業(yè)應(yīng)用了,除了沒有真人播音員,做出來視頻的樣子和以前的電視新聞節(jié)目十分類似。 但是它勝在速度太快,生成一條視頻可能只要十幾分鐘,而其中一半的時(shí)間都是AI在自動(dòng)工作,人類視頻編輯只要粘貼鏈接,設(shè)置好聲音時(shí)間分辨率就行了,再也不用苦苦守在電腦前剪視頻了。 可以說,用這種方式來工作,做視頻的時(shí)間比往各個(gè)平臺(tái)發(fā)視頻的時(shí)間都短,以前一小時(shí)的工作,可能現(xiàn)在10分鐘就能完成,再也不用加班熬夜,短視頻編輯們要笑著迎接955了。 有了這樣的剪輯效率,當(dāng)瓜來了的時(shí)候,別的編輯還在哼哧哼哧找素材剪視頻,用VidPress的編輯已經(jīng)做好了視頻,發(fā)給了吃瓜群眾,還沒等撤熱搜就可以收獲10W+,美滋滋。 目前,VidPress生成一個(gè)2分鐘左右的720p視頻, 所需時(shí)間的中位數(shù)僅為2.5分鐘。 而在百度好看視頻內(nèi)部,整個(gè)平臺(tái)每天可以生產(chǎn)500到1000條視頻,而且這些視頻所圍繞的新聞熱點(diǎn)都是系統(tǒng)自動(dòng)發(fā)現(xiàn)、自動(dòng)生成的。只要服務(wù)器在跑,即使躺在家里,平臺(tái)上就會(huì)有源源不斷的視頻出現(xiàn),并自動(dòng)分發(fā)給觀眾。 如此高的生產(chǎn)效率,簡直是短視頻領(lǐng)域的一記驚雷。 如今短視頻火得一塌糊涂,正處紅利期,無論是騰訊、頭條還是百度自己,都在爭相自研或投資短視頻平臺(tái),這類工具一旦開放,會(huì)是大大小小創(chuàng)作者、MCN們爭搶市場的巨大機(jī)遇,AI制造的短視頻,會(huì)像當(dāng)年的中國制造一樣,涌入各個(gè)視頻平臺(tái),成為新的一波流量收割機(jī)。 畢竟,圖文內(nèi)容的生產(chǎn)成本,可比視頻內(nèi)容低得多,只要寫好文章,分分鐘就會(huì)有配套的視頻出來,同一份辛勤,收獲多幾倍的流量,那么至少在目前階段,這類AI生成視頻就是觸手可得的紅利。 或許不久之后,大家就可以看視頻版的量子位了呢。 傳送門目前,VidPress平臺(tái)可以申請(qǐng)?jiān)囉?,申?qǐng)鏈接: https://ai.baidu.com/creation/external/labprojectlist 如果你對(duì)VidPress還有其他想了解的地方,可以通過這個(gè)郵箱聯(lián)系他們的工作人員: vidpress.support@baidu.com — 完 — 量子位 QbitAI · 頭條號(hào)簽約 關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài) |
|