阿里通義萬相AI生視頻震撼上線！更懂中國風(fēng)的大模型來了

天承辦公室 2024-09-20 發(fā)布于北京

展開全文

新智元報(bào)道

編輯：編輯部

【新智元導(dǎo)讀】阿里放大招了，就在剛剛，通義萬相AI視頻功能正式開放。5秒的視頻，在手機(jī)端APP不限次數(shù)免費(fèi)用！連今晚音樂節(jié)的MV都是AI直出。試用后我們驚喜地發(fā)現(xiàn)，更懂中國風(fēng)的AI視頻，它真的來了。

AI視頻國內(nèi)戰(zhàn)場，阿里也下場了。

剛剛，通義萬相AI生視頻功能上線！

今天下午的阿里云棲大會上，CTO周靖人宣布，官網(wǎng)和App上都可以立刻試用了。

比起國外爆火的Sora、Gen-3 Alpha，通義萬相是更能聽懂中國話，更懂中國風(fēng)的AI視頻模型。

以下視頻來源于

通義

今晚飛天音樂節(jié)上的視頻「江雪」，就是由通義萬相生成的

它能夠支持最長5秒視頻生成，每秒30幀，分辨率為720P。更驚艷的是，它還能生成與畫面匹配的音效。

這背后得到了阿里全自研的視覺大模型加持，并采用了業(yè)界領(lǐng)先的核心架構(gòu)——Diffusion+Transformer。

劃重點(diǎn)：手機(jī)端App不限次數(shù)，完全免費(fèi)用！PC端，每天登陸送50個(gè)靈感值，可生成10次。

要知道，畫餅的Sora還不能用，上線的Gen-3 Alpha等都得充值，還有一些仍然處于內(nèi)測當(dāng)中。

相比之下，通義萬相是免費(fèi)的，次數(shù)無限用，還不是期貨，不需要排隊(duì)！

更懂中國風(fēng)、中國話

既然已經(jīng)上線，我們就迫不及待地展開試用了。

在通義萬相頁面上輸入提示「黑發(fā)古風(fēng)女孩，快速轉(zhuǎn)身微笑，國風(fēng)發(fā)髻，純色高清」，一條5s的視頻就火熱出爐了。

人物還原，眼神靈動(dòng)，甚至還配有古香古色的背景音。

無論是緩緩抬起的眼神，還是頭發(fā)在空中飄動(dòng)的樣子，都美得攝人心魄。

轉(zhuǎn)向鏡頭的瞬間，就被她的樣貌驚呆了。

就連中國傳統(tǒng)的建筑風(fēng)格——樓閣式塔，它也能很好地還原出來。

在白雪皚皚的山間，一座雄偉的中國古典建筑巍然屹立，精致的木雕，仿佛置入仙境一般。

再來看看，通義萬相生成的古風(fēng)男子，非常優(yōu)秀地描繪了溫文爾雅的氣質(zhì)。

古風(fēng)裝扮的男子身著月牙白錦袍，站立在雅致的古典園林中，他的一舉一動(dòng)都透露出溫文爾雅的氣質(zhì)。鏡頭從他的側(cè)臉緩緩?fù)平?，展現(xiàn)出他眸光溫柔，仿佛能洞察人心，給人以溫暖和安慰。周圍的景致與他的裝束相得益彰，共同構(gòu)建了一幅如詩如畫的古典美男圖卷。

從某種意義上講，通義萬相是AI視頻模型中，更懂國風(fēng)的那個(gè)。

文生視頻

在多次試用通義萬相的文生視頻能力后，不得不感慨：這款A(yù)I產(chǎn)品，實(shí)在是太有想象力了！而且，每一個(gè)視頻，AI都會自動(dòng)配上BGM。

通過提示詞，我們就可以用文字控制畫面內(nèi)容和變化的過程。

晨霧，日出，鏡頭光暈，清冷風(fēng)，一個(gè)五官精致的年輕中國女子，長長的頭發(fā)被風(fēng)吹亂，頭發(fā)絲飄，散在臉上，穿著夏裝，背景海邊沙灘

蛛網(wǎng)上掛著透明的水滴，形成了美麗的光斑和折射，通義萬相在這個(gè)視頻中，體現(xiàn)出了對物理光學(xué)規(guī)律的規(guī)律，畫面的美感也很動(dòng)人。

更多無厘頭想象的畫面，現(xiàn)在都可以變成現(xiàn)實(shí)了。無論是在南極大陸上工作的企鵝郵差，還是在米山中間行駛的玉米列車。

而切實(shí)地使用過之后，通義萬相對概念組合的語義理解、畫面的視覺動(dòng)態(tài)、風(fēng)格泛化能力、國風(fēng)理元素的呈現(xiàn)，無不給人留下了深刻印象。

聽話，想象蝶變現(xiàn)實(shí)

可以看出，通義萬相的指令遵循能力，著實(shí)令人深刻。

一句話總結(jié)——它就是「最聽話」的AI生視頻模型。

無論是畫面內(nèi)容、空間構(gòu)圖、運(yùn)動(dòng)過程、運(yùn)鏡方式，它均有良好的支持。

而這個(gè)模型還是原生支持中文的長文本提示詞，因此相比起國外的模型，更能理解中文的復(fù)雜語義理解和概念組合生成能力，能將文字創(chuàng)意精準(zhǔn)呈現(xiàn)。

何為一個(gè)視頻模型的想象力？

如果用公式拆解的話，可以理解為：模型的「想象力」=復(fù)雜語義理解+概念組合生成。

無論提示詞中的元素多么復(fù)雜，通義萬相都能準(zhǔn)確呈現(xiàn)。

而涉及到多個(gè)不同元素時(shí)，它也能準(zhǔn)確、有機(jī)地結(jié)合在一起，表現(xiàn)出超強(qiáng)的概念組合能力。

任何不可思議的畫面，比如「貓變成少年」、「月球上建基地，遭遇洪水」，我們都可以充分放飛自己的想象力，要什么就有什么。

比如下面這只小兔子，穿著溜冰鞋在冰面上靈巧地滑行。

兔子生日宴上，小伙伴們一起為她慶生。

兩位正在月球上搭建基地的宇航員，背后是浩瀚無垠的太空。

要說最驚艷的，便是下面這只黑貓幻化成冷峻少年的視頻，一眼動(dòng)漫成真。

運(yùn)動(dòng)，重現(xiàn)物理世界

在所有AI視頻中，對運(yùn)動(dòng)的體現(xiàn)無疑都是最考驗(yàn)?zāi)Ｐ凸αΦ囊坏李}。

而通義萬相，恰恰有著強(qiáng)大的運(yùn)動(dòng)生成能力。

它不僅支持復(fù)雜與大幅度的運(yùn)動(dòng)生成，還能非常寫實(shí)地還原真實(shí)世界的物理規(guī)律。

比如在這個(gè)視頻中，獵豹在狹窄的峽谷中奔跑，眼睛緊盯著前方的獵物。

獵豹四肢的動(dòng)作、起伏的背脊、尾巴的甩動(dòng)方向，都很符合自然規(guī)律。峽谷場景的一步步推進(jìn)也很自然。

而這個(gè)滑雪愛好者從雪山上快速下滑的視頻，無論是滑雪者四肢的動(dòng)作、變換的重心，還是飛揚(yáng)的雪粒、光影的變換，都十分自然，破綻極少。

風(fēng)格泛化

通義萬相的風(fēng)格泛化能力極強(qiáng)，可以根據(jù)風(fēng)格提示詞生成響應(yīng)的視頻畫面，帶來影視級的畫面質(zhì)感和細(xì)節(jié)表現(xiàn)。

比如這段3D動(dòng)畫風(fēng)格視頻中，帥氣的俠客兔子在森林中身披斗篷前進(jìn)，質(zhì)感細(xì)膩，達(dá)到了大片畫質(zhì)。

而這段勾線動(dòng)畫的視頻，將法庭上穿著筆挺律師袍的狐貍律師呈現(xiàn)得活靈活現(xiàn)。

國漫3D風(fēng)格的視頻中，古裝少女端坐在燭光中，夜色氤氳，巧笑倩兮。

下面這個(gè)視頻是CG厚涂風(fēng)格，描繪了女機(jī)械師在未來實(shí)驗(yàn)室中調(diào)試設(shè)備的場景。

音頻生成

此外就如上文所言，通義萬相還會同時(shí)生成聲音特效，后者是和視覺內(nèi)容高度匹配的，這樣就實(shí)現(xiàn)了音畫同步，增強(qiáng)了視聽一體的沉浸感。

上傳一張?jiān)诮值郎峡杖我獯┧蟮娘w碟的圖片。

生成的視頻中，還為飛碟配上了非常賽博的背景音，而且由近及遠(yuǎn)，給人一種真實(shí)的感覺。

這里，再用「一雙似喜非喜含情目，態(tài)生兩靨之愁，嬌襲一身之病」復(fù)刻一下林黛玉多愁善感的神情。

視頻中的女子很好還原了氣郁體質(zhì)，再加上配樂，又多了一分傷感。

靈感擴(kuò)寫

要說通義萬相的獨(dú)特賣點(diǎn)，就是它的靈感擴(kuò)寫能力了。

在文生視頻界面上點(diǎn)擊「靈感擴(kuò)寫」，就能把簡單的提示詞擴(kuò)寫成忠于愿意的長提示詞，從而大幅提升了生成效果。

比如使用這個(gè)prompt「白色狼群在冰川峽谷中穿行，夜晚月圓」，生成的視頻是這樣的。

仔細(xì)聽，配音也頗有亮點(diǎn)：悠遠(yuǎn)、神秘，甚至帶著一點(diǎn)凄婉。

點(diǎn)擊「靈感擴(kuò)寫」，更長更豐富的prompt就生成了。

根據(jù)擴(kuò)寫后的prompt生成的視頻，別具一番風(fēng)味。

圖生視頻

通義萬相的圖生視頻功能，也令人驚喜。

要知道，雖然圖生視頻沒有文生視頻那么難，但對一致性、想象力，要求也是很高的。

我們都會有這樣的沖動(dòng)：看到一張美圖之后，忍不住會去想象，它動(dòng)起來是什么樣子？現(xiàn)在，通義萬相的圖生視頻功能，完全能滿足我們的愿望了。

先由通義萬相生成一張?jiān)谟心甏械臍W美餐廳中，幾位顧客就餐的圖片。

然后，將其上傳，還可以補(bǔ)充一些創(chuàng)意描述。

通義萬相生成的視頻中，整個(gè)畫面與原圖高度一致，而且想象出一位男子迎面走向女子，和她交談。

再上傳一張梵高大師經(jīng)典之作「星夜」，并輸入創(chuàng)意性描述。

接下來，就能看到這幅畫作活靈活現(xiàn)起來了。

小白兔坐在月餅上，周圍的花瓣輕輕飄落。

圖生視頻一下，如夢似幻的場景立刻動(dòng)了起來。

鯨魚在空中漂浮的科幻場景，超現(xiàn)實(shí)主義的漁夫島嶼，荷塘錦鯉的水墨畫，這些場景變成視頻后，又達(dá)到另一番意境。

全自研視頻生成LLM

通義萬相AI視頻能有如此驚奇的表現(xiàn)，深扒技術(shù)背后，竟是阿里團(tuán)隊(duì)全自研視覺生成大模型立功。

它在模型框架、訓(xùn)練數(shù)據(jù)、標(biāo)注方式和產(chǎn)品設(shè)計(jì)上，具備了業(yè)界領(lǐng)先的生產(chǎn)能力。

值得一提的是，這款全新模型采用了Diffusion+Transformer架構(gòu)。

Diffusion能夠在圖像、視頻生成任務(wù)中，通過逐步圖像降噪，讓畫面顯現(xiàn)出來。

另外，Transformer的優(yōu)勢就在于，出色地處理序列數(shù)據(jù)，并有效地捕捉文本中上下文信息。

與其他模型不同的是，通義萬相視覺模型采用了中英文雙語標(biāo)注，能夠強(qiáng)化中文長文本理解，而且對中文內(nèi)容和元素原生支持更好。

也就是說，DiT架構(gòu)不僅能夠處理靜態(tài)圖像，還能處理動(dòng)態(tài)視頻，為視覺內(nèi)容創(chuàng)作帶來革命性變革。

這種獨(dú)特的生成方式，在計(jì)算效率上具有很強(qiáng)的優(yōu)勢。

通過逐步降噪來生成最終動(dòng)畫，不僅減少計(jì)算量，還提高了生成速度，使得通義萬相在短時(shí)間內(nèi)生成高質(zhì)量視頻。

而且，它能夠精準(zhǔn)構(gòu)圖和布局，從抽象藝術(shù)，到精細(xì)現(xiàn)實(shí)主義的各種風(fēng)格，完全可以拿捏。

也正是這一架構(gòu)的靈活性，能夠讓通義萬相應(yīng)用于多種場景。

不論是電商、廣告創(chuàng)意，還是自媒體、影視/動(dòng)畫制作等領(lǐng)域，通義萬相能夠?yàn)閯?chuàng)作者提供更多靈感來源。

比如，一輛跑車的宣傳視頻，在AI筆下，能夠瞬間炫酷起來。

影視動(dòng)畫制作中的一些創(chuàng)意場景，AI的想象力更是無限的。

還等什么，無限次數(shù)免費(fèi)續(xù)的通義萬相，趕快去試用吧。

參考資料：

https://tongyi.aliyun.com/wanxiang/videoCreation

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天承辦公室 > 《023新智元說》

舉報(bào)/認(rèn)領(lǐng)