日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

阿里通義萬相AI生視頻震撼上線!更懂中國風(fēng)的大模型來了

 天承辦公室 2024-09-20 發(fā)布于北京


  新智元報(bào)道  

編輯:編輯部
【新智元導(dǎo)讀】阿里放大招了,就在剛剛,通義萬相AI視頻功能正式開放。5秒的視頻,在手機(jī)端APP不限次數(shù)免費(fèi)用!連今晚音樂節(jié)的MV都是AI直出。試用后我們驚喜地發(fā)現(xiàn),更懂中國風(fēng)的AI視頻,它真的來了。
AI視頻國內(nèi)戰(zhàn)場,阿里也下場了。
剛剛,通義萬相AI生視頻功能上線!
今天下午的阿里云棲大會上,CTO周靖人宣布,官網(wǎng)和App上都可以立刻試用了。
比起國外爆火的Sora、Gen-3 Alpha,通義萬相是更能聽懂中國話,更懂中國風(fēng)的AI視頻模型。
以下視頻來源于
通義

今晚飛天音樂節(jié)上的視頻「江雪」,就是由通義萬相生成的

它能夠支持最長5秒視頻生成,每秒30幀,分辨率為720P。更驚艷的是,它還能生成與畫面匹配的音效。

這背后得到了阿里全自研的視覺大模型加持,并采用了業(yè)界領(lǐng)先的核心架構(gòu)——Diffusion+Transformer。

劃重點(diǎn):手機(jī)端App不限次數(shù),完全免費(fèi)用!PC端,每天登陸送50個(gè)靈感值,可生成10次。

圖片

要知道,畫餅的Sora還不能用,上線的Gen-3 Alpha等都得充值,還有一些仍然處于內(nèi)測當(dāng)中。

相比之下,通義萬相是免費(fèi)的,次數(shù)無限用,還不是期貨,不需要排隊(duì)!

更懂中國風(fēng)、中國話

既然已經(jīng)上線,我們就迫不及待地展開試用了。

在通義萬相頁面上輸入提示「黑發(fā)古風(fēng)女孩,快速轉(zhuǎn)身微笑,國風(fēng)發(fā)髻,純色高清」,一條5s的視頻就火熱出爐了。
人物還原,眼神靈動(dòng),甚至還配有古香古色的背景音。
無論是緩緩抬起的眼神,還是頭發(fā)在空中飄動(dòng)的樣子,都美得攝人心魄。

圖片

轉(zhuǎn)向鏡頭的瞬間,就被她的樣貌驚呆了。

圖片

就連中國傳統(tǒng)的建筑風(fēng)格——樓閣式塔,它也能很好地還原出來。

在白雪皚皚的山間,一座雄偉的中國古典建筑巍然屹立,精致的木雕,仿佛置入仙境一般。

圖片

再來看看,通義萬相生成的古風(fēng)男子,非常優(yōu)秀地描繪了溫文爾雅的氣質(zhì)。

圖片

古風(fēng)裝扮的男子身著月牙白錦袍,站立在雅致的古典園林中,他的一舉一動(dòng)都透露出溫文爾雅的氣質(zhì)。鏡頭從他的側(cè)臉緩緩?fù)平?,展現(xiàn)出他眸光溫柔,仿佛能洞察人心,給人以溫暖和安慰。周圍的景致與他的裝束相得益彰,共同構(gòu)建了一幅如詩如畫的古典美男圖卷。

從某種意義上講,通義萬相是AI視頻模型中,更懂國風(fēng)的那個(gè)。

文生視頻


在多次試用通義萬相的文生視頻能力后,不得不感慨:這款A(yù)I產(chǎn)品,實(shí)在是太有想象力了!而且,每個(gè)視頻,AI都會自動(dòng)配上BGM。

通過提示詞,我們就可以用文字控制畫面內(nèi)容和變化的過程。

圖片
晨霧,日出,鏡頭光暈,清冷風(fēng),一個(gè)五官精致的年輕中國女子,長長的頭發(fā)被風(fēng)吹亂,頭發(fā)絲飄,散在臉上,穿著夏裝,背景海邊沙灘
蛛網(wǎng)上掛著透明的水滴,形成了美麗的光斑和折射,通義萬相在這個(gè)視頻中,體現(xiàn)出了對物理光學(xué)規(guī)律的規(guī)律,畫面的美感也很動(dòng)人。
圖片
更多無厘頭想象的畫面,現(xiàn)在都可以變成現(xiàn)實(shí)了。無論是在南極大陸上工作的企鵝郵差,還是在米山中間行駛的玉米列車。
圖片
圖片
而切實(shí)地使用過之后,通義萬相對概念組合的語義理解、畫面的視覺動(dòng)態(tài)、風(fēng)格泛化能力、國風(fēng)理元素的呈現(xiàn),無不給人留下了深刻印象。

聽話,想象蝶變現(xiàn)實(shí)

可以看出,通義萬相的指令遵循能力,著實(shí)令人深刻。
一句話總結(jié)——它就是「最聽話」的AI生視頻模型。
無論是畫面內(nèi)容、空間構(gòu)圖、運(yùn)動(dòng)過程、運(yùn)鏡方式,它均有良好的支持。
而這個(gè)模型還是原生支持中文的長文本提示詞,因此相比起國外的模型,更能理解中文的復(fù)雜語義理解和概念組合生成能力,能將文字創(chuàng)意精準(zhǔn)呈現(xiàn)。
何為一個(gè)視頻模型的想象力?
如果用公式拆解的話,可以理解為:模型的「想象力」=復(fù)雜語義理解+概念組合生成。
無論提示詞中的元素多么復(fù)雜,通義萬相都能準(zhǔn)確呈現(xiàn)。
而涉及到多個(gè)不同元素時(shí),它也能準(zhǔn)確、有機(jī)地結(jié)合在一起,表現(xiàn)出超強(qiáng)的概念組合能力。
任何不可思議的畫面,比如「貓變成少年」、「月球上建基地,遭遇洪水」,我們都可以充分放飛自己的想象力,要什么就有什么。
比如下面這只小兔子,穿著溜冰鞋在冰面上靈巧地滑行。
圖片
兔子生日宴上,小伙伴們一起為她慶生。
圖片
兩位正在月球上搭建基地的宇航員,背后是浩瀚無垠的太空。
圖片
要說最驚艷的,便是下面這只黑貓幻化成冷峻少年的視頻,一眼動(dòng)漫成真。
圖片

運(yùn)動(dòng),重現(xiàn)物理世界

在所有AI視頻中,對運(yùn)動(dòng)的體現(xiàn)無疑都是最考驗(yàn)?zāi)P凸αΦ囊坏李}。
而通義萬相,恰恰有著強(qiáng)大的運(yùn)動(dòng)生成能力。
它不僅支持復(fù)雜與大幅度的運(yùn)動(dòng)生成,還能非常寫實(shí)地還原真實(shí)世界的物理規(guī)律。
比如在這個(gè)視頻中,獵豹在狹窄的峽谷中奔跑,眼睛緊盯著前方的獵物。
獵豹四肢的動(dòng)作、起伏的背脊、尾巴的甩動(dòng)方向,都很符合自然規(guī)律。峽谷場景的一步步推進(jìn)也很自然。
圖片
而這個(gè)滑雪愛好者從雪山上快速下滑的視頻,無論是滑雪者四肢的動(dòng)作、變換的重心,還是飛揚(yáng)的雪粒、光影的變換,都十分自然,破綻極少。
圖片

風(fēng)格泛化

通義萬相的風(fēng)格泛化能力極強(qiáng),可以根據(jù)風(fēng)格提示詞生成響應(yīng)的視頻畫面,帶來影視級的畫面質(zhì)感和細(xì)節(jié)表現(xiàn)。
比如這段3D動(dòng)畫風(fēng)格視頻中,帥氣的俠客兔子在森林中身披斗篷前進(jìn),質(zhì)感細(xì)膩,達(dá)到了大片畫質(zhì)。
圖片
而這段勾線動(dòng)畫的視頻,將法庭上穿著筆挺律師袍的狐貍律師呈現(xiàn)得活靈活現(xiàn)。
圖片
國漫3D風(fēng)格的視頻中,古裝少女端坐在燭光中,夜色氤氳,巧笑倩兮。
圖片
下面這個(gè)視頻是CG厚涂風(fēng)格,描繪了女機(jī)械師在未來實(shí)驗(yàn)室中調(diào)試設(shè)備的場景。
圖片

音頻生成

此外就如上文所言,通義萬相還會同時(shí)生成聲音特效,后者是和視覺內(nèi)容高度匹配的,這樣就實(shí)現(xiàn)了音畫同步,增強(qiáng)了視聽一體的沉浸感。
上傳一張?jiān)诮值郎峡杖我獯┧蟮娘w碟的圖片。
圖片

生成的視頻中,還為飛碟配上了非常賽博的背景音,而且由近及遠(yuǎn),給人一種真實(shí)的感覺。

這里,再用「一雙似喜非喜含情目,態(tài)生兩靨之愁,嬌襲一身之病」復(fù)刻一下林黛玉多愁善感的神情。

視頻中的女子很好還原了氣郁體質(zhì),再加上配樂,又多了一分傷感。

靈感擴(kuò)寫

要說通義萬相的獨(dú)特賣點(diǎn),就是它的靈感擴(kuò)寫能力了。

在文生視頻界面上點(diǎn)擊「靈感擴(kuò)寫」,就能把簡單的提示詞擴(kuò)寫成忠于愿意的長提示詞,從而大幅提升了生成效果。

比如使用這個(gè)prompt「白色狼群在冰川峽谷中穿行,夜晚月圓」,生成的視頻是這樣的。

仔細(xì)聽,配音也頗有亮點(diǎn):悠遠(yuǎn)、神秘,甚至帶著一點(diǎn)凄婉。
點(diǎn)擊「靈感擴(kuò)寫」,更長更豐富的prompt就生成了。
圖片
根據(jù)擴(kuò)寫后的prompt生成的視頻,別具一番風(fēng)味。
圖片

圖生視頻

通義萬相的圖生視頻功能,也令人驚喜。
要知道,雖然圖生視頻沒有文生視頻那么難,但對一致性、想象力,要求也是很高的。
我們都會有這樣的沖動(dòng):看到一張美圖之后,忍不住會去想象,它動(dòng)起來是什么樣子?現(xiàn)在,通義萬相的圖生視頻功能,完全能滿足我們的愿望了。
先由通義萬相生成一張?jiān)谟心甏械臍W美餐廳中,幾位顧客就餐的圖片。
圖片
然后,將其上傳,還可以補(bǔ)充一些創(chuàng)意描述。
圖片

通義萬相生成的視頻中,整個(gè)畫面與原圖高度一致,而且想象出一位男子迎面走向女子,和她交談。

再上傳一張梵高大師經(jīng)典之作「星夜」,并輸入創(chuàng)意性描述。

圖片
接下來,就能看到這幅畫作活靈活現(xiàn)起來了。
圖片
小白兔坐在月餅上,周圍的花瓣輕輕飄落。
圖片
圖生視頻一下,如夢似幻的場景立刻動(dòng)了起來。
圖片
鯨魚在空中漂浮的科幻場景,超現(xiàn)實(shí)主義的漁夫島嶼,荷塘錦鯉的水墨畫,這些場景變成視頻后,又達(dá)到另一番意境。
圖片
圖片
圖片

全自研視頻生成LLM

通義萬相AI視頻能有如此驚奇的表現(xiàn),深扒技術(shù)背后,竟是阿里團(tuán)隊(duì)全自研視覺生成大模型立功。
它在模型框架、訓(xùn)練數(shù)據(jù)、標(biāo)注方式和產(chǎn)品設(shè)計(jì)上,具備了業(yè)界領(lǐng)先的生產(chǎn)能力。
值得一提的是,這款全新模型采用了Diffusion+Transformer架構(gòu)。
Diffusion能夠在圖像、視頻生成任務(wù)中,通過逐步圖像降噪,讓畫面顯現(xiàn)出來。
另外,Transformer的優(yōu)勢就在于,出色地處理序列數(shù)據(jù),并有效地捕捉文本中上下文信息。
與其他模型不同的是,通義萬相視覺模型采用了中英文雙語標(biāo)注,能夠強(qiáng)化中文長文本理解,而且對中文內(nèi)容和元素原生支持更好。
圖片
也就是說,DiT架構(gòu)不僅能夠處理靜態(tài)圖像,還能處理動(dòng)態(tài)視頻,為視覺內(nèi)容創(chuàng)作帶來革命性變革。
這種獨(dú)特的生成方式,在計(jì)算效率上具有很強(qiáng)的優(yōu)勢。
通過逐步降噪來生成最終動(dòng)畫,不僅減少計(jì)算量,還提高了生成速度,使得通義萬相在短時(shí)間內(nèi)生成高質(zhì)量視頻。
而且,它能夠精準(zhǔn)構(gòu)圖和布局,從抽象藝術(shù),到精細(xì)現(xiàn)實(shí)主義的各種風(fēng)格,完全可以拿捏。
也正是這一架構(gòu)的靈活性,能夠讓通義萬相應(yīng)用于多種場景。
不論是電商、廣告創(chuàng)意,還是自媒體、影視/動(dòng)畫制作等領(lǐng)域,通義萬相能夠?yàn)閯?chuàng)作者提供更多靈感來源。
比如,一輛跑車的宣傳視頻,在AI筆下,能夠瞬間炫酷起來。
圖片
影視動(dòng)畫制作中的一些創(chuàng)意場景,AI的想象力更是無限的。
圖片

還等什么,無限次數(shù)免費(fèi)續(xù)的通義萬相,趕快去試用吧。


參考資料:
https://tongyi.aliyun.com/wanxiang/videoCreation
圖片


圖片

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多