1. Sora?是啥意思?有啥含義沒? Sora 在日語中是“天空”的意思,引申含義還有“自由”。 Sora 介紹頁丨OpenAI 在 Sora 官方介紹頁里,你能看到在無數(shù)空中自由飛翔的紙飛機(jī)。它們看起來行動(dòng)自主、探索自由,如果 OpenAI 最終造成 AGI(通用人工智能),應(yīng)該就是如此希冀的吧。 Sora 是一個(gè) AI 視頻模型,你光打一串文字,就能生成一個(gè)以假亂真的純 AI 原創(chuàng)視頻。除此之外,你還可以輸入圖片轉(zhuǎn)成視頻,用視頻再轉(zhuǎn)成新的視頻…… 僅僅只有 AI 生成視頻樣片以及技術(shù)論文的釋出,Sora 已經(jīng)在傳播層面引發(fā)“地震”,不少人高呼影視行業(yè)變天了,有人甚至把美國電影工業(yè)的象征好萊塢改成了這樣: ![]() 2. 人們吹爆它“炸裂”、“史詩級(jí)”、“現(xiàn)實(shí)不存在了”,根據(jù)是啥? 最直觀的,有些樣片太真實(shí)了——人物的臉沒那么“恐怖谷”,物體運(yùn)動(dòng)軌跡也很自然,畫面的清晰度和順暢程度,都像我們用手里的設(shè)備拍出來: 這太像我們用 GoPro 手持拍攝的畫面了丨Sora 相比競(jìng)品,Sora 是“滅霸”級(jí)別。之前主流的 AI 生成視頻都在 4 到 16 秒,還“卡成 PPT”,而 Sora 彎道超車,直接將時(shí)長拉到 60 秒。后者的畫面表現(xiàn),已經(jīng)媲美視頻素材庫,放進(jìn)視頻當(dāng)空鏡完全可行。 這讓人們懵圈,只能感慨技術(shù)的發(fā)展有跡可循,技術(shù)的突破節(jié)點(diǎn)卻較難預(yù)測(cè)。 3. 都嚷嚷著行業(yè)變天,人類下崗,Sora 除了第一眼好,還有啥驚人玩法? 多機(jī)位: Sora 生成 自然融合兩種完全不相干的場(chǎng)景: Sora 生成 視頻還可以往前擴(kuò)展,向后擴(kuò)展;如果你對(duì)視頻的局部(比如背景)不滿意,直接更換就可以了。 Sora 還能直接以文生圖,甚至還可以將圖片轉(zhuǎn)成動(dòng)態(tài)視頻,而且還不是目前流行的“小動(dòng)物跳舞”呈現(xiàn)的粗糙效果: ![]() Sora 生成 4. 把《三體》輸進(jìn)去,能直接出片嗎? 我知道你很急,但你先別急。 首先,目前就 Sora 所呈現(xiàn)的,雖然有多機(jī)位效果,但都是單一情節(jié)單一鏡頭。 而《三體》有多人視角,敘事復(fù)雜,靠 AI 生成一條龍搞定并不現(xiàn)實(shí)。據(jù)一些影視行業(yè)從業(yè)者所說,目前 AI 生成雖然高效,但可控性不夠,目前主要用在 demo 制作、概念設(shè)計(jì)、分鏡編排等環(huán)節(jié)。 5. 看到這里,你有一個(gè)大膽的想法? ![]() 打?。?/p> OpenAI 正在評(píng)估 Sora 被濫用的風(fēng)險(xiǎn),所以目前還沒開放給公眾,只給一批在誤導(dǎo)信息、仇恨內(nèi)容和偏見等領(lǐng)域的專家,以及創(chuàng)意人士使用。 6. 每次技術(shù)狂潮,打工人都最先焦慮,這次咋整? 記住一點(diǎn),販賣焦慮的,都是為了賺你的錢。雖然 Sora 都還沒公測(cè)呢,但已經(jīng)有人開始賣付費(fèi)教程了。 目前的 Sora 也有“翻車”生成,如果這個(gè)能安慰到你的話丨Sora AI 技術(shù)推陳出新太快了,你剛在 Pika 上學(xué)了幾個(gè)月怎么寫提示詞,結(jié)果“滅霸”Sora 出現(xiàn),此前積累的工具經(jīng)驗(yàn)可能瞬間失效……既然如此,不如先別沉迷研究工具,而是在底層創(chuàng)作上多加操練? 7. 我對(duì)被取代恐懼,對(duì) AI 變得更黑箱也害怕 繼文字(GPT 系列)以及畫像(DALL·E)后,OpenAI 這次又在視頻賽道“遙遙領(lǐng)先”……但這家將 AI 安全奉為初心的公司,在技術(shù)公開上卻越來越不 open 了,有人戲稱其為“ClosedAI”。 這次 Sora 發(fā)布,OpenAI 現(xiàn)任 CEO Sam Altman 在 X 上“在線接單”,幫網(wǎng)友生成視頻,結(jié)果有人給了這樣的提示詞,guess what,Sam 拉黑了他。 ![]() 8. 以后真分不清現(xiàn)實(shí)和 AI 生成了嗎? 眼下有人讓 Gemini 1.5 觀看并分析以下這個(gè) Sora 生成視頻,Gemini 指出: ![]() Sora 生成
于是,AI 判定這個(gè)不是真實(shí)影像。還得用魔法打敗魔法??! 9. 為什么就 OpenAI 做出來了? 因?yàn)?OpenAI 有 GPT 和 DALL·E 的成功經(jīng)驗(yàn),在以往的技術(shù)范式之上,他們做出了新東西:不僅可以理解用戶在提示中提出的要求,還能理解它們?cè)谖锢硎澜缰械拇嬖诜绞健?/p> 生成視頻效果如此好,也因?yàn)?Sora 能更好地理解用戶給的提示詞,OpenAI 是怎么做的呢?根據(jù)官方的說法,他們利用 DALL·E 3 的 re-captioning 功能,給訓(xùn)練用的視頻素材都加上了高質(zhì)量文本描述,表示這樣可以提高輸出視頻的整體質(zhì)量。另外,你給的簡短描述詞,AI 收到后會(huì)進(jìn)一步擴(kuò)寫,再交由 Sora 生成。 更重要的是,Sora 是一個(gè) Diffusion Transformer,Transformers 被證明可以在語言建模、計(jì)算機(jī)視覺和圖像生成等都能有極好性能。 10. 視頻模型的訓(xùn)練很燒算力吧,OpenAI 耗得起嗎? 大概一周前,Sam Altman 宣布 OpenAI 啟動(dòng)“造芯”計(jì)劃,因?yàn)槟壳?OpenAI 每天生成約 1000 億個(gè)單詞,需要大量的 GPU(圖形處理器)芯片進(jìn)行訓(xùn)練計(jì)算。 他希望籌得 7 萬億美元。 ![]() Unsplash 這個(gè)天文數(shù)字,不僅相當(dāng)于全球 GDP 的 10%,等同于 2.5 個(gè)微軟、3.75 個(gè)谷歌、4 個(gè)英偉達(dá)、7 個(gè) Meta,以及 11.5 個(gè)特斯拉的市值。 整理:malt 編輯:臥蟲 |
|