字節(jié)等待一鳴驚人

rexue_2014 2024-02-28 發(fā)布于江蘇

展開全文

出品｜虎嗅商業(yè)消費組
作者｜黃青春

一場事先張揚的發(fā)布會讓 Sora 成為 2024 開年頂流，字節(jié)跳動卻在悄咪咪推進 AI 產(chǎn)品迭代。

近日，字節(jié)正式發(fā)布文生圖模型 SDXL-Lightning。其官方信息稱該模型采用了新的漸進式對抗蒸餾（Progressive Adversarial Distillation）技術(shù)，能將計算時間和成本降至此前的十分之一——通常情況下，文生圖模型使用擴散式生成（diffusion）模型，單張圖像處理時間大約需要 5 秒，還需多次（20～40 次）調(diào)用龐大的神經(jīng)網(wǎng)絡(luò)；但 SDXL-Lightning 能提速 10 倍在 2~4 步內(nèi)生成高質(zhì)量及分辨率的圖像。

事實上，早于 2023 年 11 月，字節(jié)跳動已發(fā)表視頻生成研究成果 PixelDance，提出基于文本指導(dǎo) + 首尾幀圖片指導(dǎo)的技術(shù)方法，能生成具有高度一致性和豐富動態(tài)性的視頻；今年1月，字節(jié)又發(fā)布了視頻生成模型 MagicVideo-V2，通過集成文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和插值模塊，打造了一條視頻生成流水線，效果超越 SVD-XT、Pika1.0、Runway的Gen-2 等同類模型。

盡管，字節(jié)在研發(fā)多模態(tài)模型方面已處于國內(nèi)領(lǐng)先狀態(tài)，但其與 OpenAI 仍有較大差距，好在字節(jié)愿意接入 OpenAI 的模型（字節(jié)海外有兩款 AI 產(chǎn)品，Cici 和 Coze 都接入了 GPT 3.5/GPT 4 模型，兩者 DAU 迅速攀升至百萬級別），在一定程度上克服了模型能力的短板。

然而，橫空出世的 Sora 加速了字節(jié)的焦慮：

一方面，Sora 已經(jīng)能生成 60 秒視頻，這將直接改變抖音與 TikTok 的內(nèi)容供給邏輯——巨量數(shù)據(jù)顯示，以 60 秒視頻為臨界點，文生視頻已經(jīng)在顛覆短視頻行業(yè)；
另一方面，Sora 可以用于視頻編輯、視頻風(fēng)格混合等多個領(lǐng)域，是一個集視頻生成、圖片生成、視頻編輯等功能于一體的強大模型。

有鑒于此，Sora 這樣的“新物種”從創(chuàng)作門檻、內(nèi)容質(zhì)感、創(chuàng)作持續(xù)性等方面都會降維打擊大部分創(chuàng)作者，或?qū)⒏淖儍?nèi)容生產(chǎn)和編輯方式，從業(yè)者可能面臨技能需求和工作流程的變化——此前 Runway 在《瞬息全宇宙》里已有所應(yīng)用，但 4 秒到 15 秒發(fā)展了半年，15 秒到 1 分鐘三個月，技術(shù)的發(fā)展速度如此驚人，隨著文生視頻效果越發(fā)精進，抖音及 TikTok 也將面臨新技術(shù)帶來的洗牌，這在一定程度上刺激字節(jié)更加積極推進 AI 技術(shù)投入。

深層次原因還在于：中國移動互聯(lián)網(wǎng)業(yè)到了用戶、流量趨于見頂?shù)某墒炱?，監(jiān)管會更側(cè)重產(chǎn)業(yè)互聯(lián)網(wǎng)的推進與建設(shè)，這意味著技術(shù)走到平臺重構(gòu)生態(tài)的關(guān)鍵時期。

尤其，在快速迭代的 AI 浪潮裹挾下，心有猛虎的公司都在尋找向上攀爬的入口——當(dāng)通用人工智能時代呼嘯而來，字節(jié)手握應(yīng)用層及數(shù)據(jù)層的獨特優(yōu)勢，抖音擁有豐富的數(shù)據(jù)素材和充足的算力資源，必須在快速發(fā)展時期進行果斷投入（包括技術(shù)生態(tài)迭代、研發(fā)投入等），從而博一張未來的船票。

剪映成字節(jié)刺破AI的“針”

那些顛覆行業(yè)產(chǎn)品的誕生契機就是如此傳奇：Sora 創(chuàng)始團隊成立不足 1 年，由兩名剛畢業(yè)的博士生帶隊，核心成員 15 人，其中甚至有 00 后（成員Will DePu 于 2003 年出生）；而抖音前身 A.me 于 2016 年秋上線時，創(chuàng)始團隊也只有 7 個年輕人。

虎嗅了解到，字節(jié)跳動的 AI 戰(zhàn)略是各個市場做各自的產(chǎn)品；其中，剪映或?qū)⒊蔀橹袊?AI 應(yīng)用最先爆發(fā)的產(chǎn)品：截至 2021 年，剪映月活用戶數(shù)已經(jīng)突破 1 億，是國內(nèi)最大的移動視頻編輯產(chǎn)品。

具體而言，字節(jié)跳動通過拆解明確每個部門的 OKR（例如抖音主要負責(zé)拉新，而字節(jié)專門負責(zé) AI 產(chǎn)品的 Flow 部門負責(zé)開發(fā)及產(chǎn)品增長）實現(xiàn)了部門間互不干涉，解決了互聯(lián)網(wǎng)公司迅速擴張所面臨的組織協(xié)同問題，是國內(nèi)逐夢 AI 浪潮互聯(lián)網(wǎng)公司中戰(zhàn)略最清晰的一個。

張楠在 2020 年抖音創(chuàng)作者大會發(fā)言

要知道，抖音 CEO 張楠卸任前一年（2023 年）絕大多數(shù)精力都傾斜在剪映相關(guān)業(yè)務(wù)上。據(jù)張楠自述，刺激她義無反顧投身AI 的原因之一便是希望幫助創(chuàng)作者對更好表達自己的想法，因為過去“幾乎無法用一個產(chǎn)品完成所有的創(chuàng)作，要橫跨幾個產(chǎn)品之間，用復(fù)雜的編輯和交互流程，才能完成表達?！?/p>

但據(jù)字節(jié)內(nèi)部人士透露，張楠親自帶隊投身 AI 研究，很大程度上源于字節(jié)管理層預(yù)判文生圖、文生視頻將是下一個引領(lǐng)時代的賽點。

于張楠而言，就像她在朋友圈說的那樣：“專注地從'心’出發(fā)，用始終創(chuàng)業(yè)的狀態(tài)，在未來的十年再折騰一些我熱愛的事情。字節(jié)跳動是最好的平臺，既有夢想，又務(wù)實的浪漫，我很期待和剪映的小伙伴們一起造夢，與這個 AI 的時代一起成長，共同繪制出腦海中的奇幻世界?！?/p>

而且，張楠在內(nèi)部信中坦言，最近跟團隊里的很多人聊天，有很多人還是滿腔熱血的，有很想做的事，這更讓她覺得機不可失、時不再來?！拔抑肋@會是一條很長的路，而且會有很多激烈的競爭，也會碰到技術(shù)不確定性帶來的很多挑戰(zhàn)和試錯。但夢想還是應(yīng)該有的，如果不極致地試一次，未來該多遺憾?！?/p>

于公司而言，字節(jié)在模型技術(shù)和數(shù)據(jù)兩個方面同時具備優(yōu)勢，可以利用自身的數(shù)據(jù)資產(chǎn)為模型訓(xùn)練提供足夠的數(shù)據(jù)源，進而在市場中獲得更大的競爭力。

此前，《晚點 LatePost》曾在報道中指出，字節(jié)廣告客戶投放總成本里有 10%~20% 為視頻制作成本；去年開始，字節(jié)已在開發(fā)一些相關(guān)產(chǎn)品幫廣告客戶壓縮這部分投入。

接近字節(jié)人士向虎嗅表示，字節(jié)的核心 AI 業(yè)務(wù)中，剪映占據(jù)重要位置，集團希望它成為一個獨立的工具產(chǎn)品。“從戰(zhàn)略角度看，字節(jié)希望剪映變成一個類似于過去支付寶和淘寶關(guān)系的產(chǎn)品，它本身是一個工具，現(xiàn)在得慢慢地獨立出來?！?/strong>

不過，傳統(tǒng)視頻編輯工具，如剪映的技術(shù)路線是基于一些預(yù)測性和可復(fù)現(xiàn)的底層操作，包括傳統(tǒng)圖像學(xué)和視頻編輯算法，以非常精確的方式編輯視頻內(nèi)容——這樣的優(yōu)勢在于其操作粒度細且可控性強；缺點在于需要大量的人力投入，例如剪輯一段視頻考驗制作者能力和人力成本。

順著這個邏輯所進化的工具，只能通過建立一套標(biāo)準(zhǔn)操作流程（SOP），將一些工具進行組合以形成多套模板，再通過這些模板來進行視頻剪輯和生成；然而，這些模板基本上很同質(zhì)化，導(dǎo)致產(chǎn)生的變化很相似，形成了固定范式，導(dǎo)致這類工具適用場景有限，創(chuàng)新性較低——而 Sora 在圖像控制表達能力上結(jié)合了 DALL·E 和 GPT-4 的能力，其他廠商缺乏相應(yīng)的圖像和語言模型能力，人才、數(shù)據(jù)和算力才是技術(shù)復(fù)現(xiàn)的三大核心壁壘。

一位華人工程師向虎嗅表示，OpenAI 在技術(shù)層面領(lǐng)先的原因之一是選擇了 Transformer 架構(gòu)并創(chuàng)新推出 GPT 系列?！白钤绲?Transformer 論文是由谷歌的科學(xué)家編寫，但在當(dāng)時并未被視為主流架構(gòu)；然而，OpenAI 首席科學(xué)家伊利將 Transformer 架構(gòu)應(yīng)用于 GPT-1 模型后，其展現(xiàn)出優(yōu)于以往模型的能力?！?/p>

他進一步指出，相比谷歌這樣的科技巨頭，在新技術(shù)面前往往更重視社會影響及對現(xiàn)有業(yè)務(wù)的影響——字節(jié)何嘗不是如此；而 OpenAI 作為一家創(chuàng)業(yè)公司，反而可以放開手腳，更注重創(chuàng)新與自我突破。

Sora只是亮個相，為何把你嚇壞了？

“Sora 能夠?qū)⒄鎸嵤澜缬成涞教摂M世界，無論內(nèi)容真實性、視頻質(zhì)量（包括分辨率、碼率、像素等）還是輸出內(nèi)容與用戶需求的一致性都有顯著提升，夸張點說是直接完成了 1 到 100 的躍遷?！币晃?AI 創(chuàng)業(yè)者如此評價道。

上述論斷并非危言聳聽——與其他文生視頻模型（Runway、 Pika 等）不同，當(dāng)攝像機移動和旋轉(zhuǎn)時 Sora 能輸出保持人物和場景 3D 空間一致性、基本符合物理世界規(guī)律（不能完全保持，也會出錯）的視頻。

對此，OpenAI 透漏，Sora 的技術(shù)架構(gòu)與傳統(tǒng)視頻技術(shù)路徑有所不同：其先將不同視頻和圖片數(shù)據(jù)壓縮在一個低維空間中，再分解成統(tǒng)一 Patch 作為訓(xùn)練大模型的基本單位，這一改進使得文生視頻更加逼真、高質(zhì)量。

Sora 輸出能力有多出色呢？即使在人物、動物或物體被遮擋或離開畫面時，仍然可以進行追蹤，確保物體持續(xù)呈現(xiàn)；而且，相較于其他大模型在文本數(shù)據(jù)上理解和涌現(xiàn)，Sora 在 GPT（不少人猜測訓(xùn)練的或許是 GPT-4.5）的語義理解支撐下，能理解用戶需求以及在預(yù)訓(xùn)練學(xué)習(xí)過程中理解學(xué)習(xí)的視頻內(nèi)容。

疑似周亞輝在朋友圈透漏 GPT4.5 發(fā)布時間

雖說，尚未對外開放測試的 Sora 仍處于世界模型研究應(yīng)用的初期階段；可 Sora 一旦上線，用戶貢獻的素材內(nèi)容能豐富數(shù)據(jù)資源增加訓(xùn)練樣本。

一位 AI 創(chuàng)業(yè)者樂觀地表示，“相對現(xiàn)在某些類 GPT 產(chǎn)品插件，進化的大模型可能支持各種插件應(yīng)用，解決生成內(nèi)容中的各種問題，并對視頻、游戲等內(nèi)容產(chǎn)業(yè)產(chǎn)生商業(yè)層面的變革?！?/p>

所以，短期內(nèi) Sora 更多會應(yīng)用于物理世界內(nèi)容的延展，包括使用物理世界內(nèi)容拼接創(chuàng)建新的創(chuàng)新內(nèi)容，例如常規(guī)內(nèi)容短片、電影等；中期，Sora 可作為視頻編輯工具，應(yīng)用在特效添加、背景更改、人物替換方面；后期，Sora 應(yīng)用范圍會涉及虛擬現(xiàn)實、增強現(xiàn)實、游戲開發(fā)等，潛在應(yīng)用方向包括虛擬試衣、虛擬旅游等。