日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

字節(jié)等待一鳴驚人

 rexue_2014 2024-02-28 發(fā)布于江蘇


出品|虎嗅商業(yè)消費組
者|黃青春

一場事先張揚的發(fā)布會讓 Sora 成為 2024 開年頂流,字節(jié)跳動卻在悄咪咪推進 AI 產(chǎn)品迭代。

近日,字節(jié)正式發(fā)布文生圖模型 SDXL-Lightning。其官方信息稱該模型采用了新的漸進式對抗蒸餾(Progressive Adversarial Distillation)技術(shù),能將計算時間和成本降至此前的十分之一——通常情況下,文生圖模型使用擴散式生成(diffusion)模型,單張圖像處理時間大約需要 5 秒,還需多次(20~40 次)調(diào)用龐大的神經(jīng)網(wǎng)絡(luò);但 SDXL-Lightning 能提速 10 倍在 2~4 步內(nèi)生成高質(zhì)量及分辨率的圖像。

事實上,早于 2023 年 11 月,字節(jié)跳動已發(fā)表視頻生成研究成果 PixelDance,提出基于文本指導(dǎo) + 首尾幀圖片指導(dǎo)的技術(shù)方法,能生成具有高度一致性和豐富動態(tài)性的視頻;今年1月,字節(jié)又發(fā)布了視頻生成模型 MagicVideo-V2,通過集成文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和插值模塊,打造了一條視頻生成流水線,效果超越 SVD-XT、Pika1.0、Runway的Gen-2 等同類模型。

盡管,字節(jié)在研發(fā)多模態(tài)模型方面已處于國內(nèi)領(lǐng)先狀態(tài),但其與 OpenAI 仍有較大差距,好在字節(jié)愿意接入 OpenAI 的模型(字節(jié)海外有兩款 AI 產(chǎn)品,Cici 和 Coze 都接入了 GPT 3.5/GPT 4 模型,兩者 DAU 迅速攀升至百萬級別),在一定程度上克服了模型能力的短板。

然而,橫空出世的 Sora 加速了字節(jié)的焦慮:

  • 一方面,Sora 已經(jīng)能生成 60 秒視頻,這將直接改變抖音與 TikTok 的內(nèi)容供給邏輯——巨量數(shù)據(jù)顯示,以 60 秒視頻為臨界點,文生視頻已經(jīng)在顛覆短視頻行業(yè);

  • 另一方面,Sora 可以用于視頻編輯、視頻風(fēng)格混合等多個領(lǐng)域,是一個集視頻生成、圖片生成、視頻編輯等功能于一體的強大模型。


有鑒于此,Sora 這樣的“新物種”從創(chuàng)作門檻、內(nèi)容質(zhì)感、創(chuàng)作持續(xù)性等方面都會降維打擊大部分創(chuàng)作者,或?qū)⒏淖儍?nèi)容生產(chǎn)和編輯方式,從業(yè)者可能面臨技能需求和工作流程的變化——此前 Runway 在《瞬息全宇宙》里已有所應(yīng)用,但 4 秒到 15 秒發(fā)展了半年,15 秒到 1 分鐘三個月,技術(shù)的發(fā)展速度如此驚人,隨著文生視頻效果越發(fā)精進,抖音及 TikTok 也將面臨新技術(shù)帶來的洗牌,這在一定程度上刺激字節(jié)更加積極推進 AI 技術(shù)投入。

深層次原因還在于:中國移動互聯(lián)網(wǎng)業(yè)到了用戶、流量趨于見頂?shù)某墒炱?,監(jiān)管會更側(cè)重產(chǎn)業(yè)互聯(lián)網(wǎng)的推進與建設(shè),這意味著技術(shù)走到平臺重構(gòu)生態(tài)的關(guān)鍵時期。

尤其,在快速迭代的 AI 浪潮裹挾下,心有猛虎的公司都在尋找向上攀爬的入口——當(dāng)通用人工智能時代呼嘯而來,字節(jié)手握應(yīng)用層及數(shù)據(jù)層的獨特優(yōu)勢,抖音擁有豐富的數(shù)據(jù)素材和充足的算力資源,必須在快速發(fā)展時期進行果斷投入(包括技術(shù)生態(tài)迭代、研發(fā)投入等),從而博一張未來的船票。

剪映成字節(jié)刺破AI的“針”

那些顛覆行業(yè)產(chǎn)品的誕生契機就是如此傳奇:Sora 創(chuàng)始團隊成立不足 1 年,由兩名剛畢業(yè)的博士生帶隊,核心成員 15 人,其中甚至有 00 后(成員Will DePu 于 2003 年出生);而抖音前身 A.me 于 2016 年秋上線時,創(chuàng)始團隊也只有 7 個年輕人。

虎嗅了解到,字節(jié)跳動的 AI 戰(zhàn)略是各個市場做各自的產(chǎn)品;其中,剪映或?qū)⒊蔀橹袊?AI 應(yīng)用最先爆發(fā)的產(chǎn)品:截至 2021 年,剪映月活用戶數(shù)已經(jīng)突破 1 億,是國內(nèi)最大的移動視頻編輯產(chǎn)品。

具體而言,字節(jié)跳動通過拆解明確每個部門的 OKR(例如抖音主要負責(zé)拉新,而字節(jié)專門負責(zé) AI 產(chǎn)品的 Flow 部門負責(zé)開發(fā)及產(chǎn)品增長)實現(xiàn)了部門間互不干涉,解決了互聯(lián)網(wǎng)公司迅速擴張所面臨的組織協(xié)同問題,是國內(nèi)逐夢 AI 浪潮互聯(lián)網(wǎng)公司中戰(zhàn)略最清晰的一個。


張楠在 2020 年抖音創(chuàng)作者大會發(fā)言

要知道,抖音 CEO 張楠卸任前一年(2023 年)絕大多數(shù)精力都傾斜在剪映相關(guān)業(yè)務(wù)上。據(jù)張楠自述,刺激她義無反顧投身AI 的原因之一便是希望幫助創(chuàng)作者對更好表達自己的想法,因為過去“幾乎無法用一個產(chǎn)品完成所有的創(chuàng)作,要橫跨幾個產(chǎn)品之間,用復(fù)雜的編輯和交互流程,才能完成表達?!?/p>

但據(jù)字節(jié)內(nèi)部人士透露,張楠親自帶隊投身 AI 研究,很大程度上源于字節(jié)管理層預(yù)判文生圖、文生視頻將是下一個引領(lǐng)時代的賽點。

于張楠而言,就像她在朋友圈說的那樣:“專注地從'心’出發(fā),用始終創(chuàng)業(yè)的狀態(tài),在未來的十年再折騰一些我熱愛的事情。字節(jié)跳動是最好的平臺,既有夢想,又務(wù)實的浪漫,我很期待和剪映的小伙伴們一起造夢,與這個 AI 的時代一起成長,共同繪制出腦海中的奇幻世界?!?/p>

而且,張楠在內(nèi)部信中坦言,最近跟團隊里的很多人聊天,有很多人還是滿腔熱血的,有很想做的事,這更讓她覺得機不可失、時不再來?!拔抑肋@會是一條很長的路,而且會有很多激烈的競爭,也會碰到技術(shù)不確定性帶來的很多挑戰(zhàn)和試錯。但夢想還是應(yīng)該有的,如果不極致地試一次,未來該多遺憾?!?/p>

于公司而言,字節(jié)在模型技術(shù)和數(shù)據(jù)兩個方面同時具備優(yōu)勢,可以利用自身的數(shù)據(jù)資產(chǎn)為模型訓(xùn)練提供足夠的數(shù)據(jù)源,進而在市場中獲得更大的競爭力。

此前,《晚點 LatePost》曾在報道中指出,字節(jié)廣告客戶投放總成本里有 10%~20% 為視頻制作成本;去年開始,字節(jié)已在開發(fā)一些相關(guān)產(chǎn)品幫廣告客戶壓縮這部分投入。

接近字節(jié)人士向虎嗅表示,字節(jié)的核心 AI 業(yè)務(wù)中,剪映占據(jù)重要位置,集團希望它成為一個獨立的工具產(chǎn)品。“從戰(zhàn)略角度看,字節(jié)希望剪映變成一個類似于過去支付寶和淘寶關(guān)系的產(chǎn)品,它本身是一個工具,現(xiàn)在得慢慢地獨立出來?!?/strong>

不過,傳統(tǒng)視頻編輯工具,如剪映的技術(shù)路線是基于一些預(yù)測性和可復(fù)現(xiàn)的底層操作,包括傳統(tǒng)圖像學(xué)和視頻編輯算法,以非常精確的方式編輯視頻內(nèi)容——這樣的優(yōu)勢在于其操作粒度細且可控性強;缺點在于需要大量的人力投入,例如剪輯一段視頻考驗制作者能力和人力成本。

順著這個邏輯所進化的工具,只能通過建立一套標(biāo)準(zhǔn)操作流程(SOP),將一些工具進行組合以形成多套模板,再通過這些模板來進行視頻剪輯和生成;然而,這些模板基本上很同質(zhì)化,導(dǎo)致產(chǎn)生的變化很相似,形成了固定范式,導(dǎo)致這類工具適用場景有限,創(chuàng)新性較低——而 Sora 在圖像控制表達能力上結(jié)合了 DALL·E 和 GPT-4 的能力,其他廠商缺乏相應(yīng)的圖像和語言模型能力,人才、數(shù)據(jù)和算力才是技術(shù)復(fù)現(xiàn)的三大核心壁壘。

一位華人工程師向虎嗅表示,OpenAI 在技術(shù)層面領(lǐng)先的原因之一是選擇了 Transformer 架構(gòu)并創(chuàng)新推出 GPT 系列?!白钤绲?Transformer 論文是由谷歌的科學(xué)家編寫,但在當(dāng)時并未被視為主流架構(gòu);然而,OpenAI 首席科學(xué)家伊利將 Transformer 架構(gòu)應(yīng)用于 GPT-1 模型后,其展現(xiàn)出優(yōu)于以往模型的能力?!?/p>

他進一步指出,相比谷歌這樣的科技巨頭,在新技術(shù)面前往往更重視社會影響及對現(xiàn)有業(yè)務(wù)的影響——字節(jié)何嘗不是如此;而 OpenAI 作為一家創(chuàng)業(yè)公司,反而可以放開手腳,更注重創(chuàng)新與自我突破。

Sora只是亮個相,為何把你嚇壞了?

“Sora 能夠?qū)⒄鎸嵤澜缬成涞教摂M世界,無論內(nèi)容真實性、視頻質(zhì)量(包括分辨率、碼率、像素等)還是輸出內(nèi)容與用戶需求的一致性都有顯著提升,夸張點說是直接完成了 1 到 100 的躍遷?!币晃?AI 創(chuàng)業(yè)者如此評價道。

上述論斷并非危言聳聽——與其他文生視頻模型 (Runway、 Pika 等) 不同,當(dāng)攝像機移動和旋轉(zhuǎn)時 Sora 能輸出保持人物和場景 3D 空間一致性、基本符合物理世界規(guī)律(不能完全保持,也會出錯)的視頻。

對此,OpenAI 透漏,Sora 的技術(shù)架構(gòu)與傳統(tǒng)視頻技術(shù)路徑有所不同:其先將不同視頻和圖片數(shù)據(jù)壓縮在一個低維空間中,再分解成統(tǒng)一 Patch 作為訓(xùn)練大模型的基本單位,這一改進使得文生視頻更加逼真、高質(zhì)量。

Sora 輸出能力有多出色呢?即使在人物、動物或物體被遮擋或離開畫面時,仍然可以進行追蹤,確保物體持續(xù)呈現(xiàn);而且,相較于其他大模型在文本數(shù)據(jù)上理解和涌現(xiàn),Sora 在 GPT(不少人猜測訓(xùn)練的或許是 GPT-4.5)的語義理解支撐下,能理解用戶需求以及在預(yù)訓(xùn)練學(xué)習(xí)過程中理解學(xué)習(xí)的視頻內(nèi)容。


疑似周亞輝在朋友圈透漏 GPT4.5 發(fā)布時間

雖說,尚未對外開放測試的 Sora 仍處于世界模型研究應(yīng)用的初期階段;可 Sora 一旦上線,用戶貢獻的素材內(nèi)容能豐富數(shù)據(jù)資源增加訓(xùn)練樣本。

一位 AI 創(chuàng)業(yè)者樂觀地表示,“相對現(xiàn)在某些類 GPT 產(chǎn)品插件,進化的大模型可能支持各種插件應(yīng)用,解決生成內(nèi)容中的各種問題,并對視頻、游戲等內(nèi)容產(chǎn)業(yè)產(chǎn)生商業(yè)層面的變革?!?/p>

所以,短期內(nèi) Sora 更多會應(yīng)用于物理世界內(nèi)容的延展,包括使用物理世界內(nèi)容拼接創(chuàng)建新的創(chuàng)新內(nèi)容,例如常規(guī)內(nèi)容短片、電影等;中期,Sora 可作為視頻編輯工具,應(yīng)用在特效添加、背景更改、人物替換方面;后期,Sora 應(yīng)用范圍會涉及虛擬現(xiàn)實、增強現(xiàn)實、游戲開發(fā)等,潛在應(yīng)用方向包括虛擬試衣、虛擬旅游等。



來源:Sora生成視頻截取

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多