日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

一文了解爆紅AI項(xiàng)目 Stable Diffusion及其背后的機(jī)構(gòu) Stability AI | 巴比特

 呂楊鵬 2022-09-04 發(fā)布于上海

來認(rèn)識一下爆紅AI項(xiàng)目 Stable Diffusion,和它背后的機(jī)構(gòu) Stability AI。

文|杜晨  編輯|VickyXiao   

來源:硅星人

原標(biāo)題:《模型開源還強(qiáng)大?神秘公司成了吊打巨頭和學(xué)閥的AI “第三極”》

AI 生成圖片,最近超級火的一項(xiàng)尖端技術(shù)。

火到什么程度,以至于已經(jīng)有公司開始“套個殼”就出道了……

本周有消息曝出,一家創(chuàng)業(yè)公司 WriteSonic “剽竊”了著名模型 Stable Diffusion,做了一個生成圖片的產(chǎn)品 Photosonic AI。

這還沒完,這家公司居然把該產(chǎn)品堂而皇之地發(fā)到了產(chǎn)品社區(qū) Product Hunt 上面,甚至一度沖到了第二的位置……

圖片來源:Product Hunt

Stable Diffusion 完全免費(fèi)開源,所有代碼都在 GitHub 上公開,任何人都可以拷貝使用——前提是需要遵循原項(xiàng)目采用的 CreativeML Open RAIL-M 許可證。

然而原項(xiàng)目貢獻(xiàn)者 Louis Castricato 卻發(fā)現(xiàn),WriteSonic 并沒有注明使用該許可證,在 Photosonic AI 的任何地方也沒有標(biāo)注技術(shù)來源。

他對 WriteSonic 喊話:“希望你們在 VC 面前沒有假裝這個東西是你們自己做的?!?/em>

Stable Diffusion 許可證   圖片來源:Hugging Face

目前事情還沒有完全鬧開,不過 Product Hunt 上已經(jīng)有不少人提出了質(zhì)疑。截至本文發(fā)出,WriteSonic 創(chuàng)始人尚未做出回應(yīng)。

其實(shí),Stable Diffusion 也是一周前才正式發(fā)布公開版——這次抄襲事件,反倒映射出這項(xiàng)技術(shù)到底有多火、Stable Diffusion 有多受歡迎。

最近硅星人多次報(bào)道過 AI 圖片生成技術(shù),提到過 DALL·E、Midjourney、DALL·E mini(現(xiàn)用名 Craiyon)、Imagen、TikTok AI綠幕等知名產(chǎn)品。

實(shí)際上,Stable Diffusion 有著強(qiáng)大的生成能力和廣泛的使用可能性,模型可以直接在消費(fèi)級顯卡上運(yùn)行,生成速度也相當(dāng)之快。而其免費(fèi)開放的本質(zhì),更是能夠讓 AI 圖片生成模型不再作為少數(shù)業(yè)內(nèi)人士的玩物。

在強(qiáng)者如云、巨頭紛紛入局的 AI 圖片生成領(lǐng)域,Stable Diffusion 背后的“神秘”機(jī)構(gòu) Stability AI,也像是“世外高僧”一般的存在。它的創(chuàng)始人沒有那么出名,創(chuàng)辦故事和融資細(xì)節(jié)也不是公開信息。再加上免費(fèi)開源 Stable Diffusion 的慈善行為,更讓人增加了對這家神秘 AI 科研機(jī)構(gòu)的興趣。

今天,我們就來深入了解一下 Stable Diffusion 和 Stability AI,這支在 AI 領(lǐng)域異軍突起的“第三種”力量。

消費(fèi)顯卡,秒速生成,完全開源

Stable Diffusion 是一個文字轉(zhuǎn)圖片的生成模型??梢灾挥脦酌腌姇r(shí)間就生成比同類技術(shù)分辨率、清晰度更高,更具“真實(shí)性”或“藝術(shù)性”的圖片結(jié)果。

項(xiàng)目開發(fā)領(lǐng)導(dǎo)者有兩位,分別是 AI 視頻剪輯技術(shù)創(chuàng)業(yè)公司 Runway 的 Patrick Esser,和慕尼黑大學(xué)機(jī)器視覺學(xué)習(xí)組的 Robin Romabach。這個項(xiàng)目的技術(shù)基礎(chǔ)主要來自于這兩位開發(fā)者之前在計(jì)算機(jī)視覺大會 CVPR22 上合作發(fā)表的潛伏擴(kuò)散模型 (Latent Diffusion Model) 研究。

另外,項(xiàng)目也得到了一些外部開發(fā)社區(qū),以及 Stability AI 機(jī)構(gòu)生成技術(shù)團(tuán)隊(duì)的支持,并且從 DALL·E 2、Imagen 等巨頭模型項(xiàng)目當(dāng)中獲得和整合了一些經(jīng)驗(yàn)參考。項(xiàng)目發(fā)布的時(shí)候有專門聲明對這些“競品”項(xiàng)目的感謝。

圖片來源:Stability AI

在訓(xùn)練方面,模型采用了4000臺 A100 顯卡集群,用了一個月時(shí)間。訓(xùn)練數(shù)據(jù)來自大規(guī)模AI開放網(wǎng)絡(luò)項(xiàng)目旗下的一個注重“美感”的數(shù)據(jù)子集 LAION-Aesthetics,包括近59億條圖片-文字平行數(shù)據(jù)。

雖然訓(xùn)練過程的算力要求特別高,Stable Diffusion使用起來還是相當(dāng)親民的:可以在普通顯卡上運(yùn)行,即使顯存不到10GB,仍可以在幾秒鐘內(nèi)生成高分辨率的圖像結(jié)果。

模型專門面向消費(fèi)級計(jì)算設(shè)備所做的優(yōu)化,意味著更多入門級研究者、內(nèi)容創(chuàng)作者,以及普通公眾用戶,都可以更加頻繁接觸和使用 Stable Diffusion,感受 AI 內(nèi)容生成技術(shù)的最尖端能力,為他們的工作和生活帶來極大的便利和樂趣。

在8月初,團(tuán)隊(duì)先是進(jìn)行了一個大范圍的公測,結(jié)果反響非常熱烈,受到大批研究者和測試用戶的歡迎。于是,團(tuán)隊(duì)很快就在上周一正式公開發(fā)布了 Stable Diffusion 模型。只要遵循 OpenRAIL-M 許可證的規(guī)定,并且不用于非法和非道德的場景,任何人都可以對該模型進(jìn)行商業(yè)或非商業(yè)使用、改造和再發(fā)布。

Stable Diffusion 并不是 AI 內(nèi)容創(chuàng)作、AI 藝術(shù)領(lǐng)域的第一個模型,很多人(包括前幾周的硅星人)都曾以為它只是一個跟隨者而已。

然而并不是這樣!

Stable Diffusion 生成結(jié)果    圖片來源:Stability AI

首先,和其它開放程度相似的項(xiàng)目(如 Craiyon、Disco Diffusion 等)相比,Stable Diffusion 的生成結(jié)果更為寫實(shí),完全不亞于 DALL·E、Imagen 等巨頭開發(fā)的超大模型的結(jié)果。

其它同類模型在風(fēng)格上往往會選擇一種,比如之前我們寫過的 TikTok AI綠幕模型,風(fēng)格就明顯更偏向油畫。而 Midjourney 更像現(xiàn)代抽象藝術(shù)作品。谷歌 Imagen 具有明顯的寫實(shí)+渲染動畫風(fēng)格,DALL·E mini 則是一股”梗圖”風(fēng)。

并且,Stable Diffusion 的完全開放,以及在商業(yè)/非商業(yè)使用上超高的自由度,已經(jīng)讓它成為了一個“離群者” (outlier),和 DALL·E、Imagen 等封閉/半封閉產(chǎn)品之間,已經(jīng)形成了一道巨大的鴻溝。

任何人都可以不花錢,拷貝一份 Stable Diffusion 的代碼,按照自己喜歡的方式進(jìn)行研究,并且用于處理自己需要的文字生成圖片相關(guān)任務(wù),甚至開發(fā)獨(dú)立的應(yīng)用或服務(wù)。

事實(shí)上自從 Stability AI 正式公開發(fā)布模型以來,已經(jīng)有相當(dāng)多人用它完成了自己的藝術(shù)創(chuàng)作,開發(fā)出各式各樣的 demo、產(chǎn)品,以及非常有趣的小項(xiàng)目了。

比如下面這個由用戶 Anthony Cao 開發(fā)的設(shè)計(jì)軟件 Figma 插件,就是借助 Stable Diffusion 的能力,用一句話就可以生成用戶界面元素。

圖片來源:Antonio Cao

用戶 Xander Steenbrugge 更厲害了:他進(jìn)行了大量的嘗試,最終鎖定了36條連續(xù)的文字輸入提示,成功調(diào)教了 Stable Diffusion 模型,輸出了下面這樣一個非常令人震撼的視頻。他將視頻取名為《穿越時(shí)空的旅行》。

上周我們還介紹過著名 AI 學(xué)術(shù)大佬 Andrej Karpathy。他從特斯拉 AI 總監(jiān)的職位離職之后,在自己的 YouTube 上開了一堂兩個多小時(shí)的機(jī)器學(xué)習(xí) Python 入門課。有趣的是,除了這堂課之外,其實(shí)他的賬號上所有的視頻都是他用 Stable Diffusion 生成的。(當(dāng)時(shí)硅星人還猜想他的下一站會不會就是加入這個項(xiàng)目組了。)

截圖來源:Andrej Karpathy 的 YouTube 頻道

就連“競品” Midjourney 都整合了 Stable Diffusion 開發(fā)了一個功能,讓用戶可以同時(shí)用兩個模型整合來生成圖片:

雙模型合成生成結(jié)果    圖片來源:Allesandrochille 等人創(chuàng)作,Alberto Romero 組合

就這樣,Stable Diffusion 實(shí)現(xiàn)了“開源”和 “高質(zhì)量結(jié)果” 的兩全其美,而這在硅星人看來正是它最受關(guān)注的關(guān)鍵原因。特別是開源的屬性,不僅打開了新的一扇 AI 藝術(shù)創(chuàng)作的大門,更重要的是這扇門比以往的任何門都更寬,門檻都更低。

在公開版本發(fā)布的同時(shí),Stability AI 也上線了一個新的工具網(wǎng)站,名為 DreamStudio Lite。

這個工具可以幫助更多普通用戶和創(chuàng)意玩家,更加方便地使用 Stable Diffusion 模型。在網(wǎng)頁下方有一個文本框,用戶可以直接在里面輸入生成所用的提示。在網(wǎng)頁右邊的工具欄還可以調(diào)節(jié)圖片的大小、擴(kuò)散模型步驟數(shù)量、生成圖片的數(shù)量等等。(見下圖)

DreamStudio Lite    圖片來源:硅星人

顧名思義,現(xiàn)在的 DreamStudio Lite 還只是一個輕量化的版本。Stability AI 團(tuán)隊(duì)正在加緊開發(fā)高級功能,包括使用設(shè)備顯卡、動畫支持、迭代生成、插值修復(fù)等。

Stable Diffusion 讓創(chuàng)作這件事不再成為具有高級創(chuàng)意訓(xùn)練的人專屬的游戲,可以讓更多人從中受益。從這個角度來看,力推這一模型的開發(fā)和開源的背后組織 Stability AI 厥功至偉。

然而很多人并不熟悉這家此前名不見經(jīng)傳的神秘機(jī)構(gòu)。

延續(xù) OpenAI 火種,成為“第三種力量” 

在大約10年前,深度學(xué)習(xí) AI 的浪潮剛剛起步的時(shí)候,研究員們一邊親眼目睹潮流的到來,一邊卻異常尷尬苦悶。

當(dāng)時(shí)的算力和資金限制都非常嚴(yán)重,研究員基本只有兩種選擇:要么停留在學(xué)術(shù)界,但是基本沒有任何算力可用;要么跳槽到大公司,簽一堆 NDA,并且在一個大公司的產(chǎn)品團(tuán)隊(duì)的環(huán)境里工作,很不自由,做出來的東西也是給公司用,而不是貢獻(xiàn)社會。

而 OpenAI 的出現(xiàn),在學(xué)術(shù)界和工業(yè)界之外創(chuàng)造了“第三種”可能性:既有學(xué)術(shù)界相對輕松自由的環(huán)境,又有巨頭公司近乎無限的現(xiàn)金和充足的算力,并且以推動技術(shù)邊界的擴(kuò)展,造福社會為核心目的。

然而大約兩年前,OpenAI 內(nèi)部積累的問題突然爆發(fā)。當(dāng)時(shí)實(shí)行的非營利模式難以為繼,機(jī)構(gòu)也終于成立了營利部門。也是在那段時(shí)間,一波大神級核心研究員,由于無法接受這一轉(zhuǎn)型,憤然離職。

后來的 OpenAI 還是推出了包括 GPT-3、DALL·E 等知名作品,但名聲早已大不如前。特別是 DALL·E 二代,明明是當(dāng)時(shí)最領(lǐng)先的 AI 圖片生成技術(shù)之一,在網(wǎng)上的影響力卻不如 DALL·E mini,一個完全無關(guān)的個人開發(fā)者,所做的業(yè)余開源項(xiàng)目。

對于 OpenAI 的窘境,“超級富豪” Emad Mostaque 看在眼里,疼在心里。

此人身價(jià)究竟幾何,并沒有特別清楚詳盡的資料。已經(jīng)公開的信息顯示,他有至少20年的投資基金工作經(jīng)歷,曾經(jīng)在多家技術(shù)和基金公司擔(dān)任工程師、戰(zhàn)略分析師、首席投資官等職位。

在累積了巨額財(cái)富之后,對于利用自己的技術(shù)和資金來開展慈善和推動社會平等、技術(shù)普及等事業(yè),這位英國人的興趣越來越高。

他在2019年創(chuàng)辦了一家采用技術(shù)降低手機(jī)套餐成本費(fèi)用的公司,新冠襲來后又出資并親自主導(dǎo)在斯坦福大學(xué)組建了一個非營利性質(zhì)的大數(shù)據(jù)平臺項(xiàng)目,與聯(lián)合國開展合作,旨在輔助各國政府制定防疫政策。

而在2020年創(chuàng)辦的 Stability AI,則是他的“慈善”事業(yè)的最新篇章。根據(jù)并不充分的資料,這家機(jī)構(gòu)的早期絕大部分資金都來自 Mostaque 本人。

從這個角度來看,他的身份,確實(shí)有點(diǎn)像馬斯克之于 OpenAI。

他決定自己接過使命,成立一家和 OpenAI 早期的非商業(yè)模式差不太多,但開放程度更高的機(jī)構(gòu)。

總而言之,就是要比 OpenAI 更 “open”。

Stability AI 官網(wǎng)   

通過 Stability AI,Mostaque 希望能夠延續(xù) OpenAI 締造并發(fā)揚(yáng)光大的 AI 科研“第三種力量”,同時(shí)避免重蹈其覆轍。

這家新機(jī)構(gòu)也確實(shí)在貫徹開放、公益的 OpenAI 早期科研思路:它的第一個對外亮相的產(chǎn)品/技術(shù),就是免費(fèi)、開源、幾乎沒有任何商業(yè)味道的 Stable Diffusion 模型。

Mostaque 曾經(jīng)表示,目前大約八成的 AI 研究資金全都流向了下一代技術(shù),而這些技術(shù)從構(gòu)思到開發(fā),再到測試和發(fā)布的整個過程里,往往都是高度封閉的。

一個最典型的案例就是谷歌。

作為硅谷大公司里面投身 AI 基礎(chǔ)科研最早,投資額最大的公司,谷歌近幾年開發(fā)的 PaLM、LaMDA、Imagen 等模型的封閉性越來越強(qiáng),使用門檻相當(dāng)之高,幾乎沒有開放給公眾的可能性。該公司的 AI 道德委員會,則被一些前委員、公司前員工以及第三方研究人士指責(zé)為“沒用”,反而成為公司內(nèi)部 AI 研究部門非道德問題的“遮羞布”。

Mostaque 就在想,算力、資金,和公眾參與這三個問題,能否一同解決?“這里一定有更好的辦法。”

幸運(yùn)的是,他和團(tuán)隊(duì)成功做到了這一點(diǎn)。

有一位網(wǎng)友甚至將 Mostaque 形容為AI 科研領(lǐng)域的 "Gigachad"(超級猛男):“他為人類未來做出的貢獻(xiàn),比其他頂級 AI 公司加起來還要多?!?/strong>

Emad Mostaque  圖片來源:Yannic Kilcher

AI技術(shù)分析師 Alberto Romero 則指出,Stability AI 的工作之重要性在于:人們不想看到其他人如何用最先進(jìn)的技術(shù)創(chuàng)造出厲害的藝術(shù)作品,他們真正想要的是能夠自己上手嘗試。

而 Stability AI 不光把代碼和模型權(quán)重放了出來,甚至還更進(jìn)一步,開發(fā)了一個相當(dāng)友好的無代碼、“開袋即食”的網(wǎng)站(DreamStudio Lite),讓那些不想也不會寫代碼的人都能夠使用。

借助 Mostaque 之前做新冠大數(shù)據(jù)項(xiàng)目時(shí)積累的人脈,Stability AI 目前已經(jīng)和聯(lián)合國達(dá)成了合作,成為了國家間、學(xué)校間和跨國公司之間 AI 技術(shù)研發(fā)合作的橋梁。

最初,整個團(tuán)隊(duì)還是在 Discord 聊天應(yīng)用上運(yùn)行的——目前很大程度上仍然如此。但今天的 Stability AI,似乎已經(jīng)超越了 OpenAI 的范疇和意義,在包括學(xué)術(shù)和工業(yè)界的整個 AI 研究和應(yīng)用領(lǐng)域都受到了巨大的歡迎。通過 Stable Diffusion,更多人體會到了 AI 圖片生成技術(shù)的強(qiáng)大和美好。最尖端的 AI 模型,不再是少數(shù)人獨(dú)享的玩具,更多用戶都能夠享受和利用這項(xiàng)技術(shù)。

Stability AI 的口號是 “AI by the people, for the people.”

它能做到嗎?

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多