明敏 克雷西 發(fā)自 凹非寺 量子位 | 公眾號(hào) QbitAIStable Diffusion最強(qiáng)版本,來(lái)了! 
剛剛,SDXL 1.0正式發(fā)布,可免費(fèi)在線試玩。 效果上,無(wú)論是以假亂真的寫實(shí)大片: 
超現(xiàn)實(shí)的熊貓喝啤酒: 
還是賽博朋克漫畫,都非常nice~ 
Stability AI表示,SDXL 1.0能生成更加鮮明準(zhǔn)確的色彩,在對(duì)比度、光線和陰影方面做了增強(qiáng),可生成100萬(wàn)像素的圖像(1024×1024)。 而且還支持在網(wǎng)頁(yè)上直接對(duì)生成圖像進(jìn)行后期編輯。 (有一股和Midjourney、Firefly打擂臺(tái)的味兒了) 網(wǎng)友們已經(jīng)按捺不住上手試玩了~ 和基礎(chǔ)Stable Diffusion相比,SDXL 1.0生成結(jié)果更加準(zhǔn)確和逼真。 
而且官方表示,提示詞也能比之前更簡(jiǎn)單了。 這是因?yàn)镾DXL 1.0的基礎(chǔ)模型參數(shù)量達(dá)到了35億,理解能力更強(qiáng)。 對(duì)比基礎(chǔ)版Stable Diffusion,參數(shù)量只有10億左右。 由此,SDXL 1.0也成為當(dāng)前最大規(guī)模的開放圖像模型之一。官方甚至直接說(shuō)這就是世界上最好的開放圖像模型 。 話不多說(shuō),我們來(lái)上手體驗(yàn)了~ 把馬斯克印在青花瓷上SDXL 1.0在操作上很便捷,直接輸入prompt即可,還能從下面勾選風(fēng)格、尺寸參數(shù)等。 

一次生成默認(rèn)是出4張圖,如果不滿意還可以點(diǎn)下方“加號(hào)”讓它繼續(xù)畫。 
官方介紹說(shuō),現(xiàn)在讓SDXL 1.0生成大作,無(wú)需再加入“杰作”這種提示詞了。 讓它生成一幅日漫風(fēng)格的圖像,畫風(fēng)非常貼合,而且在光影的處理上也更加自然了。 1990s anime low resolution screengrab couple walking away in street at night

或者是一幅風(fēng)景照?也能以假亂真了。 
甚至是讓馬斯克站在中式庭院里,抬頭斜望著天空…… Elon Musk in an ancient Chinese palace

或者是把蘋果收購(gòu)了? 在「WWDC」上,他舉著全新款iPhone向人們展示,身邊還圍滿了記者和粉絲(doge)。 Elon Musk releasing new iPhone at WWDC

除了這些老馬的洋蔥新聞之外,繪畫風(fēng)格的作品效果也不錯(cuò)。 左邊的是齊白石水墨風(fēng)格,而右邊是一幅漫畫。 左:Elon Musk delivering a speech, ink painting, Qi Baishi style 右:Elon Musk comic
除了繪畫,也可以把老馬放進(jìn)我們的元青花。 Elon musk in the shape of Yuan Dynasty Blue and White Porcelain

上面展示的這些「老馬的故事」,用的prompt都比較簡(jiǎn)單。 但從效果并沒(méi)有因?yàn)樘崾驹~簡(jiǎn)單而拉胯,這也與官方的說(shuō)法相印證。 
不過(guò)我們還是想看看,如果用更加復(fù)雜精致的prompt,會(huì)是什么樣子? 我們找到了Midjourney創(chuàng)作的一張老馬在蘇聯(lián)擔(dān)任汽修工人的珍貴照片,重新喂給MJ,讓它生成個(gè)prompt。 
MJ生成了下面這樣的prompt,我們就用它來(lái)測(cè)試SDXL: Elon Musk(這里MJ生成的是a man) standing in a workroom, in the style of industrial machinery aesthetics, deutscher werkbund, uniformly staged images, soviet, light indigo and dark bronze, new american color photography, detailed facial features

風(fēng)格完全符合我們的預(yù)期,細(xì)節(jié)也還不錯(cuò)。 再來(lái)一個(gè)復(fù)雜prompt的圖作為收尾,同樣是MJ根據(jù)此前的作品生成后喂給SDXL。 elon musk eating food with chopsticks, in the style of peter coulson, cross-processing/processed, pinhole photography, herb trimpe, james tissot, transavanguardia, spot metering
左邊是SDXL的作品,右邊是MJ的原版,大家可以對(duì)比一下。 
提示詞同樣支持中文,不過(guò)似乎會(huì)在給出結(jié)果中傾向于國(guó)風(fēng),準(zhǔn)確性可能也會(huì)受到影響。 比如輸入“一只老虎在海邊”后,意外給出了一個(gè)國(guó)風(fēng)妹子。 
效果大家都已經(jīng)看到了,那么SDXL生成圖片的速度如何呢? 對(duì)于免費(fèi)用戶來(lái)說(shuō),時(shí)間主要花費(fèi)在排隊(duì)上了,不過(guò)也不會(huì)等待太久。 在5.5秒的時(shí)間內(nèi),排隊(duì)人數(shù)從160減少到了99。 
除了生成圖像外,SDXL還提供了很多后期編輯功能。 具體來(lái)說(shuō),包括去除背景、細(xì)節(jié)處理、畫幅擴(kuò)增等等。 
這些功能是SDXL所在的Clipdrop平臺(tái)上已有的,而SDXL可以一鍵將生成的圖片傳入對(duì)應(yīng)模塊。 這里我們選擇背景消除功能展示一下,可以看出邊緣的細(xì)節(jié)幾乎沒(méi)有什么破綻。 
目前,SDXL的免費(fèi)使用額度還是比較高的,登錄后每個(gè)賬戶每天可生成400張(需要排隊(duì))。 月付的價(jià)格是9美元每月,年付則相當(dāng)于7美元(約50元人民幣)每月,包含了1500張每天的SDXL額度,且無(wú)需排隊(duì)。 
不過(guò)不同區(qū)域的價(jià)格似乎也有所區(qū)別,比如阿根廷的年付價(jià)格平攤到每月是742比索(約合19.4元人民幣或2.7美元)。 
此外,由于付費(fèi)版本實(shí)際上是Clipdrop平臺(tái)的Pro訂閱,所以也包含了該平臺(tái)的其他功能。 除了Pro賬戶,還有API版本可供開發(fā)者使用(可以訪問(wèn)Stability AI、Amazon等平臺(tái))。 開放圖像模型中的“最大杯”在最新博客中,Stability AI介紹了SDXL 1.0的更多技術(shù)細(xì)節(jié)。 首先,模型在規(guī)模和架構(gòu)上都有了新突破。 它創(chuàng)新性地使用了一個(gè)基礎(chǔ)模型(base model)+一個(gè)細(xì)化模型(refiner model)。 二者的參數(shù)規(guī)模分別為35億和66億。 
這也使得SDXL 1.0成為目前規(guī)模最大的開放圖像模型之一。 Stability AI創(chuàng)始人莫斯塔克(Emad Mostaque)表示,更大規(guī)模的參數(shù)量能讓模型理解更多概念,教會(huì)它更深層次的東西。 同時(shí)在SDXL 0.9版本還進(jìn)行了RLHF強(qiáng)化。 這也是為什么現(xiàn)在SDXL 1.0支持短提示詞,而且能分清紅場(chǎng)(the Red Square)和一個(gè)紅色的廣場(chǎng)(a Red Square)。 
在具體合成過(guò)程中,第一步,基礎(chǔ)模型產(chǎn)生有噪聲的latent,然后由細(xì)化模型進(jìn)行去噪。 其中基礎(chǔ)模型也可以作為獨(dú)立模塊使用。 這兩種模型結(jié)合能生成質(zhì)量更好的圖像,且不需要消耗更多計(jì)算資源。 官方介紹SDXL 1.0可以運(yùn)行在8GB VRAM的消費(fèi)級(jí)GPU上,或者是云端。 除此之外,SDXL 1.0在微調(diào)也有了提升,可以生成自定義LoRAs或者checkpoints。 Stability AI團(tuán)隊(duì)現(xiàn)在也正在構(gòu)建新一代可用于特定任務(wù)的結(jié)構(gòu)、風(fēng)格和組合控件,其中T2I/ControlNet專門用于SDXL。 不過(guò)目前這些功能還處于beta測(cè)試階段,后續(xù)可以關(guān)注官方更新。 
總結(jié)來(lái)說(shuō),文生圖都是一個(gè)逐漸迭代的過(guò)程,SDXL 1.0的目標(biāo)就是讓這個(gè)過(guò)程更加簡(jiǎn)單。 莫斯塔克表示,現(xiàn)在只需要5-10張圖片,就能快速微調(diào)模型。 從用戶反饋中也能看到,相較于Stable Diffusion,SDXL 1.0更能讓大家滿意。 
實(shí)際上,從今年4月以來(lái),Stability AI就發(fā)布了SDXL最早的測(cè)試版。 6月份開始進(jìn)行內(nèi)測(cè),前段時(shí)間發(fā)布了0.9版本,當(dāng)時(shí)就預(yù)告了會(huì)在7月發(fā)布一個(gè)開放版本,即最新的1.0版本。目前相關(guān)代碼權(quán)重已經(jīng)發(fā)布在GitHub上。 而且Stability AI機(jī)器學(xué)習(xí)負(fù)責(zé)人表示,相較于SDXL 0.9,1.0版本降低了對(duì)算力的需求。 感興趣的童鞋快去試玩吧~ 試玩入口: https:///stable-diffusion GitHub: https://github.com/Stability-AI/generative-models 參考鏈接: [1]https:///blog/stable-diffusion-sdxl-1-announcement [2]https:///ai/stability-ai-levels-up-image-generation-launch-new-stable-diffusion-base-model/ [3]https:///2023/07/26/stability-ai-releases-its-latest-image-generating-model-stable-diffusion-xl-1-0/ 8月9日,量子位將在北京線下舉辦行業(yè)沙龍「AIGC時(shí)代的算力基石」,誠(chéng)邀算力產(chǎn)業(yè)相關(guān)企業(yè)報(bào)名參與~
點(diǎn)擊圖片了解招募詳情,企業(yè)報(bào)名可聯(lián)系活動(dòng)負(fù)責(zé)人微信iris_wang17,備注企業(yè)-姓名。 點(diǎn)這里??關(guān)注我,記得標(biāo)星哦~
|