日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

AI作畫的業(yè)界天花板被我找到了,AIGC模型揭秘 | 昆侖萬(wàn)維

 陳喻 2022-12-19 發(fā)布于福建

一、前景

1、AI和AIGC的關(guān)系

人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。

AIGC是繼 UGC、PGC 之后新型利用AI技術(shù)自動(dòng)生成內(nèi)容的生產(chǎn)方式。

img

2、AIGC的市場(chǎng)目前分類有哪些

目前市場(chǎng)上AIGC一般可分為文本類、代碼類、繪畫類等等,那目前市場(chǎng)上有哪些公司在AIGC的繪畫和文本和代碼這些方向做得非常頂尖水平呢?當(dāng)然有,那就是昆侖萬(wàn)維,讓我們看下他們的AIGC能力怎么樣。

二、昆侖萬(wàn)維的AI作畫簡(jiǎn)單體驗(yàn)

? 電腦PC端體驗(yàn)地址:https://sky-paint./index.html#/

? 都讓我們也可以用小程序,功能和PC效果一樣。

? 小程序:天工巧繪SkyPaint

1、使用系統(tǒng)自帶的關(guān)鍵字繪制

在主頁(yè),我們可以直接明了的看到 “生成畫作”按鈕,我們選一個(gè)“童話時(shí)間 白雪皚皚 圣誕節(jié)”的主題來(lái)進(jìn)行AI繪制。

img

圖片生成中

img

效果如下:

img

出現(xiàn)了4張圣誕節(jié)圖片,非常清晰、操作也非常簡(jiǎn)單,最關(guān)鍵的是生成圖片速度非???#xff0c;非常絲滑,一點(diǎn)也不卡,直接驚艷到我了。

2、輸入中文關(guān)鍵字繪制

我們輸入“水天一色”這4個(gè)字,繪制效果如下。

img

3、輸入英文關(guān)鍵字繪制

我們輸入"red sky”英文,繪制效果如下。

img

小結(jié):從體驗(yàn)上講,生成圖片的速度非???#xff0c;并且能很好的支持中英雙語(yǔ)提示詞輸入實(shí)現(xiàn)文字生成圖像。

三、昆侖萬(wàn)維的AI作畫的核心競(jìng)爭(zhēng)力

1、基于Stable Diffusion 模型

Model:Latent Diffusion

Paper:High-Resolution Image Synthesis with Latent Diffusion Models

訓(xùn)練集:LAION-high-resolution 和 LAION-Aesthetics

模型結(jié)構(gòu)圖:

img

模型原理

img

模型訓(xùn)練

訓(xùn)練目標(biāo):一步步對(duì)隨機(jī)的高斯噪聲降噪(denoise)

img

優(yōu)勢(shì):Latent diffusion 之所以是 “l(fā)atent”,是因?yàn)槟P褪窃诘途S的潛空間(latent space)上進(jìn)行擴(kuò)散過(guò)程,而不是在實(shí)際的像素空間,從而降低了內(nèi)存消耗和計(jì)算復(fù)雜度(比如輸入shape是(3,512,512),下采樣因子是8,潛空間中變成了(3,64,64),節(jié)省了8×8=64倍的內(nèi)存)。訓(xùn)練完之后的模型就能把一張圖表示成一個(gè)低維的潛特征。

模型推理

如圖(假設(shè)batch size是1),用戶輸入的 prompt 被 CLIP Text encoder 編碼為 77×768 的潛特征,隨機(jī)噪聲被表示成 64×64 的潛特征;然后 U-Net 以 prompt 的特征為條件,逐步迭代計(jì)算。U-Net 輸出的噪聲殘差,會(huì)通過(guò)調(diào)度算法(scheduler algorithm),根據(jù)先前的噪聲表示和預(yù)測(cè)的噪聲殘差,計(jì)算最終去噪的圖像潛表示。Stable Diffusion 建議的調(diào)度算法有三種:

PNDM scheduler(Pseudo Numerical Methods for Diffusion Models on Manifolds,默認(rèn))

DDIM scheduler

K-LMS scheduler

得到圖像潛表示后,就可以送到 VAE 的 decoder 解碼成圖像了。

img

2、Stable Diffusion 算法模型的絕對(duì)優(yōu)勢(shì)在哪里?

· Stable Diffsuion能壓縮率更高,清晰度超越JPEG等算法。

· 與純粹基于transformer的方法相比,本文方法更適合高維數(shù)據(jù);還可以高效地應(yīng)用于百萬(wàn)像素圖像的高分辨率合成。

· 顯著降低計(jì)算成本,在多個(gè)任務(wù)(無(wú)條件圖像合成、inpainting、超分辨率)和數(shù)據(jù)集上實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能。與基于像素的擴(kuò)散方法相比,顯著降低了推理成本。

· 與之前的工作(同時(shí)學(xué)習(xí)編碼器/解碼器架構(gòu)和score-based的先驗(yàn))相比,方法不需要對(duì)重構(gòu)和生成能力進(jìn)行精確的權(quán)衡。這確保了僅需非常少的潛空間正則化下,即可有較合理的重建效果。

· 對(duì)于超分辨率、圖像修復(fù)和語(yǔ)義合成等條件密集輸入型的任務(wù),模型能以卷積的方式應(yīng)用,并輸出高達(dá)1024分辨率的圖像。

· 基于交叉注意力的通用條件機(jī)制,實(shí)現(xiàn)了多模態(tài)訓(xùn)練。用它來(lái)訓(xùn)練類條件模型、文本到圖像模型和布局到圖像模型。

· Stable Diffsuion制作圖片速度非???。

總之只需訓(xùn)練一次通用的自動(dòng)編碼階段,就可以用于多次DM訓(xùn)練或探索可能完全不同的任務(wù),比如各種圖像到圖像、文本到圖像任務(wù)。對(duì)于后者,設(shè)計(jì)了一個(gè)將transformers連接到DM的UNet骨干的結(jié)構(gòu),并支持任意類型的基于token的條件機(jī)制,就像有人已經(jīng)投入了上百萬(wàn)的資金幫你訓(xùn)練了一個(gè),你又何必重新花錢訓(xùn)練一個(gè)壓縮模型呢?

3、昆侖萬(wàn)維在AI繪畫上的其它技術(shù)優(yōu)勢(shì)

1)、在增加中文提示詞輸入能力的同時(shí)兼容原版stable_diffusion的英文提示詞模型,之前用戶積累的英文提示詞手冊(cè)依然可以在我們的模型上使用

2)、使用1.5億級(jí)別的平行語(yǔ)料優(yōu)化提示詞模型實(shí)現(xiàn)中英文對(duì)照,不僅涉及翻譯任務(wù)語(yǔ)料,還包括了用戶使用頻率高的提示詞中英語(yǔ)料,古詩(shī)詞中英語(yǔ)料,字幕語(yǔ)料,百科語(yǔ)料,圖片文字描述語(yǔ)料等多場(chǎng)景多任務(wù)的海量語(yǔ)料集合

3)、 訓(xùn)練時(shí)采用模型蒸餾方案和雙語(yǔ)對(duì)齊方案,使用教師模型對(duì)學(xué)生模型蒸餾的同時(shí)輔以解碼器語(yǔ)言對(duì)齊任務(wù)輔助模型訓(xùn)練"

我們可以看下文字生成圖片模型指標(biāo)評(píng)估數(shù)據(jù)

評(píng)估背景:

  1. 評(píng)估benchmark:采用Chinese-CLIP(CN_CLIP),先根據(jù)模型的encoder得到text和image的embedding,再經(jīng)過(guò)統(tǒng)一的KNN檢索,Recall,從而計(jì)算出檢索任務(wù)的Recall@1/5/10和mean recall(Recall@1/5/10的平均數(shù)),得到如上結(jié)果

  2. 評(píng)估數(shù)據(jù)集:Flickr30K-CN的test數(shù)據(jù)集

  3. 采用同級(jí)別image encoder模型:ViT-L/14"

img

未來(lái)的模型優(yōu)化

為了讓體驗(yàn)和算法模型變得更加強(qiáng)大,后續(xù)我們會(huì)針對(duì)下面4點(diǎn)去完善,希望能保持業(yè)界最高端水平。

· 更多語(yǔ)言的提示詞輸入支持

· 更強(qiáng)大的語(yǔ)言生成模型指導(dǎo)圖像生成

· 風(fēng)格更加多樣,增加更多藝術(shù)風(fēng)格的支持

· 支持用戶對(duì)生成的圖像進(jìn)行二次提示詞編輯圖像功能

五、昆侖萬(wàn)維的文本和代碼創(chuàng)造

1、昆侖萬(wàn)維的文本創(chuàng)造

1)、基于GTP-3模型

img

昆侖萬(wàn)維模型針對(duì)中文領(lǐng)域構(gòu)建了千億級(jí)別的高質(zhì)量數(shù)據(jù)集,通過(guò)高性能 a100-GPU 集群訓(xùn)練得到了百億

參數(shù)量的 GTP-3 生成模型,其幾乎可以用于任何涉及理解或生成自然語(yǔ)言或代碼的任務(wù),同時(shí)提供了一

系列具有不同參數(shù)級(jí)別的模型,根據(jù)同任務(wù)進(jìn)行適配,同時(shí),也可以微調(diào)模型的得到適合需求的生成模

型。

文本模型指標(biāo)評(píng)估

img

2)、GTP-3模型的絕對(duì)優(yōu)勢(shì)在哪里?

· GPT-3模型像人類一樣對(duì)詞語(yǔ)做出自己的理解

· GPT-3模型根據(jù)用戶的喜好創(chuàng)作文學(xué)作品

· GPT-3模型根據(jù)用戶的需求編寫代碼

· GPT-3比GPT-2有更好的文字質(zhì)量,比GPT-2功能更加強(qiáng)大

· GPT-3模型可以進(jìn)行創(chuàng)造性寫作,展示了詩(shī)歌,對(duì)話文體,雙關(guān)語(yǔ)使用,文學(xué)模仿和小說(shuō)是其它模型不可比擬的

· GPT-3模型不是以傳統(tǒng)的方式來(lái)使用已經(jīng)存在的文本進(jìn)行訓(xùn)練從而模仿文本,而可以通過(guò)對(duì)話方式告訴GPT-3用戶想要什么樣的內(nèi)容。

總之通過(guò)了大部分課程的寫作測(cè)試,而且僅僅需要 3-20 分鐘,并且其中大部分時(shí)間用于對(duì)文本的輸出長(zhǎng)度和重復(fù)文本進(jìn)行編輯。模型擁有多樣的下游能力,包括續(xù)寫,對(duì)話,中英翻譯,內(nèi)容風(fēng)格生成,推理,詩(shī)詞對(duì)聯(lián)等。并在各項(xiàng)專業(yè)性領(lǐng)域的任務(wù)中(例如分類,匹配,填空,識(shí)別,識(shí)別)表現(xiàn)突出,與現(xiàn)有大模型的比試中排列前茅。

3)、昆侖萬(wàn)維豐富的使用場(chǎng)景分類

我們可以點(diǎn)擊這個(gè)這里體驗(yàn):https://openapi./index.html#/examplesIndex

img

支持多種語(yǔ)言,這里我們使用 “內(nèi)容續(xù)寫” 使用下面的接口請(qǐng)求就行了,使用非常方便。

JSON{ “model_version”: “模型版本”, “prompt”: “寫一篇小文章。\n今天的天氣不錯(cuò),我的心情”, “param”: { “generate_length”: 500, “top_p”: 0.9, “top_k”: 50, “repetition_penalty”: 1.3, “l(fā)ength_penalty”: 1, “min_len”: 10, “temperature”: 1, “end_words”: [ “[EOS]” ] }}

2、昆侖萬(wàn)維的代碼創(chuàng)造

我們可以點(diǎn)擊下面的地址進(jìn)行體驗(yàn)

https://sky-code./index.html#/

1)、Sky-cod3 代碼生成工具介紹

昆侖萬(wàn)維開(kāi)發(fā)了全球第一款多語(yǔ)言開(kāi)源編程大模型 Sky-code 代碼生成工具,其支持各種主流編程語(yǔ)言,包括 java 、 javascript 、 c 、 c++ 、 python 、 go 和 shell 等編程語(yǔ)言,可以幫助開(kāi)發(fā)人員更快更好的編碼,甚至模型每秒可以輸出百字以上的代碼量,并且 Sky-code模型的代碼質(zhì)量非常高,下表對(duì)比了 Sky-code 模型與其他代碼生成模型的性能:

img

輕松上手

我們可以把sky-code安裝到各個(gè)代碼平臺(tái)的編譯器里面去,通過(guò)插件方式進(jìn)行擴(kuò)展,比如Visual Studio Code等。

img

2)、Sky-code的絕對(duì)優(yōu)勢(shì)

Sky-code 是 SingularityAI 研發(fā)的一款A(yù)I代碼生成工具,支持各種主流編程語(yǔ)言,助力開(kāi)發(fā)人員更快更好的編碼。Sky-code 可以直接集成到編輯器中,無(wú)縫銜接在開(kāi)發(fā)環(huán)境,在鍵入代碼的同時(shí),智能高效補(bǔ)全代碼,提升工作效率,節(jié)省開(kāi)發(fā)時(shí)間。 Sky-code 目前已經(jīng)集成在了 Visual Studio Code 中,未來(lái)會(huì)支持更多平臺(tái)和工具,如 Neovim、JetBrains IDE、Visual Studio 等。致力于為開(kāi)發(fā)者解決瑣碎的、重復(fù)性的代碼工作,從而專注于更高價(jià)值的研發(fā)工作,這是其它工具不可代替的。

六、總結(jié)

通過(guò)上面的介紹,我們知道昆侖萬(wàn)維的AIGC無(wú)論是繪畫還是文本還是代碼生成,都擁有著非常強(qiáng)大和快而精準(zhǔn)的算法模型,同時(shí)支持多語(yǔ)言進(jìn)行繪畫、和文本以及代碼處理,簡(jiǎn)直就是業(yè)界的天花板, 強(qiáng)烈推薦大家使用。

昆侖天工開(kāi)源地址:

Github https://github.com/SkyWorkAIGC

Huggingface https:///SkyWork

相關(guān)網(wǎng)站:
天工巧繪SkyPaint:
https://sky-paint.
天工智碼SkyCode:
https://sky-code.
天工妙筆SkyText:
https://openapi.

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多