日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

一文看懂勢不可擋的AIGC和多模態(tài)大模型!|《追AI的人》第27期直播回放

 奧莉芙小異 2023-11-25 發(fā)布于江西

直播回顧

《追AI的人》系列直播第27期邀請(qǐng)了阿里巴巴人工智能治理與可持續(xù)發(fā)展研究中心(AAIG)圖片視覺大模型與視覺AIGC安全算法負(fù)責(zé)人洪海文分享《多模態(tài)大模型的發(fā)展與攻防一體》。

以下為直播的文字回放,共計(jì)19596字。

??《追AI的人》往期直播視頻回放觀看??B站關(guān)注:AAIG課代表

圖片直播簡介回顧:
多模態(tài)大模型如何看懂《長安三萬里》?解密情商智商俱佳多模態(tài)大模型的發(fā)展與攻防一體!《追AI的人》第27期來咯!
圖片

 洪 海 文

圖片視覺大模型與視覺AIGC安全算法負(fù)責(zé)人。浙大計(jì)算機(jī)碩士,在ACMMM,ICCV,EMNLP,ACL,ICME等頂會(huì)上發(fā)表多篇文章。自研多模態(tài)亂序大模型,在阿里風(fēng)控體系中支持幾十億級(jí)別業(yè)務(wù)流量中的安全,也應(yīng)用于阿里各大視覺AIGC產(chǎn)品的安全可控。

分享大綱

?? 不許在腦海里想一頭粉紅色的大象,你想的是什么?聊聊多模態(tài)是什么?
?? 你是怎么看懂《長安三萬里》的?聊聊多模態(tài)大模型在識(shí)別側(cè)的發(fā)展
?? 請(qǐng)你畫一頭粉紅色的大象?聊聊多模態(tài)大模型在生成側(cè)的發(fā)展
?? 最強(qiáng)之矛也是最強(qiáng)之盾,多模態(tài)大模型的攻防一體與實(shí)際應(yīng)用
?? 如何讓ChatGPT長出眼睛和耳朵?聊聊多模態(tài)ChatGPT的學(xué)術(shù)難點(diǎn)與展望



首先,我們來聊一聊多模態(tài)大模型的發(fā)展以及其在應(yīng)用中的作用。通過多模態(tài)技術(shù),我們可以通過不同的感知方式(如視覺、聽覺、觸覺)對(duì)信息進(jìn)行獲取和處理。這種技術(shù)在識(shí)別側(cè)和生成側(cè)上都有不斷發(fā)展。在識(shí)別側(cè)方面,多模態(tài)技術(shù)已經(jīng)得到了廣泛的應(yīng)用和發(fā)展。通過將不同感知方式的信息進(jìn)行融合,多模態(tài)技術(shù)可以更加準(zhǔn)確地進(jìn)行信息識(shí)別和分析,為各種應(yīng)用提供更精確和高效的解決方案。

在生成側(cè)方面,多模態(tài)技術(shù)的發(fā)展也為各種應(yīng)用提供了更精確和高效的解決方案。利用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等技術(shù),我們可以更全面和深入地理解和分析多種感知方式的信息。

在實(shí)際的業(yè)務(wù)場景中,多模態(tài)技術(shù)可以為整個(gè)阿里集團(tuán)提供安全可靠的支撐。無論是處理海量流量還是其他方面的應(yīng)用,多模態(tài)技術(shù)都能夠?yàn)榘⒗锛瘓F(tuán)提供高效和可靠的解決方案。

另外,我們還可以關(guān)注像多模態(tài)ChatGPT這樣的多模態(tài)解決方案。目前的學(xué)術(shù)研究希望讓ChatGPT等大語言模型,可以同時(shí)理解聲音和圖片等多種形式,但是這些目前仍在探索中,算是熱門的學(xué)術(shù)難點(diǎn)。

圖片

???我們來思考一個(gè)問題:如果我告訴你不要在腦海中想象一頭粉紅色的大象,你會(huì)想到什么?

圖片

這其實(shí)是一個(gè)非常著名的問題,如果你看過電影《盜夢空間》,可能會(huì)在其中看到這樣的場景。一位日本的大佬提出了一個(gè)問題,即是否可以將一個(gè)想法植入到某人的腦海中。盜夢師回應(yīng)他說,假如我讓你不要在腦海中想到一頭粉紅色的大象,你會(huì)想到什么?日本大佬回答,想到了大象。這是因?yàn)樾睦韺W(xué)上存在一種叫做“粉色大象效應(yīng)”的原理,當(dāng)我們被告知不要想到某個(gè)對(duì)象時(shí),我們反而會(huì)越來越想到它,就像失眠時(shí)越想睡覺反而越睡不著,這是一種叛逆心理。

圖片

那么,假如我真的告訴你不要想一頭粉紅色的大象,而你的腦海中確實(shí)想到了粉紅色的大象,那么你的腦海中實(shí)際上在想什么?是幾個(gè)字描述的一頭粉紅色的大象嗎?是這些離散的文字在你的腦海中飄動(dòng),還是你真的在想象出一幅大致的大象圖像?需要注意的是,這里有一個(gè)重要概念,即“大概”。對(duì)于理解多模態(tài)或者未來的AI繪圖來說,這個(gè)概念非常重要。你可能在腦海中有一個(gè)模糊的粉紅色大象的概念,但你不知道大象具體有幾根腳趾,是否有毛,尾巴是不是卷曲等等細(xì)節(jié),這些你都不了解。

當(dāng)我問你這個(gè)問題時(shí),你可能才會(huì)意識(shí)到這些細(xì)節(jié)是模糊的,在思考的過程中,你在不斷地細(xì)化細(xì)節(jié)。這就像AI作圖,你一開始只有一個(gè)視覺概念,但在這個(gè)過程中,你不斷優(yōu)化細(xì)節(jié),才能得到一個(gè)非常詳細(xì)的圖像。

圖片

人類的認(rèn)知過程實(shí)際上也是類似的。當(dāng)我們?nèi)ダ斫庖粋€(gè)概念時(shí),最開始可能只是文字描述,比如要理解大象,你在視覺模態(tài)上能看到這頭粉紅色的大象,并且基于過去的書本或個(gè)人經(jīng)歷,你知道大象是一種長鼻子的巨型動(dòng)物。否則的話,你看到這幅圖,你也不知道這是大象。你可能想象得到大象的叫聲并以此作為鑒別條件之一,而大象的氣味可能是動(dòng)物園里大象的體味,再加上一些大象糞便的味道。
所有這些的組合都最終讓你知道大象是什么。你確認(rèn)它是一頭大象,而不是一條狗,因?yàn)樗艽?,鼻子很長。你知道大象的長相、氣味,可能通過書本或自己的實(shí)際經(jīng)歷獲得各種信息。所有這些信息最終融合在一起形成了大象的概念。因此,人類的認(rèn)知一直都是跨模態(tài)和多模態(tài)的。

圖片

那么,如果讓計(jì)算機(jī)或人工智能來完成這個(gè)任務(wù),它能夠成功嗎?其實(shí)他也能完成,但是他目前完成的還沒有人類那么好。對(duì)于人工智能來說,一切都是數(shù)據(jù)。比如,視覺數(shù)據(jù)是由一大堆像素組成的,一張圖片就是一大堆像素。

而對(duì)于文本數(shù)據(jù),人工智能會(huì)將其編碼為各種不同的數(shù)字,然后通過這些數(shù)字將文本的知識(shí)真正輸入到計(jì)算機(jī)中。因此,通過多模態(tài)的神經(jīng)網(wǎng)絡(luò)或多模態(tài)的深度學(xué)習(xí),我們可以從動(dòng)態(tài)的角度更好地理解大象這個(gè)概念。那么為什么我們需要多模態(tài)的能力呢?你可能會(huì)問,光看到文字或圖片難道不足以理解含義嗎?

圖片

讓我們來看一個(gè)例子:“哇!好喜歡你今天的香水味?!背蹩纯赡軙?huì)覺得這是在夸獎(jiǎng)對(duì)方,因?yàn)槁牭竭@句話可能會(huì)讓人感到開心。
圖片

但實(shí)際上,如果我加上一張臭鼬的圖片,并說“哇!好喜歡你今天香水味”,你可能會(huì)覺得這是在侮辱對(duì)方,這是一種反諷。然而,如果我搭配的是一張玫瑰花的圖片,并說“哇!好喜歡你今天香水味”,你可能會(huì)理解為我在夸獎(jiǎng)對(duì)方像一朵花一樣香。

因此,在同樣的一句話中,通過不同的圖片搭配,整個(gè)含義可以完全不同。要完全理解一個(gè)東西,你必須處理多模態(tài)的信息,以便更全面地復(fù)現(xiàn)整個(gè)過程。

圖片

學(xué)術(shù)界也有專門研究多模態(tài)領(lǐng)域的人。其中一個(gè)有代表性的數(shù)據(jù)集叫做Hateful Memes數(shù)據(jù)集,由Facebook團(tuán)隊(duì)創(chuàng)建,當(dāng)然現(xiàn)在這個(gè)Facebook已經(jīng)改名Meta。他們需要用AI來判斷當(dāng)前的表情包是否有惡意,比如辱罵、諷刺等。例如,右下角的由臭鼬與玫瑰花組成的表情包,根據(jù)不同的圖片和文字組合,表達(dá)的內(nèi)容完全不同。

這個(gè)數(shù)據(jù)集收集了各種類型的表情包樣本,總共有幾千個(gè)樣本。然后,讓AI去識(shí)別哪些是正面的、哪些是負(fù)面的、哪些是積極的、哪些是消極的。在左下角紅框中,上面的部分是用單模態(tài)方式識(shí)別,只看文本或圖片,準(zhǔn)確率大約為52%左右。而下面的部分是多模態(tài)模型,準(zhǔn)確率基本上可以達(dá)到61-64%。因此,在多模態(tài)的問題上,我們必須使用多模態(tài)方式才能真正解決它。

圖片

接下來,來說一下多模態(tài)的概念,以了解多模態(tài)大型模型在識(shí)別上的發(fā)展和工作過程。

圖片

通過長安三萬里這部電影,特別是其中的一段片段,我們可以深刻地理解多模態(tài)的應(yīng)用。這一段片段復(fù)現(xiàn)了李白創(chuàng)作《將進(jìn)酒》的經(jīng)典場面,而通過動(dòng)畫的場景營造、人物背景介紹和聲效配音演員的功力,相比純粹的讀一首詩的文本,觀眾們對(duì)這首詩的理解大大深化了。整個(gè)場景被多模態(tài)化后,這段片段成為了這部電影中最受歡迎的片段之一,并在各個(gè)直播平臺(tái)和短視頻平臺(tái)上被剪輯傳播。

要理解這段片段,我們需要識(shí)別李白的形象,識(shí)別語音中的情感和節(jié)奏感,還需要通過OCR技術(shù)在圖片中識(shí)別出文字。這些元素的多模態(tài)結(jié)合,使得這段片段給人的印象非常深刻。所以,我們需要以某種方式對(duì)各種多模態(tài)信息進(jìn)行建模,并將其融合到我們的認(rèn)知中,然后根據(jù)這些信息做出判斷,從而理解電影或片段。

圖片
圖片

行為時(shí)代

圖片

多模態(tài)的認(rèn)知過程經(jīng)歷了長時(shí)間的發(fā)展。在大約1970年左右,人們開始在生物學(xué)和心理學(xué)領(lǐng)域研究多模態(tài)。例如,英國的心理學(xué)家進(jìn)行了一項(xiàng)有趣的實(shí)驗(yàn),證明聽覺在很大程度上受到視覺的影響。例如,當(dāng)你看著我說話時(shí),你可能會(huì)根據(jù)我的唇形來大致猜測我在說什么,而唇形可能會(huì)干擾你對(duì)語音的判斷。

舉個(gè)例子,假設(shè)有一部電影名字叫做《Elephant Juice》。如果你只根據(jù)唇形來判斷的話,如果你旁邊有異性,你可能會(huì)向他們低聲說'Elephant Juice',而如果你說得比較輕,他們可能會(huì)誤解,以為你在說'I love you'之類的話。因?yàn)橥ㄟ^唇形感受,'Elephant Juice'和'I love you'非常相似。

圖片

所以,這部電影也在提醒我們這個(gè)問題,即像'Elephant Juice'這樣的詞語時(shí),當(dāng)無聲地對(duì)著旁邊的異性念出'Elephant Juice'時(shí),大多數(shù)人都會(huì)誤認(rèn)為是'I love you'的發(fā)音。這是因?yàn)?I love you'這個(gè)文本比較常見,而'Elephant Juice'這個(gè)搭配比較奇怪。在這個(gè)過程中,唇形作為一種視覺信息對(duì)語音和文字的理解也會(huì)產(chǎn)生影響。換句話說,多模態(tài)的融合并不一定只有優(yōu)勢,它也可能會(huì)產(chǎn)生各種模態(tài)之間的干擾。

圖片
圖片

計(jì)算時(shí)代

圖片

進(jìn)入計(jì)算時(shí)代后,我們需要將這些多模態(tài)信息數(shù)字化。例如,聲音可以轉(zhuǎn)化為信號(hào),而在聲音信號(hào)的識(shí)別準(zhǔn)確度方面,逐步引入視覺信號(hào)可以大幅提高識(shí)別準(zhǔn)確率。在交互時(shí)代,像CMU等著名大學(xué)開始嘗試數(shù)字視頻庫等多模態(tài)計(jì)算項(xiàng)目。這個(gè)時(shí)代是一個(gè)交互時(shí)代,人機(jī)交互越來越常見,例如與Siri的交互,記錄會(huì)議錄音并同步音視頻進(jìn)行轉(zhuǎn)錄或注釋,以及使用多傳感器和多模態(tài)信號(hào)進(jìn)行面對(duì)面交互。

圖片
圖片

交互時(shí)代

圖片

在交互時(shí)代,我們主要是進(jìn)行信號(hào)處理,將多模態(tài)信號(hào)融合在一起,以完成單模態(tài)無法完成的任務(wù)。然而,真正實(shí)現(xiàn)多模態(tài)智能化的是深度學(xué)習(xí)時(shí)代,即從2010年后或2012年后開始的時(shí)代。在這個(gè)時(shí)代,大規(guī)模的高質(zhì)量標(biāo)準(zhǔn)數(shù)據(jù)集如ImageNet、強(qiáng)大的GPU計(jì)算能力以及視覺側(cè)和文本側(cè)的特征提取器的發(fā)展,是推動(dòng)多模態(tài)深度學(xué)習(xí)的核心。

圖片
圖片

深度學(xué)習(xí)時(shí)代

圖片

在深度學(xué)習(xí)時(shí)代,多模態(tài)的發(fā)展非常迅速,催生出各種文檔識(shí)別、圖像搜索、AI生成等與多模態(tài)有關(guān)的應(yīng)用,如在淘寶上使用的圖搜功能,搜同款等。多模態(tài)作為一門融合性學(xué)科,需要對(duì)文本、圖片、聲音等各種模態(tài)進(jìn)行特征提取。這些模態(tài)本身是一些雜亂的信息,需要有序地建模到計(jì)算機(jī)便于接受的類型。例如,圖片是由像素組成的,每個(gè)像素的數(shù)字對(duì)應(yīng)不同的顏色。

因此,在計(jì)算機(jī)中,圖片可以轉(zhuǎn)化為一串?dāng)?shù)字。對(duì)于文本也是一樣,需要將文字轉(zhuǎn)化為計(jì)算機(jī)能夠理解的數(shù)字編碼。音頻和文本,它們也有些相似之處,都是由一段段音節(jié)或詞匯組成的,需要將它們進(jìn)行數(shù)字化編碼。數(shù)字化編碼之后,我們需要進(jìn)行特征提取。例如,當(dāng)人類看一張圖片時(shí),不會(huì)從像素級(jí)別逐個(gè)看過去,而是掃一眼,能夠大概看出這是一個(gè)杯子里裝著紅色的飲料,然后再去看細(xì)節(jié)部分。因此,在這個(gè)過程中,我們需要控制自己的注意力,也就是控制我們的感受野,以及將一串?dāng)?shù)字變成計(jì)算機(jī)或人工智能能夠理解的矩陣向量,稱為特征向量,或者表征。

圖片

表征是文本模態(tài)的一個(gè)重要方案。深度學(xué)習(xí)爆發(fā)初期比較主流的是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它與原始的神經(jīng)網(wǎng)絡(luò)不同之處在于其輸入和輸出都是一系列數(shù)據(jù)。左邊的神經(jīng)網(wǎng)絡(luò)是最常見的,一個(gè)輸入對(duì)應(yīng)一個(gè)輸出,輸出接近計(jì)算機(jī)能理解的數(shù)字。

右邊的循環(huán)神經(jīng)網(wǎng)絡(luò)則不同。輸入進(jìn)循環(huán)神經(jīng)網(wǎng)絡(luò)的比如是'阿里巴巴'這四個(gè)字,首先會(huì)產(chǎn)生一個(gè)特征,然后與后面的字依次合并,再生成下一個(gè)特征。比如“阿里”這個(gè)特征會(huì)與'巴'這個(gè)字合并,再產(chǎn)生一個(gè)特征。這個(gè)特征會(huì)依賴于前面的文本,而不會(huì)把'里'這個(gè)字單獨(dú)拿出來,就像人們在理解一件事情時(shí)也會(huì)一樣,單獨(dú)拿出'里'和'巴'這兩個(gè)詞,你根本不知道它們的意思。但是如果我說'阿里巴巴',你可能就會(huì)明白了,這個(gè)詞中的'里'和“巴”本身含義模糊,但是在'阿'后面,我們便能結(jié)合上下文理解其意思。

所以如何用神經(jīng)網(wǎng)絡(luò)在建模這種人類能夠理解的信息,一直是AI領(lǐng)域追求的目標(biāo)。循環(huán)神經(jīng)網(wǎng)絡(luò)能夠很好地對(duì)這種時(shí)序信息進(jìn)行建模,當(dāng)然并非完美,但是在當(dāng)時(shí)是一個(gè)比較好的方案。然而,這個(gè)方案也存在許多問題,例如梯度不穩(wěn)定性,以及一旦序列依賴關(guān)系變得很長時(shí),比如'君不見,黃河之水天上來'到'五花馬,千金裘,呼兒將出換美酒,與爾同銷萬古愁',中間有很多字,到了后面建模'愁'這個(gè)字時(shí),你會(huì)發(fā)現(xiàn)前面的'君不見'已經(jīng)被沖淡了,因?yàn)檫@是一種加權(quán)的過程,越靠近'君不見'這三個(gè)字的權(quán)重會(huì)更大。

圖片

在建模長文本信息的過程中,存在一些依賴關(guān)系需要處理,比如在偵探小說中,如果最后偵探說的是“兇手就是你”,這個(gè)“你”指代的兇手名字在前文很前面,讀者可能就不知道這個(gè)指代的是誰。

為了解決這個(gè)問題,學(xué)界提出了一個(gè)重要的模型叫做LSTM,它能夠處理長依賴和短依賴的長時(shí)記憶和短時(shí)記憶。LSTM設(shè)計(jì)了許多遺忘門,能夠決定哪些信息需要被遺忘,哪些需要被記憶。在長短時(shí)記憶的基礎(chǔ)上,整個(gè)依賴關(guān)系變得更長,從而使得建模變得更加有序。
圖片

最終,像Transform網(wǎng)絡(luò)這樣的模型也出現(xiàn)了,它是目前NLP中最受關(guān)注的網(wǎng)絡(luò)之一。在AI領(lǐng)域,大家對(duì)于Transformer的認(rèn)可度不斷提升。Transformer不同于之前的LSTM或RNN,它直接將文本信息進(jìn)行鋪平,將每一個(gè)詞都當(dāng)作一個(gè)并列的元素,根據(jù)輕重緩急來選擇性地處理。這種處理方式類似于人類閱讀一句話時(shí)的過程,我們會(huì)關(guān)注一些重要的詞,而忽略一些串場的詞匯。

為了捕捉到重要的信息,Transformer引入了注意力機(jī)制。在經(jīng)過訓(xùn)練后,注意力機(jī)制能夠清晰地關(guān)注文本中比較值得被關(guān)注的內(nèi)容。一旦這些內(nèi)容出現(xiàn),注意力機(jī)制會(huì)賦予它們足夠高的權(quán)重,從而將關(guān)鍵信息融合在一起。

另外,Transformer還能夠更好地解決依賴問題。以之前的'阿里巴巴'為例,如果只是通過RNN等方式建立依賴關(guān)系,那么'阿'和'里'之間的時(shí)間差就會(huì)很大。但是通過Transformer的注意力機(jī)制,實(shí)際上將這個(gè)持續(xù)的工作過程轉(zhuǎn)化為了一個(gè)空間序列的過程,并通過位置編碼將'阿'和'里'這兩個(gè)詞匯關(guān)聯(lián)起來。

圖片

視覺側(cè)的發(fā)展也是一波三折,對(duì)深度卷積網(wǎng)絡(luò)進(jìn)行研究后,人們發(fā)現(xiàn)視覺理解不是像素級(jí)別的處理,而是局部區(qū)域的處理。我們在看圖片時(shí)也是先處理局部區(qū)域,然后進(jìn)行層層抽象,最終完成語義理解和建模。

圖片

因此,在整個(gè)卷積網(wǎng)絡(luò)中,我們可以看到層層抽象的過程,從原圖到高維的語義特征。深度卷積網(wǎng)絡(luò)在視覺領(lǐng)域中非常好用,不僅可以用于分類和相似度比對(duì),還可以完成更加復(fù)雜的任務(wù)。
在谷歌團(tuán)隊(duì)中,為了使Transformer可以處理圖片,他們將圖片切成小塊,并用位置編碼對(duì)每個(gè)小塊的位置進(jìn)行編碼,從而讓模型知道每個(gè)小塊的位置關(guān)系。位置編碼可以通過各種三角函數(shù)等函數(shù)的方式進(jìn)行編碼,從而實(shí)現(xiàn)對(duì)小塊相對(duì)位置的表達(dá)。ViT(Vision-Transformer)是在Transformer的基礎(chǔ)上進(jìn)行改進(jìn)后的熱門網(wǎng)絡(luò),專門用于計(jì)算機(jī)視覺領(lǐng)域。它的出現(xiàn)效果非常驚艷,在整個(gè)計(jì)算機(jī)視覺領(lǐng)域都大殺四方。

圖片

在Transformer處理文本和視覺之后,多模態(tài)表征的融合才真正進(jìn)入了一個(gè)深水區(qū)。在多模態(tài)表征融合方案中,有分頭突圍、圈外集合的雙流架構(gòu)。其中,分頭突圍方式是指分別對(duì)文本和圖片進(jìn)行特征提取,圈外集合是將它們?nèi)诤显谝黄?。這種方式的好處在于獨(dú)立性強(qiáng),可以擴(kuò)展,也可以靈活地替換其中一個(gè)模態(tài)的特征提取方式。但是,這種方式的問題在于文本和視覺之間的模態(tài)差異性很大,需要進(jìn)行額外的處理。

圖片

為了解決多模態(tài)融合中模態(tài)差異的問題,人們開始考慮使用單流架構(gòu),即以某一種模態(tài)為主,將另一種模態(tài)作為輔助。單流架構(gòu)的特點(diǎn)是集中火力干其中一個(gè)模態(tài),另一個(gè)模態(tài)則是作為輔助的。

例如,VL-BERT就是將圖片的特征切成token,然后將其放入文本流程中處理,這樣人們就感覺只是在處理文本,而圖片只是插進(jìn)來的。雖然多模態(tài)融合已經(jīng)有好幾年的歷史,但是直到2021年之前,人們普遍認(rèn)為多模態(tài)只是計(jì)算機(jī)視覺或文本的附庸,好像沒有產(chǎn)生什么質(zhì)變,只是變得更厲害了一點(diǎn)。這是因?yàn)樵谶^去的多模態(tài)融合方案中,模態(tài)差異性很大,難以實(shí)現(xiàn)真正的融合產(chǎn)生多模態(tài)的獨(dú)有特性。

圖片

近年來,在多模態(tài)領(lǐng)域中,最重要的工作之一是OpenAI的CLIP模型。該模型不僅在多模態(tài)融合方面具有重要意義,還是開啟AIGC時(shí)代的關(guān)鍵之一。在當(dāng)時(shí)看來,CLIP模型是一個(gè)超大規(guī)模的模型,它使用大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練,包括圖片和文本。訓(xùn)練過程中,模型通過圖文對(duì)齊的方式學(xué)習(xí)圖片和文本之間的對(duì)應(yīng)關(guān)系。
CLIP模型有兩個(gè)編碼器,一個(gè)是文本編碼器,另一個(gè)是圖片編碼器。在訓(xùn)練過程中,模型會(huì)對(duì)一批圖文對(duì)進(jìn)行特征提取,然后根據(jù)這些對(duì)應(yīng)關(guān)系形成監(jiān)督信號(hào)。這樣,模型就可以學(xué)習(xí)圖片和文本之間的對(duì)應(yīng)性,從而實(shí)現(xiàn)更好的多模態(tài)表征。
在CLIP模型的預(yù)訓(xùn)練過程中,通過一個(gè)簡單的監(jiān)督方式,即將第一個(gè)文本和第一個(gè)圖片的特征拉近,將第一個(gè)圖片和第二個(gè)文本的特征拉遠(yuǎn)。這個(gè)監(jiān)督方式非常簡單,但卻非常本質(zhì)。在足夠大的數(shù)據(jù)量下,預(yù)訓(xùn)練的任務(wù)可以被設(shè)定得非常簡單,而簡單往往觸及本質(zhì)。CLIP模型通過這個(gè)簡單而本質(zhì)的訓(xùn)練方式,結(jié)合數(shù)億個(gè)圖文組合,訓(xùn)練出一個(gè)極其通用的模型。
以往多模態(tài)模型具有任務(wù)局限性,例如在人臉識(shí)別中,模型只能識(shí)別人臉,而在狗貓分類中,模型只能區(qū)分貓和狗。但是CLIP模型能夠完成對(duì)世間萬物之間的對(duì)比。CLIP模型具有很高的通用性,在這個(gè)模型中,狗和狗的圖片是可以對(duì)應(yīng)起來的,貓和貓的圖片也是可以對(duì)應(yīng)起來的。CLIP模型通過對(duì)互聯(lián)網(wǎng)上的各種數(shù)據(jù)進(jìn)行訓(xùn)練,可以將不同類型的物體分類。在分類時(shí),通過文本和圖片的相似度進(jìn)行對(duì)比,從而確定它屬于哪一類。
圖片
CLIP類型模型的出現(xiàn)引起了許多爭議,其中一個(gè)問題是它在訓(xùn)練時(shí)直接拉取了互聯(lián)網(wǎng)上的各類數(shù)據(jù),這些數(shù)據(jù)中有很多噪音信息,影響其準(zhǔn)確性。為了解決這個(gè)問題,BLIP模型被開發(fā)出來,它通過對(duì)圖文對(duì)進(jìn)行過濾,將不合理的數(shù)據(jù)去掉,使數(shù)據(jù)更干凈。此外,BLIP模型還可以進(jìn)行生成,通過在特征后面接一個(gè)生成器,可以生成一段話來描述特征。
圖片
此外,還有一種名為SAM的模型,它是基于CLIP的結(jié)構(gòu),并做了大量的訓(xùn)練工作,能夠?qū)D片中的各種實(shí)體和背景區(qū)分開來。
圖片
例如,在第三行第二列的圖片中,這個(gè)模型可以將圖片中的不同顏色標(biāo)記分別對(duì)應(yīng)不同的菜品,從而實(shí)現(xiàn)圖片分割。圖片分割的作用在于定位和分類物品。例如,如果商品圖片中大量信息,我們只關(guān)注右下角一個(gè)小小的標(biāo)記,我們可以通過分割將其識(shí)別出來,而不是只關(guān)注整張圖片。
圖片
???在繪制一頭粉紅色大象時(shí),我們需要思考幾個(gè)問題。首先,你需要多少步驟來完成這幅畫?
圖片
在繪制一頭粉紅色大象時(shí),我們需要思考幾個(gè)問題。首先,你需要多少步驟來完成這幅畫?其次,你能畫出來嗎?你是否具備繪畫技巧?當(dāng)我們面臨這樣的命題時(shí),我們首先要理解大象是什么,這是一個(gè)奇怪的概念。我們需要先理解大象是一種長有鼻子的巨大哺乳動(dòng)物,有這個(gè)概念是我們繼續(xù)下去的基礎(chǔ),否則我們對(duì)大象的形象一無所知。
圖片
當(dāng)我們理解了大象這個(gè)概念時(shí),我們需要思考大象長什么樣子。如果我們無法形成一個(gè)清晰的概念,就無法將其表現(xiàn)出來。比如,如果老師讓你畫一個(gè)五彩斑斕的黑,如果你腦海中形成不了這樣的概念,你可能無法完成。因此,我們需要在腦海中明確大象的形象特征,例如有長鼻子,有象牙,有4只腳等等。
但這只是一個(gè)粗略的印象,更精細(xì)的特征需要不斷地清晰化思維中的模糊概念。很多人可能知道大象長什么樣,但真正能將其畫的栩栩如生的人卻很少。在這個(gè)過程中,我們可以思考人工智能需要經(jīng)歷多少步驟。
圖片
剛剛我們提到了CLIP模型,它是引爆了AI視覺的一把金鑰匙。當(dāng)我們讓人工智能去畫一頭粉紅色的大象時(shí),首先它通過文本編碼器理解文本中的內(nèi)容。接著,它通過圖文對(duì)齊中圖像編碼器的監(jiān)督,對(duì)應(yīng)出圖像的特征。
在CLIP中,這兩者是對(duì)應(yīng)的,因?yàn)樗鼈冊诟呔S的語義空間中表示的是相似的東西。然而,CLIP本身并沒有表達(dá)這個(gè)概念的能力,它只是知道這個(gè)概念存在。那么如何將其表達(dá)出來呢?
圖片
我們剛才提到將一個(gè)模糊的概念變成具體的過程,實(shí)際上是剝除腦海中的模糊信息,這個(gè)過程在算法中被稱為解除噪聲。例如,當(dāng)我們描述大象的腳時(shí),我們可能只能看到模糊的粉紅色腳掌,而預(yù)測所覆蓋的部分就是我們要解除的噪聲,這就是Stable Diffusion的基本原理。我們可以使用UNet型的網(wǎng)絡(luò)來預(yù)測圖像中存在的噪聲,并將其去除。這就是將腦海中的大象清晰化的過程,也是Stable Diffusion的基礎(chǔ)原理之一。
在這個(gè)過程中,我們可以使用文本的引導(dǎo)來幫助生成更清晰的圖像。例如,當(dāng)我們輸入“大象”時(shí),我們需要先理解這個(gè)文本,并將其映射到圖像信息。最后,我們可以使用decoder或生成器來生成完整的圖像,例如一幅大象圖像。
圖片
讓我們先來討論一下視覺AI繪畫的發(fā)展。有一幅作品叫做《太空歌劇院》,它是一個(gè)游戲設(shè)計(jì)師參加了美國的數(shù)字藝術(shù)比賽并贏得冠軍的作品。令人驚訝的是,這幅作品實(shí)際上是由AI繪制的。
在奪冠前,設(shè)計(jì)師一直沒有透露這是由AI創(chuàng)作的,但在獲勝后才公開了這一信息。這一事件引起了轟動(dòng),因?yàn)橐郧按蠹覍?duì)于AI繪畫的認(rèn)知僅限于人工智障,而這幅作品的出現(xiàn)改變了人們的看法。
圖片
接下來,我想分享幾張有趣的作品。例如,這兩張圖是由一款名為'Midjourney'的AI繪圖產(chǎn)品繪制的。比如左邊的這張貓咪照片,它的光影和景深非常真實(shí),如果我不告訴你這是由AI繪制的,你可能根本看不出來。

這說明AI繪畫在這個(gè)領(lǐng)域已經(jīng)發(fā)展到了可用的程度。右邊的這張是他們的一張宣傳圖,描繪了一個(gè)男人和一個(gè)女人坐在一個(gè)廢棄的房子中。仔細(xì)觀察它的細(xì)節(jié),比如繩子和周圍的環(huán)境,很難相信這是由AI繪制的,這顯示出AI繪畫在這個(gè)過程中已經(jīng)取得了較大的進(jìn)展。
圖片
另一個(gè)例子是阿里巴巴的通義萬相模型,在安全防控方面我們也一直參與其中。從一開始,通義萬相在繪制方面可能效果并不好,但后來在人體和人臉等明確主體的圖片上,它的效果變得非常出色。
首先是一個(gè)文本生成的例子,我們生成了一個(gè)看起來非常漂亮的徽章,它的內(nèi)容是“虎頭虎腦”,這相當(dāng)于一個(gè)基于文本的創(chuàng)作。第二個(gè)例子是一個(gè)人類的側(cè)臉,如果仔細(xì)觀察它的質(zhì)感和細(xì)節(jié),你會(huì)發(fā)現(xiàn)它的質(zhì)感非常逼真,幾乎可以媲美攝影。AI繪畫已經(jīng)取得了一定的進(jìn)展,比如我在PPT中使用的各種圖形大多都是由AI生成的,但對(duì)于細(xì)節(jié)和質(zhì)感的表達(dá)還有很多需要改進(jìn)的地方。
圖片
第三個(gè)例子是百度的文心一言或者叫文心一格,一個(gè)文生圖的產(chǎn)品。他們畫了一只老虎和一個(gè)人的圖案,都非常出色。在國內(nèi),視覺AI在文生圖方面的技術(shù)水平與國外相比差距不大,但在文生文方面可能存在一定的差距。
圖片
最后,我們來談?wù)勔恍﹪獾囊曈XAIGC產(chǎn)品,比如Stable Diffusion。這些產(chǎn)品在國內(nèi)都很受歡迎,Stable Diffusion社區(qū)的網(wǎng)站Civitai提供了許多不同版本的模型,用戶可以進(jìn)行訓(xùn)練并進(jìn)行微調(diào),比如對(duì)建筑進(jìn)行微調(diào)等。這些微調(diào)可以讓模型產(chǎn)生非常好看的概念圖,比如左邊的建筑圖就非常高大上,右邊則更為棱角分明。
圖片
在視覺AIGC中,還有一些其他的例子,比如畫的戴眼鏡的狗和寫實(shí)的大象,雖然在細(xì)節(jié)上存在一些差距,但整體上看都非常不錯(cuò)。
圖片
還有一輛車,是由Stable Diffusion直接生成的,這輛車不僅好看,而且充滿了未來的幻想和古董車的風(fēng)格。
圖片
那么,為什么Stable Diffusion能夠讓社區(qū)如此完善呢?主要原因在于門檻和成本。Stable Diffusion的成本相對(duì)較低,因此許多用戶都可以在自己的顯卡上部署文生圖模型。由于存在大量的用戶需求,這自然而然地導(dǎo)致了定制化的需求,但重新訓(xùn)練Stable Diffusion模型是非常困難的,因?yàn)樗w積很大。因此,科學(xué)家們提出了LoRA的方法,可以避免為了一個(gè)新的需求就重新訓(xùn)練整個(gè)大模型。這種方法最早是為了給ChatGPT類的大語言模型使用的。
圖片
LoRA基于Stable Diffusion的基礎(chǔ)網(wǎng)絡(luò),可以訓(xùn)練出各種各樣的模型,比如人臉模型、建筑模型和車輛模型等。使用LoRA的過程非常簡單,只需要拍幾張照片,然后在自己的顯卡上進(jìn)行訓(xùn)練,得到一個(gè)對(duì)應(yīng)的詞,比如“帥哥”,然后就可以生成一個(gè)帶有自己臉的帥哥圖像,非常方便。由于使用LoRA非常簡便,因此在AI作圖的社區(qū)中發(fā)展非常頻繁,人們的智慧引領(lǐng)著學(xué)界前進(jìn)。
圖片
Stable Diffusion XL是Stable Diffusion的一個(gè)后續(xù)變體,也是目前在開源世界中表現(xiàn)最好的AI做圖模型之一。與之前的模型相比,SD XL的優(yōu)勢在于它可以在部分圖片中完整地寫出字,而且對(duì)于光影和人物細(xì)節(jié)也能表現(xiàn)得非常真實(shí)。
圖片
整個(gè)模型分為Base和Refiner兩部分,其中Refiner是一個(gè)精細(xì)化模型,可以修復(fù)各種各樣的細(xì)節(jié)問題。這種分工的方式其實(shí)類似于人類社會(huì)的發(fā)展,剛開始大家覺得啥都能做,后來才意識(shí)到需要專業(yè)人員來負(fù)責(zé)不同的領(lǐng)域。在Stable Diffusion的發(fā)展過程中,也逐漸走向了多階段的方式。因此,現(xiàn)在的AI作圖模型已經(jīng)可以做到非常細(xì)節(jié)清晰、寫實(shí)自然,是一個(gè)非常大的進(jìn)步。
圖片
當(dāng)前AI作圖仍存在兩個(gè)主要問題。首先,模型對(duì)于文本的理解能力有限。例如,當(dāng)輸入'馬騎著宇航員'這樣的文本時(shí),現(xiàn)有模型往往只會(huì)輸出宇航員騎馬,而不會(huì)考慮到馬騎宇航員的情況。這是因?yàn)槟P痛嬖谧疃搪窂揭蕾嚨乃季S慣性,對(duì)于宇航員騎馬的搭配更加敏感,而沒有考慮到更多的語境信息。這導(dǎo)致模型對(duì)于文本的理解還不夠準(zhǔn)確和全面。
圖片
其次,模型在細(xì)節(jié)繪畫方面還存在不足。一個(gè)經(jīng)典例子是畫手的問題。例如,在左邊的馬斯克的圖像中,雖然整體表現(xiàn)包括國際象棋等方面畫得不錯(cuò),但是手部卻顯得奇怪,難以描述。而在右邊的Midjourney的圖像中,他們宣稱他們的版本對(duì)手的繪畫已經(jīng)足夠好了。
然而,從這個(gè)案例可以看出,手部的繪畫仍然存在問題,不同版本的改進(jìn)只是部分解決了這個(gè)問題。無論是在學(xué)術(shù)側(cè)還是業(yè)務(wù)側(cè),解決這個(gè)細(xì)節(jié)繪畫問題仍然非常困難。雖然AI作圖目前還面臨一些問題,但隨著學(xué)術(shù)和技術(shù)的進(jìn)步,相信這些問題逐漸得到解決的可能性也在增加。
圖片
第三個(gè)問題是可控性。例如,對(duì)于阿里安全內(nèi)部的塔璣業(yè)務(wù)來說,商家希望能夠用AI模特來生成模特穿衣服的圖,以展示衣服的效果。但是在這個(gè)過程中,商家希望能夠保留衣服的細(xì)節(jié),比如紐扣、袖子等,但這些細(xì)節(jié)很難被完全保留下來,因?yàn)槠浼?xì)微的變化很難被控制。在學(xué)術(shù)側(cè)也存在著這個(gè)問題。
圖片
除了AI做圖以外,還有其他類型的視覺問題,比如視頻風(fēng)格的變換。現(xiàn)在已經(jīng)有人在研究如何將一個(gè)真人視頻轉(zhuǎn)化為動(dòng)漫視頻,并且還可以將視頻中的人物變成其他人物,比如鋼鐵俠。這就是風(fēng)格的牽引,通過改變視頻的風(fēng)格來實(shí)現(xiàn)不同的效果。
圖片
另一個(gè)問題是視頻中的閃爍。例如,當(dāng)將一個(gè)真人視頻變成動(dòng)漫視頻時(shí),由于視頻是逐幀繪制的,如果AI的可控性不夠好,不同幀之間出現(xiàn)了問題,那么在將這些幀連在一起觀看時(shí),視頻可能會(huì)出現(xiàn)閃爍的問題。例如頭發(fā)散亂、眼睛移動(dòng)等都可能會(huì)導(dǎo)致視頻閃爍。因此,在AI視頻領(lǐng)域,現(xiàn)在還存在一些問題,盡管已經(jīng)有了一些產(chǎn)品,但整體上還沒有達(dá)到商業(yè)化的水平。
圖片
另一個(gè)領(lǐng)域是AI音頻。例如,在b站或抖音上,會(huì)看到AI歌手孫燕姿的作品,歌手通過AI出道,可以演唱多種耳熟能詳?shù)母枨?。通過AI音頻,任意歌曲和音色都可以進(jìn)行混合,甚至可以輸入一段話就能生成音樂。這是AI音頻目前的一個(gè)發(fā)展方向。
圖片
最后要提及的是ChatGPT。雖然它目前與多模態(tài)的關(guān)聯(lián)不太強(qiáng),但卻是AIGC時(shí)代最重要的工作。ChatGPT在2022年11月30日一經(jīng)推出,立即引爆了全球的AIGC熱潮,引起了資本投資界以及各行各業(yè)的瘋狂關(guān)注。
然而,ChatGPT的預(yù)訓(xùn)練方式實(shí)際上非常簡單,就像人類學(xué)習(xí)一樣。例如,你要記住兩句詩,你通常會(huì)從前一句開始背,通過前一句來默寫后一句。例如,“春江潮水連海平,海上明月共潮生”,我開始寫第二句時(shí)發(fā)現(xiàn)寫錯(cuò)了,我錯(cuò)寫成了“海上明月共朝死”。然后我將“潮死”和“潮生”進(jìn)行對(duì)比,發(fā)現(xiàn)錯(cuò)誤在于“死”,于是下次我改成“生”。
這種方式實(shí)際上是ChatGPT的邏輯,它通過不斷預(yù)測下一個(gè)詞來訓(xùn)練模型,然后將預(yù)測出的下一個(gè)詞與原文進(jìn)行對(duì)比。由于這種方案聽起來非常簡單,它可以適應(yīng)人類生活中的各種文本,包括互聯(lián)網(wǎng)上的所有文本。
無論是什么文本,我只需要將它交給ChatGPT,它就可以順利處理。在使用ChatGPT進(jìn)行訓(xùn)練時(shí),最好的監(jiān)督就是原始文本本身。將原始文本蓋住,然后默寫下面的內(nèi)容,將所默寫內(nèi)容與原文進(jìn)行比對(duì),如果不正確則改正。這種方式奏效的原因是GPT的數(shù)據(jù)規(guī)模和模型規(guī)模非常大。不過,這只是ChatGPT的預(yù)訓(xùn)練方式,其真正的訓(xùn)練方式包括三個(gè)階段。
第一階段是預(yù)訓(xùn)練,如前所述,目的是讓模型具備基礎(chǔ)的理解能力,從而成為一個(gè)文學(xué)大師。
第二階段是微調(diào),因?yàn)榧幢闶俏膶W(xué)大師,只會(huì)接龍也是不夠的。在這個(gè)階段中,模型需要了解如何回答問題。由于模型是預(yù)測下一個(gè)字,當(dāng)給出一個(gè)問號(hào)時(shí),模型可能會(huì)繼續(xù)接龍并輸出一連串問號(hào)。因此,需要告訴模型如何回答問題??梢詫⒁粋€(gè)高考滿分的學(xué)生作為比喻來說明。
如果讓他在政府機(jī)關(guān)寫一份符合公務(wù)員常見文檔要求的文件,他可能無法寫出來。即使他寫出來,也可能是非常有詩意的文檔,而不符合政府機(jī)關(guān)需要的法言法語或政治生態(tài)要求。這是因?yàn)檫@個(gè)過程需要進(jìn)行教導(dǎo),他不是不會(huì)寫,只是不知道該以什么樣的形式來寫。這個(gè)過程被稱為微調(diào),也可以稱為instruction tuning或指令微調(diào)。
微調(diào)的含義是讓ChatGPT理解你想要讓它做什么,然后根據(jù)其知識(shí)儲(chǔ)備輸出相應(yīng)的內(nèi)容。經(jīng)過指令微調(diào)之后,你將得到一個(gè)非常強(qiáng)大的模型,即一個(gè)可以進(jìn)行對(duì)話的模型。你可以與他進(jìn)行對(duì)話,就像與一個(gè)人對(duì)話一樣。
然而,這個(gè)模型也存在一定的危險(xiǎn)性。因?yàn)樗挠?xùn)練數(shù)據(jù)大部分來自互聯(lián)網(wǎng),而互聯(lián)網(wǎng)上的數(shù)據(jù)種類繁多,有各種各樣的亂七八糟的信息。它有可能學(xué)到一些負(fù)面的信息,所以我們需要通過某種方式使其更符合人類的需求,變得有幫助而不是有害。這個(gè)過程被稱為基于人類回復(fù)的強(qiáng)化學(xué)習(xí)(RLHF)。它其實(shí)很簡單,對(duì)于一些模棱兩可的問題,比如單親家庭的孩子是否性格不好,我們可以邀請(qǐng)社會(huì)學(xué)家等專家來做這些問題的儲(chǔ)備,以攻擊我們的模型并提升其安全性。
我們可以讓模型生成四個(gè)回答:
A、可能會(huì)說單親家庭會(huì)影響
B、可能會(huì)說單親家庭不會(huì)影響
C、可能會(huì)說單親家庭不一定會(huì)影響
D、可能會(huì)說不知道
對(duì)于這四個(gè)答案,不同人可能有不同的觀點(diǎn),并且存在爭論。但對(duì)于人類來說,我們更傾向于關(guān)注積極的一面,所以我們應(yīng)該將那些認(rèn)為不會(huì)影響的答案放在前面,因?yàn)檫@是我們要鼓勵(lì)的。基于人類的排序,我們可以訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型(reward model),用于給模型的回答進(jìn)行打分。如果打分高,表示回答符合人類需求;如果打分低,表示回答不符合人類需求。這與模型的生成能力無關(guān),更像是一種道德價(jià)值觀。因此,RLHF實(shí)際上是將ChatGPT置于人類面前的最后一關(guān)的教育,也是使模型表現(xiàn)得像人類一樣的最后一個(gè)必要條件。
圖片
但是ChatGPT有許多后續(xù)的發(fā)展。比如,HuggingGPT,他使用了ChatGPT調(diào)用各種已有的模型。例如,他使用了一個(gè)文本模型,它只能進(jìn)行對(duì)話,不會(huì)繪圖。但是它只需要調(diào)用那些繪圖的模型,比如Stable Diffusion模型。
比如,我想畫一只粉紅色的大象,用ChatGPT調(diào)用Stable Diffusion模型,將粉紅色的大象作為輸入給Stable Diffusion模型。然后他生成了一幅圖,我將這個(gè)圖的URL或網(wǎng)頁鏈接貼過來給你看。從用戶的角度來看,它已經(jīng)畫出了一幅圖,盡管它并不知道發(fā)生了什么,它只是純粹地調(diào)用了一個(gè)模型。
這就是HuggingGPT的原理。這篇文章的影響力非常大,無論是在學(xué)術(shù)界還是在資本界和業(yè)務(wù)領(lǐng)域,人們對(duì)這種方式和概念非常推崇。因?yàn)樗粌H解決了一些協(xié)同合作的問題,還為未來的可擴(kuò)展性提供了巨大的空間。
圖片
此外,還有一個(gè)ChatGPT的小社會(huì),被稱為生成式智能體(Generative Agents)。既然ChatGPT如此類似于人類,我們是否可以用ChatGPT來模擬人類社會(huì)的發(fā)展呢?例如,一個(gè)人剛開始時(shí)可能并不道德,后續(xù)過程的社會(huì)博弈中,慢慢產(chǎn)生了道德。
在博弈的過程中,人們發(fā)現(xiàn)存在兩個(gè)基本條件:首先,我們要保持自己的身體健康和生存;其次,我們要繁衍后代。如果我去殺人,別人也會(huì)殺我;如果別人殺了我,我就無法生存,也無法繁衍后代。因此,在博弈的最終結(jié)果中,人們不再互相殺戮,而是互相生存和合作,以確保后代的繁衍。這個(gè)博弈過程形成了一套價(jià)值觀和道德觀念,逐漸演變成人類社會(huì)的現(xiàn)狀。
那么,我們是否可以利用這些 Agents來模擬演變過程呢?斯坦福大學(xué)等機(jī)構(gòu)已經(jīng)在這方面進(jìn)行了研究。在一個(gè)游戲中,他們加入了20個(gè)不同的Agents,每個(gè)Agent都是ChatGPT都具有不同的人設(shè)。通過互相博弈,這些Agent逐漸改變了他們的價(jià)值觀。舉例來說,原本單個(gè)的ChatGPT可能無法真正組織一個(gè)派對(duì),因?yàn)樗涣私飧鞣N細(xì)節(jié)。但是,不同的ChatGPT之間的對(duì)話逐漸形成了一個(gè)完整的派對(duì),并且考慮到了各種細(xì)節(jié),這是一個(gè)很有趣的嘗試。
圖片
最后,讓我們回到ChatGPT的最新進(jìn)展,也就是GPT-4,它具有多模態(tài)的理解能力。例如,我們可以展示給它一個(gè)用雞塊拼成的世界地圖,并問它這個(gè)東西為什么這么搞笑。它可以回答說,因?yàn)橛秒u塊拼成圖形給人一種反差感,非常搞笑。這展示了它對(duì)多模態(tài)信息的理解能力。
雖然對(duì)于人類來說,多模態(tài)信息處理似乎是一件很常見的事情,但對(duì)于人工智能來說,這實(shí)際上是一件非常困難的事情。即使像GPT-4這樣的模型在這方面取得了一定的進(jìn)展,但在細(xì)節(jié)上仍然存在一定的缺陷。因此,我們需要不斷發(fā)展多模態(tài)模型,以滿足未來更加復(fù)雜的應(yīng)用需求。
圖片

第四章,主要討論多模態(tài)和大型模型在業(yè)務(wù)中的應(yīng)用。大多數(shù)人可能不太了解內(nèi)容安全業(yè)務(wù)或者真正的安全業(yè)務(wù)。我們看到的更多是正向的業(yè)務(wù),比如淘寶上的各種有趣的活動(dòng)。

圖片

然而,這些活動(dòng)之所以能夠得到支持并避免出現(xiàn)各種問題,例如反華勢力、色情內(nèi)容等內(nèi)容,實(shí)際上是因?yàn)橛邪踩珗F(tuán)隊(duì)提供支持。作為安全團(tuán)隊(duì),我們幾乎檢測了阿里巴巴所有的流量,這意味著每天數(shù)十億甚至幾百億的流量都要經(jīng)過我們的安全系統(tǒng),只有通過了我們的防控,才能真正呈現(xiàn)給客戶,這里的風(fēng)險(xiǎn)類型非常細(xì)碎且繁雜。

圖片

另一個(gè)難點(diǎn)是多模態(tài)的風(fēng)險(xiǎn)。例如,一個(gè)表情包上寫著“你的智商”,配了一條傻狗,這就是在罵你。但如果表情包上寫著“你的智商”,配了一張愛因斯坦的照片,那就是在夸你。如果去掉傻狗,上面還寫著“好想睡覺”,那就只是一個(gè)普通的傻屌表情包,并沒有惡意。

圖片

這些多模態(tài)的風(fēng)險(xiǎn)無法通過文字和圖片來解決。在我們的安全過程中,我們發(fā)現(xiàn)真正可能漏防的只有這種多模態(tài)的風(fēng)險(xiǎn)。因?yàn)閳D片和文字的單模態(tài)風(fēng)險(xiǎn)已經(jīng)被我們的算法覆蓋得非常好了。只有那些不斷產(chǎn)生的非常隱晦的多模態(tài)梗,才需要我們不斷迭代算法來解決。另一個(gè)風(fēng)險(xiǎn)是永遠(yuǎn)存在大量無法覆蓋的風(fēng)險(xiǎn)點(diǎn),因?yàn)闀r(shí)勢不斷變化,人們會(huì)利用新聞等來進(jìn)行惡意創(chuàng)作,尤其是一些反華勢力和黑灰產(chǎn)。

例如,在核酸檢測時(shí)期,2020年前訓(xùn)練的模型并不知道核酸檢測是什么,就像2019年的人類也不知道核酸檢測是什么。但是在2021年和2022年,核酸檢測這個(gè)概念已經(jīng)存在了,所以我們必須讓模型學(xué)會(huì)識(shí)別這個(gè)概念。還有一些偏色情的風(fēng)險(xiǎn),雖然很隱晦,但只要有一定的背景含義,我們都知道它是什么。所以如何識(shí)別和防控這些風(fēng)險(xiǎn)是非常困難的,而且需要快速行動(dòng),不能讓這些風(fēng)險(xiǎn)暴露太久,否則會(huì)產(chǎn)生更大的破壞力。

圖片

基于以上困難,我們設(shè)計(jì)了一個(gè)相對(duì)完整的內(nèi)容安全體系。我們基于大模型的架構(gòu),設(shè)計(jì)了結(jié)構(gòu)化和非結(jié)構(gòu)化的算子,以及大模型的算子。這些算子都是主動(dòng)防控的,例如,每天數(shù)百億甚至上千億的流量都經(jīng)過這個(gè)體系,有問題的被移除,沒有問題的正常呈現(xiàn)給用戶。

然而,即使是最好的算法也可能會(huì)漏防。那些漏防的部分已經(jīng)在數(shù)據(jù)庫中呈現(xiàn)給用戶了,我們需要快速將其抓回來,以防止它們產(chǎn)生更大的影響。為了抓回那些漏防的部分,我們需要使用智能排查這個(gè)工具。智能排查是在已有數(shù)據(jù)中找到風(fēng)險(xiǎn)的過程。

圖片

在這個(gè)過程中,我們會(huì)經(jīng)歷許多步驟。首先,我們需要進(jìn)行動(dòng)態(tài)調(diào)度,也就是選擇哪些模型與風(fēng)險(xiǎn)有關(guān),并進(jìn)行相應(yīng)的調(diào)整。其次,我們需要進(jìn)行能力檢驗(yàn),以確保這些模型可以準(zhǔn)確地識(shí)別和防止風(fēng)險(xiǎn)。

第三步是人工審核,進(jìn)一步確保我們的防控體系是否符合需求。第四步是存量排查,即使我們可能漏防了一些風(fēng)險(xiǎn),我們也需要不斷進(jìn)行排查和修復(fù)。最后,我們還需要進(jìn)行藍(lán)軍巡檢,這意味著我們需要攻擊自己以發(fā)現(xiàn)我們自己存在的安全漏洞。為了找到漏洞并不斷改進(jìn)模型,我們需要一個(gè)團(tuán)隊(duì)對(duì)自己的模型進(jìn)行攻擊和測試。在這個(gè)過程中,我們需要設(shè)計(jì)一個(gè)體系來決定哪些環(huán)節(jié)是必要的,哪些是不必要的,哪些模型需要通過測試,哪些不需要。

圖片

動(dòng)態(tài)調(diào)度是一個(gè)重要的邏輯,它可以幫助我們快速地識(shí)別圖像中的內(nèi)容,并決定哪些模型需要進(jìn)行測試。例如,如果圖像中有一只狗,我們只需要運(yùn)行與動(dòng)物相關(guān)的模型,而不需要運(yùn)行人臉識(shí)別模型。此外,如果圖像很大,我們可能需要對(duì)其進(jìn)行裁剪,以節(jié)約時(shí)間和成本。整個(gè)動(dòng)態(tài)調(diào)度系統(tǒng)可以節(jié)約60%以上的成本,這個(gè)系統(tǒng)的設(shè)計(jì)理念我們也發(fā)表在了ACMMM 2021中。

圖片

另一個(gè)創(chuàng)新性的模型是亂序大模型,這個(gè)模型是由我們自己研發(fā)的,并已經(jīng)申請(qǐng)了專利。我們正在進(jìn)行學(xué)術(shù)改造,來進(jìn)一步改進(jìn)這個(gè)模型。亂序大模型的邏輯非常簡單,但它具有很高的實(shí)用性。好的預(yù)訓(xùn)練方式通常是簡潔明了的。

以馬騎的宇航員問題為例,傳統(tǒng)的CLIP模型在最初并不能理解這個(gè)問題。當(dāng)看到馬和宇航員時(shí),它能夠直觀地誤認(rèn)為這是宇航員騎馬。但問題在于,它從未見過馬騎宇航員的情況,而現(xiàn)實(shí)生活中也不會(huì)存在馬騎宇航員這樣的場景和文本。那么該如何解決呢?我們只需要將它們打亂即可。

例如,將宇航員騎馬打亂成馬騎宇航員、馬宇騎航員、馬騎宇航員等各種亂序?qū)Α>拖裣旅孢@張圖片中“一只可愛的狗,在草地上“經(jīng)過打亂后,變成了“一可只狗在草地上”等一系列亂序的文本。這些亂序的文本被用作模型的負(fù)樣本,也就是反面典型。它們告訴模型“一只可愛的狗在草地上”和其他的那些亂序?qū)Σ灰粯拥模员苊饽P蛢H僅通過看到草地和狗就做出錯(cuò)誤判斷。

亂序大模型的含義在于,通過對(duì)負(fù)樣本進(jìn)行亂序處理,使模型強(qiáng)制學(xué)習(xí)真正的特征,而不是僅僅依靠關(guān)鍵詞或固定的組合做出判斷。這類似于教小孩子一樣,不允許他們僅僅依靠看答案或關(guān)鍵詞作出反應(yīng),而需真正理解問題,在自己的理解上做出正確的判斷?;趤y序大模型,我們建立了整個(gè)體系框架。

圖片

基于亂序大模型的概念,我們還開發(fā)了一個(gè)新的技術(shù),稱為開放式識(shí)別或萬物檢測。傳統(tǒng)的目標(biāo)檢測是在訓(xùn)練集上進(jìn)行訓(xùn)練的,如果訓(xùn)練集只包含動(dòng)物,那么模型就可能無法識(shí)別電腦等其他目標(biāo)。而開放式識(shí)別則是讓模型能夠識(shí)別任何物體,不僅局限于訓(xùn)練集。這種方法可以大大提高模型的適用性和實(shí)用性。在許多業(yè)務(wù)場景中,我們很難關(guān)注到所有的物體類別,每到新增風(fēng)險(xiǎn)物體,我們就可以通過萬物檢測快速覆蓋。

那么對(duì)于這些各種物體的風(fēng)險(xiǎn),我們應(yīng)該如何進(jìn)行識(shí)別呢?幸運(yùn)的是,CLIP具備這個(gè)能力。CLIP是一個(gè)能夠?qū)R各種物體的模型,它的圖片和文本數(shù)據(jù)來自于互聯(lián)網(wǎng)上廣泛的數(shù)據(jù),因此它能夠理解我們?nèi)粘K姷膸缀跛形矬w。基于CLIP的監(jiān)督,我們可以改變檢測框架。

原本的檢測框架通過提取特征并將其映射到20個(gè)預(yù)定義的類別中進(jìn)行分類。但是,如果我們將這20個(gè)類別全部替換為CLIP的文本特征,例如我們想要確定一個(gè)物體是否是馬,我們只需要將馬的特征放在那里,然后將圖像特征與特征進(jìn)行逐個(gè)對(duì)比,如果相似度足夠高,那么它就是馬,如果相似度不夠高,那么它就不是馬。

這是一個(gè)簡單而有效的方法,你可以用任何東西來作為對(duì)比的文本備選,這個(gè)框架就能認(rèn)識(shí)所有對(duì)應(yīng)的物體?;谶@個(gè)框架我們發(fā)現(xiàn)20個(gè)類別太少了。訓(xùn)練出來的框架的決策邊界可能很窄,只能識(shí)別這20個(gè)類別。為了擴(kuò)大決策邊界,我們將各種開放域的類別聚合成幾個(gè)點(diǎn),讓模型觀察多個(gè)點(diǎn),以便適應(yīng)更廣泛的萬物檢測場景。

圖片

基于這兩個(gè)技術(shù),我們最終實(shí)現(xiàn)了哪些業(yè)務(wù)效果?比如,在指哪打哪方面,只需要輸入一個(gè)簡短的文本,就能消除所有的風(fēng)險(xiǎn)。例如,當(dāng)出現(xiàn)奧特曼違規(guī)事件時(shí),以前需要花費(fèi)幾天或幾周時(shí)間,收集大量奧特曼的圖片來訓(xùn)練模型,以便清除所有風(fēng)險(xiǎn)。但是,現(xiàn)在只需要在這個(gè)體系中輸入“奧特曼”3個(gè)字的文本,就可以立即清除所有奧特曼相關(guān)的風(fēng)險(xiǎn)。

圖片

類似地,當(dāng)需要防止冰墩墩時(shí),只需將其輸入到我們的框架中,特征就會(huì)立即提取并形成安全屏障,消除所有與冰墩墩相關(guān)的風(fēng)險(xiǎn)。

圖片

讓我們來看一下這個(gè)過程到底節(jié)省了多少時(shí)間。原本面對(duì)一個(gè)新增的風(fēng)險(xiǎn),比如說冰墩墩變成了風(fēng)險(xiǎn),通常需要進(jìn)行一系列步驟。首先,業(yè)務(wù)方會(huì)發(fā)現(xiàn)有風(fēng)險(xiǎn)的問題,然后運(yùn)營和產(chǎn)品人員會(huì)參與,確定如何修改產(chǎn)品。然后算法團(tuán)隊(duì)會(huì)進(jìn)行訓(xùn)練,收集大量冰墩墩的數(shù)據(jù)。之后還需要進(jìn)行測試,并將模型嵌入整個(gè)體系中,整個(gè)過程可能需要十幾天的時(shí)間。

而現(xiàn)在,這個(gè)過程可以壓縮為1到3個(gè)小時(shí)。這就像日語中有一個(gè)詞叫做'言靈',意思是言語有一種不可輕視的力量。通過詛咒冰墩墩,它就消失了;通過一句話,所有的風(fēng)險(xiǎn)都可以消失。

圖片

在這種情況下,我們還需要考慮一個(gè)問題,即使是最好的體系也無法完全防止所有的風(fēng)險(xiǎn)漏洞??倳?huì)有一些風(fēng)險(xiǎn)是被漏掉的。另外還有一種情況,原本不是風(fēng)險(xiǎn),但后來變成了風(fēng)險(xiǎn),比如一些老藝術(shù)家。他們原本并不是風(fēng)險(xiǎn),但之后被查封后,他們成為了不良藝人,變成了風(fēng)險(xiǎn)。這些散落在整個(gè)體系中的圖片,可能混雜在像淘寶或餓了么這樣的大數(shù)據(jù)集中。如何準(zhǔn)確地找出這些老藝術(shù)家是一個(gè)挑戰(zhàn),而我們正好可以利用我們的大型模型來實(shí)現(xiàn)這一點(diǎn)。

圖片

在這個(gè)過程中,比如說喜羊羊違規(guī)了,當(dāng)然這不可能發(fā)生,但如果真的發(fā)生了,我們只需要找到一張喜羊羊的圖片,就像在淘寶上搜索一樣,使用圖像搜索功能,所有與喜羊羊相關(guān)的內(nèi)容都會(huì)被找出來。同樣的,如果輸入“喜羊羊”這個(gè)文本,與喜羊羊相關(guān)的所有內(nèi)容也會(huì)被找出來,我們可以將它們處理掉,這樣所有的內(nèi)容就會(huì)消失。

當(dāng)然,還有一個(gè)很重要的點(diǎn),你搜喜羊羊不只是出現(xiàn)喜羊羊,還會(huì)出現(xiàn)灰太狼。因?yàn)槲覀兪褂玫氖嵌嗄B(tài)模型,而不僅僅是視覺模型。如果只是使用視覺模型,輸入“喜羊羊”,只會(huì)得到與羊有關(guān)的內(nèi)容,而使用多模態(tài)模型,喜羊羊和灰太狼都與一個(gè)動(dòng)漫“喜羊羊與灰太狼”相關(guān)聯(lián),它們之間的語義距離很近。因此,喜羊羊也可以關(guān)聯(lián)到灰太狼。在實(shí)際業(yè)務(wù)中,我們按照概念來分類,而不是按照?qǐng)D片視覺。

圖片

在ACMMM 2021中,我們發(fā)表了一篇文章,針對(duì)細(xì)節(jié)識(shí)別問題。我們在Transformer中的每一層都提取了一層特征,然后對(duì)這些特征進(jìn)行了多標(biāo)簽分類和優(yōu)化。我們發(fā)現(xiàn),對(duì)于一些非常細(xì)節(jié)的局部特征,我們的模型都能夠很好地理解。

圖片

我們可以看到,我們的模型能夠識(shí)別出兩只看起來相似的鳥之間的品種區(qū)別,這些區(qū)別甚至人類外行都看不出來,用于安全場景的細(xì)粒度風(fēng)險(xiǎn)識(shí)別也非常有效。

圖片

接下來我們來看OCR 。我們可以看到,這些圖片中有各種各樣的亂七八糟的文本,這些文本不是像PDF中那樣整齊劃一的排列,而是扭曲、污漬、受到光影影響或者隱藏得很深等等各種變體。這些文本的變體越多,就代表它越危險(xiǎn)。

為什么會(huì)這樣呢?因?yàn)檎5奈谋径急桓傻袅?,只有這些變體文本還存在,這就意味著這些文本存在著欺詐、詐騙或者其他惡意的目的。針對(duì)如何將這些圖片文字識(shí)別出來,我們設(shè)計(jì)了OCR功能。

圖片

我們的OCR在第四屆中國人工智能大賽中獲得了A級(jí)獎(jiǎng)項(xiàng),這是最高級(jí)別的榮譽(yù),也在全中國范圍內(nèi)具有相當(dāng)高的聲譽(yù)。我們榮獲了兩個(gè)獎(jiǎng)項(xiàng),一個(gè)是特定樣本的變體識(shí)別,另一個(gè)是在復(fù)雜場景下的文字識(shí)別。我們的OCR已經(jīng)在業(yè)務(wù)覆蓋方面取得了巨大的成功。正如之前提到的,我們覆蓋了452個(gè)業(yè)務(wù)域,包括10億次的調(diào)度,涵蓋了各種各樣的風(fēng)險(xiǎn)類型。

圖片

另外,大家可能會(huì)關(guān)心,如果出現(xiàn)誤攔截該怎么辦?對(duì)于這個(gè)問題,我們有一種方法,叫做大模型判白。這個(gè)方法很簡單,就是將你不懂的事情交給專業(yè)人士處理。這也是我們在2021年EMNLP文章中提到的一個(gè)概念,即對(duì)于你的模型無法解決的問題,將其交給最專業(yè)的人來解決,讓專業(yè)人士處理專業(yè)的事務(wù)。

如果在我們的體系中,大模型認(rèn)為某個(gè)樣本沒有問題,那么所有小模型認(rèn)為有問題也無所謂,大模型決定該放的就放。通過這種方式,我們已經(jīng)在阿里云、本地生活等大客戶上線,誤判率已經(jīng)降低了80%以上,準(zhǔn)確率也提高了5倍以上。

圖片

此外,我們還有攻防一體的概念。我們針對(duì)每個(gè)體系設(shè)計(jì)藍(lán)軍進(jìn)攻模型,并測試其防御能力。如果成功地抵御了這些樣本,那說明能力還可以,否則這些樣本就會(huì)成為你的訓(xùn)練樣本。由于Stable Diffusion本身就具有Clip基因,因此我們基于Clip的模型和它之間的特征非常容易進(jìn)行對(duì)接,整個(gè)體系是完全閉環(huán)的。
圖片
回顧整個(gè)大模型的發(fā)展階段,從2017年開始,Transformer誕生,它在AI領(lǐng)域也是具有王者級(jí)別的貢獻(xiàn)。
圖片
隨后,像GPT-1、GPT-2逐漸出現(xiàn),后來還有GPT-3以及Bert系列,它們之間的區(qū)別在于GPT是用于預(yù)測下一個(gè)詞,而Bert是通過“完形填空”預(yù)訓(xùn)練,且主要用于提取文本特征,這兩者技術(shù)路線是不同的,一個(gè)是decoder-only,一個(gè)是encoder-only。
當(dāng)年Bert這個(gè)方向其實(shí)有更多的追隨者。在前幾年,Bert論文的引用量是GPT的10倍以上。直到Clip出現(xiàn)之后,多模態(tài)這個(gè)概念才引起了人們的重視,把大家引入到了一個(gè)多模態(tài)AIGC這么一個(gè)視野之內(nèi)。
圖片
后來, AI作圖的概念慢慢地出現(xiàn)了,這些AIGC的概念也隨之產(chǎn)生。到了2022年,Stable Diffusion推出了AI作圖這個(gè)概念,直接引爆了社區(qū)熱議。然后在2022年11月30日,ChatGPT的推出將真正的資本風(fēng)口帶上來了。
圖片
在此之后,針對(duì)文圖之間的AIGC出現(xiàn)了各種各樣的變體和升級(jí),涌現(xiàn)出了很多的學(xué)術(shù)工作。其中比較重要的幾個(gè)點(diǎn),比如多模態(tài)生成式的大模型,以及剛才有朋友提到的多模態(tài)生成式或者多模態(tài)大模型,它們的涌現(xiàn)會(huì)在啥時(shí)候出現(xiàn)呢?學(xué)術(shù)上正在探索如何將視覺與大語言模型相結(jié)合,Kosmos、BLIP2等都在嘗試將視覺融入其中,讓語言模型能夠理解圖片。
圖片
ChatGPT作為大語言模型的接口,用HuggingGPT等模型去調(diào)圖片或調(diào)音頻,則更像是純粹的“甩鍋”,只是負(fù)責(zé)收結(jié)果和輸出給用戶,本質(zhì)上并不理解圖片、文本和音頻的區(qū)別。
圖片
但像HuggingGPT這個(gè)概念在工業(yè)領(lǐng)域非常適合協(xié)同,因?yàn)槿绻挥幸粋€(gè)模型,訓(xùn)練時(shí)很容易出現(xiàn)功能沖突。因此,如果有多個(gè)人分工負(fù)責(zé)調(diào)動(dòng)、AI作圖、AI音頻、AI視頻,然后中間一個(gè)把所有東西串起來,就可以更好地服務(wù)于業(yè)務(wù)側(cè),也更受資本側(cè)關(guān)注。
資本界對(duì)于HuggingGPT等的關(guān)注非常大,學(xué)術(shù)界也認(rèn)為它是一個(gè)很好的方案。但想要讓整個(gè)大語言模型真正理解視覺,就需要將視覺的特征用某種方案塞進(jìn)大語言模型中。
圖片
有很多種方式可以實(shí)現(xiàn)這個(gè)目的,比如將視覺特征切成塊,與文本一起喂入模型,或者用cross attention的方式注入結(jié)構(gòu)中。但Kosmos和Blip2都沒有完美解決這個(gè)問題。
圖片
關(guān)于視覺涌現(xiàn)大模型的問題,對(duì)于NLP來說,已經(jīng)到了一個(gè)涌現(xiàn)的階段,但在視覺領(lǐng)域似乎還沒有。目前視覺模型的輸入表示存在問題,與文本不同,文本有通用的表示叫做token,因此將所有文本變成詞token,讓模型預(yù)測下一個(gè)詞就可以了。
但是圖片并非如此,將一張圖片切成16×16的patch并不符合人類觀察圖片的方式,人類可能會(huì)先掃一眼看到大概,然后再去尋找細(xì)節(jié)。如何將這個(gè)過程建模是一個(gè)非常困難的問題,即使在學(xué)術(shù)界也是如此。現(xiàn)在有許多嘗試,如將像素拼湊在一起,隨機(jī)采集圖片的一部分像素等方法,以期將視覺特征融入大語言模型中。但是在這個(gè)過程中,抓取圖片的方式非常重要,因?yàn)樽ト〉降膬?nèi)容會(huì)影響后續(xù)的建模過程。
此外,對(duì)于patch的處理,也需要考慮采用更好的方式來進(jìn)行特征融合。視覺涌現(xiàn)是一個(gè)讓大家熱切期待的領(lǐng)域,因?yàn)橐曈X能夠傳達(dá)語言無法表達(dá)的信息。未來,我們需要探索如何將語言和視覺融合起來,以產(chǎn)生更加豐富的共識(shí)。例如,具身人工智能機(jī)器人需要視覺和語言雙重監(jiān)督,這將是未來需要不斷探索的方向。


??直播預(yù)告
8月24日19:00《追AI的人》第28期直播將與大家分享《圖像取證探秘:P圖假證無處遁形,揭開“美女荷官”騙局》敬請(qǐng)期待??
圖片

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多