制作多態(tài)大模型是當前人工智能領(lǐng)域的一個前沿課題,它旨在構(gòu)建具有廣泛適應(yīng)性和高度靈活性的模型,以應(yīng)對不同領(lǐng)域和任務(wù)的挑戰(zhàn)。然而,要實現(xiàn)這一目標,我們需要克服許多技術(shù)難題。在解決這些難題的過程中,何曉東先生提出了一些獨到的見解和觀點,為制作多態(tài)大模型指明了方向。 在多模態(tài)大模型的研究中,我們面臨著幾個技術(shù)難點。首先,我們需要確定在哪個層次上進行多模態(tài)融合的目的。僅僅為了賦予語言模型多模態(tài)功能是不夠的,因為這可以通過簡單地調(diào)用另一個模型來實現(xiàn)。例如,如果我們讓一個語言模型調(diào)用Midjourney模型來繪制圖像,雖然從任務(wù)層面上看似乎能完成多種任務(wù),但在模型層面上,這兩個模型是分離的,無法實現(xiàn)多模態(tài)智能的涌現(xiàn)。 之所以大模型受到關(guān)注并引發(fā)熱議,并非僅僅因為它的規(guī)模龐大,而是因為人們開始意識到了它的智能"涌現(xiàn)"。在過去的機器學習算法中,隨著模型規(guī)模增大,邊際效益逐漸減小,即效果的提升越來越小。但現(xiàn)在人們發(fā)現(xiàn),當模型大小超過數(shù)百億后,它的邊際效益開始遞增,這導(dǎo)致了突然間效果的顯著提升,被稱為智能的"涌現(xiàn)"。因此,"涌現(xiàn)"是大模型最令人著迷的地方。 如果我們希望在多模態(tài)層次上看到智能的涌現(xiàn),那么意味著我們需要在底層將語言和視覺結(jié)合起來。只有在最底層的結(jié)合才能出現(xiàn)智能的涌現(xiàn)。換句話說,我們需要構(gòu)建一個稠密的多模態(tài)大模型,才能實現(xiàn)這種涌現(xiàn)。 第二個問題是,當模型變得更加智能時,從哪個層次開始變得智能?我們常說一圖勝千言,因此相對于"圖生文","文生圖"是一個更具挑戰(zhàn)性的多模態(tài)任務(wù)。給予機器簡短的文字描述,讓它生成圖像,需要機器具備極高的想象力。 例如,用"文生圖"模型繪制一只鳥,面對粗略的描述,AI可以自動補充細節(jié),不僅要整體上對得上,還需要局部細節(jié)也匹配。難點在于,原始的視覺信號僅僅是像素點,而語言信號最初只是單詞或字符,二者很難對齊,層次結(jié)構(gòu)也不同,因此我們需要找到一個適當?shù)膶哟?,使多模態(tài)信息能夠?qū)R。目前看來,如果多模態(tài)模型要變得智能,這種智能將出現(xiàn)在語義層面上。我們在2017年底參加了微軟的"顛覆性技術(shù)展望"(Disruptive Technology Review)會議,并向納德拉及其管理團隊進行了關(guān)于以文字驅(qū)動視覺內(nèi)容生成的工作的專題報告。 總而言之,制作多態(tài)大模型是一個復(fù)雜而充滿挑戰(zhàn)的任務(wù),但也為我們帶來了巨大的機遇和潛力。通過克服技術(shù)難題,并秉持著何曉東先生所強調(diào)的理念,我們可以打造出更加靈活、適應(yīng)性更強的模型,為各個領(lǐng)域帶來創(chuàng)新和突破。相信不久的將來,多態(tài)大模型將成為人工智能發(fā)展的重要引擎,為我們創(chuàng)造更加智能和高效的世界。 |
|