制作多態(tài)大模型，需要克服那些技術(shù)難題？

微薇蔚葳 2023-07-10 發(fā)布于廣東

展開全文

制作多態(tài)大模型是當前人工智能領(lǐng)域的一個前沿課題，它旨在構(gòu)建具有廣泛適應(yīng)性和高度靈活性的模型，以應(yīng)對不同領(lǐng)域和任務(wù)的挑戰(zhàn)。然而，要實現(xiàn)這一目標，我們需要克服許多技術(shù)難題。在解決這些難題的過程中，何曉東先生提出了一些獨到的見解和觀點，為制作多態(tài)大模型指明了方向。

在多模態(tài)大模型的研究中，我們面臨著幾個技術(shù)難點。首先，我們需要確定在哪個層次上進行多模態(tài)融合的目的。僅僅為了賦予語言模型多模態(tài)功能是不夠的，因為這可以通過簡單地調(diào)用另一個模型來實現(xiàn)。例如，如果我們讓一個語言模型調(diào)用Midjourney模型來繪制圖像，雖然從任務(wù)層面上看似乎能完成多種任務(wù)，但在模型層面上，這兩個模型是分離的，無法實現(xiàn)多模態(tài)智能的涌現(xiàn)。

之所以大模型受到關(guān)注并引發(fā)熱議，并非僅僅因為它的規(guī)模龐大，而是因為人們開始意識到了它的智能"涌現(xiàn)"。在過去的機器學習算法中，隨著模型規(guī)模增大，邊際效益逐漸減小，即效果的提升越來越小。但現(xiàn)在人們發(fā)現(xiàn)，當模型大小超過數(shù)百億后，它的邊際效益開始遞增，這導(dǎo)致了突然間效果的顯著提升，被稱為智能的"涌現(xiàn)"。因此，"涌現(xiàn)"是大模型最令人著迷的地方。

如果我們希望在多模態(tài)層次上看到智能的涌現(xiàn)，那么意味著我們需要在底層將語言和視覺結(jié)合起來。只有在最底層的結(jié)合才能出現(xiàn)智能的涌現(xiàn)。換句話說，我們需要構(gòu)建一個稠密的多模態(tài)大模型，才能實現(xiàn)這種涌現(xiàn)。

第二個問題是，當模型變得更加智能時，從哪個層次開始變得智能？我們常說一圖勝千言，因此相對于"圖生文"，"文生圖"是一個更具挑戰(zhàn)性的多模態(tài)任務(wù)。給予機器簡短的文字描述，讓它生成圖像，需要機器具備極高的想象力。

例如，用"文生圖"模型繪制一只鳥，面對粗略的描述，AI可以自動補充細節(jié)，不僅要整體上對得上，還需要局部細節(jié)也匹配。難點在于，原始的視覺信號僅僅是像素點，而語言信號最初只是單詞或字符，二者很難對齊，層次結(jié)構(gòu)也不同，因此我們需要找到一個適當?shù)膶哟?，使多模態(tài)信息能夠?qū)R。目前看來，如果多模態(tài)模型要變得智能，這種智能將出現(xiàn)在語義層面上。我們在2017年底參加了微軟的"顛覆性技術(shù)展望"（Disruptive Technology Review）會議，并向納德拉及其管理團隊進行了關(guān)于以文字驅(qū)動視覺內(nèi)容生成的工作的專題報告。

免費ai繪畫網(wǎng)站在線首圖原圖

總而言之，制作多態(tài)大模型是一個復(fù)雜而充滿挑戰(zhàn)的任務(wù)，但也為我們帶來了巨大的機遇和潛力。通過克服技術(shù)難題，并秉持著何曉東先生所強調(diào)的理念，我們可以打造出更加靈活、適應(yīng)性更強的模型，為各個領(lǐng)域帶來創(chuàng)新和突破。相信不久的將來，多態(tài)大模型將成為人工智能發(fā)展的重要引擎，為我們創(chuàng)造更加智能和高效的世界。