日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

制作多態(tài)大模型,需要克服那些技術(shù)難題?

 微薇蔚葳 2023-07-10 發(fā)布于廣東

制作多態(tài)大模型是當前人工智能領(lǐng)域的一個前沿課題,它旨在構(gòu)建具有廣泛適應(yīng)性和高度靈活性的模型,以應(yīng)對不同領(lǐng)域和任務(wù)的挑戰(zhàn)。然而,要實現(xiàn)這一目標,我們需要克服許多技術(shù)難題。在解決這些難題的過程中,何曉東先生提出了一些獨到的見解和觀點,為制作多態(tài)大模型指明了方向。

在多模態(tài)大模型的研究中,我們面臨著幾個技術(shù)難點。首先,我們需要確定在哪個層次上進行多模態(tài)融合的目的。僅僅為了賦予語言模型多模態(tài)功能是不夠的,因為這可以通過簡單地調(diào)用另一個模型來實現(xiàn)。例如,如果我們讓一個語言模型調(diào)用Midjourney模型來繪制圖像,雖然從任務(wù)層面上看似乎能完成多種任務(wù),但在模型層面上,這兩個模型是分離的,無法實現(xiàn)多模態(tài)智能的涌現(xiàn)。

之所以大模型受到關(guān)注并引發(fā)熱議,并非僅僅因為它的規(guī)模龐大,而是因為人們開始意識到了它的智能"涌現(xiàn)"。在過去的機器學習算法中,隨著模型規(guī)模增大,邊際效益逐漸減小,即效果的提升越來越小。但現(xiàn)在人們發(fā)現(xiàn),當模型大小超過數(shù)百億后,它的邊際效益開始遞增,這導(dǎo)致了突然間效果的顯著提升,被稱為智能的"涌現(xiàn)"。因此,"涌現(xiàn)"是大模型最令人著迷的地方。

如果我們希望在多模態(tài)層次上看到智能的涌現(xiàn),那么意味著我們需要在底層將語言和視覺結(jié)合起來。只有在最底層的結(jié)合才能出現(xiàn)智能的涌現(xiàn)。換句話說,我們需要構(gòu)建一個稠密的多模態(tài)大模型,才能實現(xiàn)這種涌現(xiàn)。

第二個問題是,當模型變得更加智能時,從哪個層次開始變得智能?我們常說一圖勝千言,因此相對于"圖生文","文生圖"是一個更具挑戰(zhàn)性的多模態(tài)任務(wù)。給予機器簡短的文字描述,讓它生成圖像,需要機器具備極高的想象力。

例如,用"文生圖"模型繪制一只鳥,面對粗略的描述,AI可以自動補充細節(jié),不僅要整體上對得上,還需要局部細節(jié)也匹配。難點在于,原始的視覺信號僅僅是像素點,而語言信號最初只是單詞或字符,二者很難對齊,層次結(jié)構(gòu)也不同,因此我們需要找到一個適當?shù)膶哟?,使多模態(tài)信息能夠?qū)R。目前看來,如果多模態(tài)模型要變得智能,這種智能將出現(xiàn)在語義層面上。我們在2017年底參加了微軟的"顛覆性技術(shù)展望"Disruptive Technology Review)會議,并向納德拉及其管理團隊進行了關(guān)于以文字驅(qū)動視覺內(nèi)容生成的工作的專題報告。

免費ai繪畫網(wǎng)站在線首圖原圖

總而言之,制作多態(tài)大模型是一個復(fù)雜而充滿挑戰(zhàn)的任務(wù),但也為我們帶來了巨大的機遇和潛力。通過克服技術(shù)難題,并秉持著何曉東先生所強調(diào)的理念,我們可以打造出更加靈活、適應(yīng)性更強的模型,為各個領(lǐng)域帶來創(chuàng)新和突破。相信不久的將來,多態(tài)大模型將成為人工智能發(fā)展的重要引擎,為我們創(chuàng)造更加智能和高效的世界。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多