GPT-4o，科幻走進現(xiàn)實

學到老圖書館nd 2024-05-14 發(fā)布于湖北

展開全文

5月14日凌晨，無數(shù)人蜂擁進OpenAI的“春季新品發(fā)布會”直播間，共同見證OpenAI最新旗艦大模型GPT-4o面世。

GPT-4o的“o”是“omni”的縮寫，源自拉丁語“omnis”，表示“全部、一切”之意，我們可以理解為“全知全能”，由此可見OpenAI的野心。

為了幫助大家更通俗易懂地了解GPT-4o，沃垠AI從兩個角度進行了梳理總結(jié)。

第一個角度是基于OpenAI此次發(fā)布會和官網(wǎng)發(fā)布信息整理的13條要點，第二個角度是沃垠AI創(chuàng)始人冷逸從實際應用層面出發(fā)，總結(jié)的10條觀點，分享給大家：

來自冷逸的思考總結(jié)

1、GPT-4o的發(fā)布，是人工智能多模態(tài)能力的一大重要進步，對于全人類而言都是重要進步。

2、AI支持文本、圖片（視覺）、音頻和視頻等多模態(tài)輸入并不新鮮，Gemini、通義、訊飛都可以做到，但他們多數(shù)是通過獨立的模型來實現(xiàn)的，而GPT-4o是統(tǒng)一到了一個新模型里，所有輸入和輸出都是由同一神經(jīng)網(wǎng)絡(luò)處理，變革了新的人機交互模式。

3、單論實時對話、翻譯，很多工具或許比GPT-4o還做得好，但GPT-4o的驚喜之處在于，它還能理解人類的情緒、語氣、語調(diào)和語速，這是AI真正的有把自己當人看啊，開始模仿人類的真實反應，仿生人有了雛形。

4、簡單說，傳統(tǒng)大模型（哎，怎么一下子就變傳統(tǒng)了

）只是讓AI有了嘴巴，現(xiàn)在GPT-4o讓AI不僅有了嘴巴，還有眼睛、耳朵，就差鼻子了，比《流浪地球》里的Moss還多了2個器官。當然，Moss有量子計算，這是人工智能的核彈技術(shù)。

5、4o是人工智能的重大進步。通往AGI的路上，多模態(tài)是極其重要的一步。多模態(tài)被攻克后，接下來就是計算機理解物理世界和物理規(guī)律，推理能力的提升，以及并發(fā)計算能力的提升，隨著這些技術(shù)的突破，將不斷逼近AGI。5年之內(nèi)看到AGI，會非常有可能。

6、這個技術(shù)，對機器人是極大利好。只要有攝像頭、麥克風，接入GPT-4o，即使手搓的機器人雛形就已經(jīng)非常智能了。這對機器人產(chǎn)業(yè)來說，是來自底層技術(shù)的超級大利好。

7、OpenAI開啟了一條新的推廣模式，即我發(fā)布最新產(chǎn)品就免費、開放，這對于很多做底層模型模仿和套殼的公司來說是致命的打擊。OpenAI一迭代，就會死一片創(chuàng)業(yè)公司，何況現(xiàn)在還免費。

8、難說這個決策，沒有受到國內(nèi)幻方DeepSeek-V2和智譜GLM-3的影響，上個周他們均將自己的API費用降到了1元/百萬tokens，而且注冊就送千萬tokens。這都是中國移動互聯(lián)網(wǎng)初的老打法了。

9、短期內(nèi)，手機將是GPT-4o最好的應用載體（目前GPT APP還未開放4o版），想想GPT-4o模型結(jié)合智能機的一堆硬件可以做多少事啊，場景太豐富了。目前已上市的所謂AI手機，都將被重新革新。

10、不僅如此，任何1個有攝像頭、麥克風的iot設(shè)備，都可以接入GPT-4o，做很多有智慧的事。

基于OpenAI發(fā)布會和官網(wǎng)的信息梳理

1、OpenAI此次發(fā)布的重點主要集中在三個方面：一是發(fā)布多模態(tài)模型GPT-4o、二是推出ChatGPT新UI、三是推出桌面版GPT。

2、在未來幾周內(nèi)，GPT-4o模型將分階段集成到OpenAI的各個產(chǎn)品中，免費提供給我們使用。

3、不過，即使是免費，OpenAI也是限制了一定的消息數(shù)量的，當我們使用GPT-4o模型超過一定的消息數(shù)之后，模型就會被切換回GPT-3.5。但如果我們是付費用戶的話，擁有的GPT-4o消息數(shù)上限就是免費用戶的五倍。

4、目前，GPT-4o可以支持包括中文在內(nèi)的20種語言。

5、比起GPT-4，GPT-4o的優(yōu)勢在于它更擅長打組合拳，可以處理文字、音頻、圖像的任意組合輸入，然后生成對應的組合來進行回答，包括通過語音來回答。

6、在傳統(tǒng)的基準測試中，GPT-4o在文本、推理和編碼智能等方面，都達到了GPT-4 Turbo級別的性能，而在多語言、音頻和視覺能力方面，則是創(chuàng)下了新高。

文本評估

GPT-4o在0次COT MMLU上創(chuàng)下了88.7%的新高；在傳統(tǒng)的5次無CoT MMLU上，GPT-4o創(chuàng)下了87.2% 的新高。（注：Llama3 400b仍在訓練中）

音頻ASR性能

GPT-4o在所有語言上顯著提高了語音識別性能，尤其是對于資源匱乏的語言。

音頻翻譯性能

在語音翻譯方面，GPT-4o創(chuàng)下了新的好成績，并處于領(lǐng)先地位，它在MLS基準測試中的表現(xiàn)也優(yōu)于Whisper-v3。

Whisper-v3是由OpenAI開發(fā)并開源的語音識別模型。它是Whisper 系列模型的最新版本，專門用于自動語音識別，即把人類的語音轉(zhuǎn)換成書面文本。

M3Exam零樣本結(jié)果

GPT-4o在M3Exam基準測試中，表現(xiàn)出來的結(jié)果比GPT-4更強。

M3Exam基準測試，由來自其他國家標準化考試的多項選擇題組成，包括多語言評估和視覺評估。

視覺理解評估

GPT-4o在視覺感知基準測試中達到了最先進的水平，所有視覺評估均為0次，其中MMMU、MathVista和 ChartQA為0次CoT。

7、曾經(jīng)，我們通過語音和GPT-3.5對話的平均延遲是2.8秒，和GPT-4對話的平均延遲是5.4秒，之所以有這么長的延遲，是因為模型邏輯是：先通過一個簡單模型將音頻轉(zhuǎn)錄為文本—GPT-3.5或GPT-4接收文本后再輸出文本—接著由另一個簡單模型將文本轉(zhuǎn)換成音頻。中間轉(zhuǎn)來轉(zhuǎn)去的，又容易丟失信息，所以才會存在延遲，以及無法輸出類似于人類的情感表達。

8、現(xiàn)在，我們通過語音和GPT-4o對話的平均響應時間是300毫秒，基本和人類的反應速度一致。這是因為GPT-4o的所有輸入和輸出都在該模型中由同一神經(jīng)網(wǎng)絡(luò)進行處理，不像GPT-3.5或GPT-4一樣需要轉(zhuǎn)來轉(zhuǎn)去的，沒有了“中間商賺差價”自然就更快、更及時了。

9、在直播間演示和官網(wǎng)發(fā)布的場外演示中，我們可以發(fā)現(xiàn)，GPT-4o能夠隨時加入或打斷人們的對話，而且它也能識別說話人的情緒、語調(diào)，然后根據(jù)場景或人們的指令生成各種不同的語調(diào)、情緒的聲音來進行回復，哪怕要求它唱歌也是可以的。