OpenAI一夜改寫歷史，GPT-4o干翻所有語音助手！絲滑如真人？

DOICT觀察者 2024-05-15 發(fā)布于江蘇

展開全文

今天凌晨，OpenAI突然放大招，推出新款人工智能模型GPT-4o。

「o」代表著「omni」（全能），GPT-4o改寫了大模型交互定義，可以實時對音頻、視覺和文本進行推理，語音響應(yīng)時間短至232毫秒，與人類的反應(yīng)速度接近。語音對話中，GPT-4o的節(jié)奏、語氣甚至接梗，與真人無異。

新智元稱：“這一夜，OpenAI要改變歷史?！?/span>

“看完發(fā)布會的觀眾們，久久未從巨大的震驚中走出……從今夜之后，人機交互徹底進入新的時代！”

作者 | 新智元編輯部

本文轉(zhuǎn)載自“新智元”，混沌君略有刪改

一夜顛覆語音助手：全新旗艦GPT-4o登場

當(dāng)然，這次發(fā)布會的壓軸主角，就是OpenAI推出的旗艦?zāi)Ｐ虶PT-4o了。

這個帶著光環(huán)登場的模型，其最大意義就在于，把GPT-4級別的智能，帶給了OpenAI的每一位用戶！

從此以后，無論你是付費用戶，還是免費用戶，都能通過它體驗GPT-4了。

唯一不同的是，ChatGPT Plus的消息限制是免費用戶的5倍。

并且，GPT-4o不僅提供與GPT-4同等程度的模型能力，推理速度還更快，還能提供同時理解文本、圖像、音頻等內(nèi)容的多模態(tài)能力。

注意，GPT-4o接下來要放大招了。

實時語音對話：ChatGPT完美變身Moss

研發(fā)負(fù)責(zé)人Mark Chen首先展示的，是全新ChatGPT的關(guān)鍵功能之一——實時語音對話。

他向它問道：「我正在臺上，給大家做現(xiàn)場演示呢，我有點緊張，該怎么辦呀？」

ChatGPT非常體貼地表示：「你在臺上做演示嗎，那你真的太棒了！深呼吸一下吧，記得你是個專家！」

Mark瘋狂地大喘氣幾次，問ChatGPT能給自己什么建議嗎。（此處全場笑聲）

它驚訝地說道：「放松啊Mark，慢點呼吸，你可不是個吸塵器！」（它的幽默感，也再次引起全場哄笑）

注意，在這個過程中，ChatGPT和Mark的互動幾乎無延遲，隨時接梗，共情能力滿分。

而且，模型能夠理解人類在對話中適時「打斷」的習(xí)慣，會及時停下來聽你說話，并給出相應(yīng)的回復(fù)，而且也不會「斷片」。

比如，Mark表示自己要再試一遍深呼吸，此時ChatGPT也恰到好處地插進來接話說「慢慢呼氣」。

整個過程，自然連貫得仿佛它是個坐在你對面的人類，完全沒有AI的機械感和僵硬感！

相比反應(yīng)遲鈍、沒法打斷還缺少情商的Siri等語音助手，這局ChatGPT完勝。

這，才是人類最理想AI語音助手的樣子啊，Moss果然成真了！

不僅如此，ChatGPT的「高情商」也讓觀眾們驚呼太頂了！

對話中，它可以聽懂用戶說話時不同的語調(diào)、語氣，還能根據(jù)自己的臺詞生成不同語氣的語音，完全沒有「機械感」。

扮演不同角色，給任性的人類講睡前故事

接下來，ChatGPT被要求講一個睡前故事，主題是「戀愛中的機器人」。

ChatGPT沒講幾秒，就被人類粗暴地打斷了：「多點情緒，故事里來點戲劇性行不？」

ChatGPT表示ok，用更起伏的聲調(diào)、更夸張的語氣開始講起了故事。

結(jié)果沒幾秒，它又被再次打斷：「不行不行，再多點情感，給我最大程度的表達可以嗎？」

接下來，我們聽到一個仿佛在舞臺上表演莎劇的ChatGPT，語氣夸張到仿佛是個戲劇演員。

隨后，它又多次被打斷，并且耐心地按照人類的要求，依次變成了機器人聲和唱歌模式。

ChatGPT聽到要求自己唱歌時，甚至嘆了口氣，然后開始亮起了優(yōu)美的歌喉。

這也就是ChatGPT脾氣好，要是真人，估計要被暴打了。不過它無奈嘆氣的那個瞬間，一瞬間的確san值狂掉——真的好像人??！

視頻實時互動解方程

秀完情商，ChatGPT要開始秀智商了。

下一個任務(wù)，另一位研發(fā)負(fù)責(zé)人Barret手寫了一個方程，并打開攝像頭拍給ChatGPT，讓它扮演「在線導(dǎo)師」的角色幫助自己解題，而且只能給提示，不能直接說答案。

接到任務(wù)的ChatGPT，甚至開心大叫：「Oops，我好興奮??！」

小哥在紙上寫下這樣一個方程：3x+1=4。然后問ChatGPT自己寫的是什么方程，ChatGPT語調(diào)自然地回答出來了。

隨后，在小哥的要求下，它一步一步說出了解題步驟。

最厲害的是，隨著小哥在攝像頭中解題，ChatGPT實時地就給出了鼓勵和引導(dǎo)。

而且可怕的是，時間上沒有絲毫延遲，這邊人還在算呢，那邊就實時給出了評價和反饋。（說背后沒藏個人還真不信呢）

想起之前谷歌剪輯版的Gemini演示，這對比之下真是打臉啪啪的啊。

當(dāng)被問到「學(xué)習(xí)線性方程在生活中有什么用」這樣的問題時，ChatGPT還會舉出實際的例子對你「循循善誘」：

這是個不錯的問題，雖然我們沒有注意到，但線性方程在每天的生活中都會出現(xiàn)，比如計算花銷、規(guī)劃旅行、烹飪，甚至在商業(yè)中進行盈虧計算。這基本上是解決問題的一種方式，你需要找到一個未知變量......

不僅言之有物，而且態(tài)度及其和藹，說話說到一半被打斷時都不會生氣。

方程的任務(wù)告一段落，兩人還現(xiàn)場來了一波表白——在紙上寫下「我ChatGPT」。

ChatGPT看到后，驚喜又害羞地說：「哦，你竟然說愛我，你太可愛了！」

桌面版ChatGPT秒解代碼難題

解方程任務(wù)也許還不能充分展現(xiàn)ChatGPT的能力，于是OpenAI又上了一波難度——看代碼，并進行簡短描述。

模型幾乎是立即理解了代碼，并給出了絲滑且完整的描述。

比如準(zhǔn)確對應(yīng)了函數(shù)名及其功能，并識別出了其中取平均值、最高值等操作的意圖。

當(dāng)被問到「如果沒有foo這個函數(shù)，繪制的圖表會是什么樣子」，ChatGPT也立即做出了正確回復(fù)，可見已經(jīng)完美理解了代碼中的內(nèi)在邏輯。

接下來，ChatGPT還被要求概述代碼生成的圖表，并回答用戶問題。

不出意外，圖表中各方面的關(guān)鍵信息也都被ChatGPT精準(zhǔn)捕捉到了，包括x、y軸的信息與范圍、數(shù)據(jù)標(biāo)注的含義等。

隨后Mark提出的問題是「你看到哪個月的氣溫最高？對應(yīng)的最高氣溫大概是多少？」

這種能作為學(xué)校數(shù)學(xué)考試題目的圖表理解任務(wù)，ChatGPT解決起來也幾乎沒有障礙，還能像接受面試一樣實時回答你的問題。

直播觀眾提問：給你看看我的自拍

模型演示之后，還有彩蛋。

發(fā)布會在線上同步直播，于是主持人收集了一些推特網(wǎng)友的提問，并且當(dāng)場展示。

這可以說是比演示更加刺激的環(huán)節(jié)，在沒有準(zhǔn)備和彩排的情況下，這可是真刀真槍地檢驗?zāi)Ｐ蛯嵙α恕?/span>

第一位網(wǎng)友的提問是「GPT-4o是否具有實時翻譯功能？」

隨后，在Mark的任務(wù)定義下，ChatGPT完成了將英語「同聲傳譯」為意大利語的任務(wù)。

第二位網(wǎng)友的提問是「模型可以只通過我的表情識別情緒嗎？」

研發(fā)負(fù)責(zé)人Barett也沒在怕，拿起手機就照了一張自拍，甩給了ChatGPT，問道「我現(xiàn)在是什么情緒呢？」

ChatGPT不知是幽默了一把還是翻車了，說「我好像在看一個木質(zhì)表面的東西」。

見勢不好，Barett匆忙打斷。他在提示工程方面也是經(jīng)驗頗深，一句話就將對話拉回正軌：「那是我之前發(fā)給你的的東西，不用擔(dān)心，我不是一張桌子」。

ChatGPT表示，啊，這就對了嘛。再次引起全場哄笑。這次它給出了非?！溉诵曰沟恼_答案——

「看起來你非常開心快樂，帶著大大的笑容，可能甚至有一點興奮。無論正在發(fā)生什么事，似乎你心情很好，愿意分享一下有什么高興事嗎？」

Barett順勢表示：「我開心的原因是我們正在做演示，你的表現(xiàn)很棒。」

受到夸獎的ChatGPT居然很風(fēng)趣地來了一句「哦，別說了，你都讓我臉紅了」，再次逗笑了全場。

GPT-4o強在哪兒？

在過去幾年里，OpenAI一直在專注于提升模型的智能水平。

雖然后者已經(jīng)達到了一個相當(dāng)?shù)乃剑?，今天這是第一次，模型在易用性方面，邁出了一大步！

為什么會把模型的易用性提到如此戰(zhàn)略層面的高度？這是因為，即使一個AI再強大，如果它不能和人有效互動，也就失去了意義。

在這個過程中，OpenAI所著眼的，是人類和機器交互的未來。

而今天GPT-4o的發(fā)布，可能會成為一個分水嶺，讓人機協(xié)作的范式徹底邁入一個新階段！

為此，OpenAI希望把GPT-4o和人類的互動，打造得格外舒服自然。

不過，雖然這個理想很宏大，但是在實際操作過程中，卻遭遇了不小的困難。

毫秒級響應(yīng)，與人類對話一致

首先，在人類之間互動時，有很多東西是我們認(rèn)為理所當(dāng)然的，但要讓AI理解這些，就變得很困難。

比如，我們的談話經(jīng)常被打斷，談話過程中會有背景噪聲，會有多個人同時說話的情況，說話人的語氣語調(diào)也經(jīng)常發(fā)生微妙的變化。

OpenAI克服了很大困難，花費了數(shù)月的時間，終于打造出了完美適應(yīng)這些狀況的GPT-4o！

在GPT-4o發(fā)布之前，通過語音模式（Voice Mode）與ChatGPT對話，平均延遲為2.8秒（GPT-3.5）和5.4秒（GPT-4）。

當(dāng)時，為了實現(xiàn)這一點，「語音模式」設(shè)有三個獨立模型的管線：

- 一個簡單模型將音頻轉(zhuǎn)錄成文本

- GPT-3.5或GPT-4接收文本并輸出文本

- 第三個簡單模型將文本轉(zhuǎn)換回音頻

這一過程走下來，意味著主要的智能來源GPT-4就丟失了很多信息：

不能直接觀察語氣、多位說話者或背景噪音，也無法無法輸出笑聲、歌聲或表達情感。

而這也導(dǎo)致了延遲，大大破壞了我們和ChatGPT協(xié)作的沉浸感。

但現(xiàn)在，GPT-4o讓一切都發(fā)生得很自然。

它能以平均320毫秒，做出響應(yīng)。

它可以跨越語音、文本、視覺多種形式，直接進行推理！

GPT-4o是OpenAI首個端到端訓(xùn)練的跨越文本、視覺和音頻的新模型，意味著所有輸入和輸出都由相同的神經(jīng)網(wǎng)絡(luò)處理。

這就會徹底顛覆ChatGPT 1億用戶的工作和生活。

不僅如此，由于GPT-4o是「原生的多模態(tài)」，自然地集成了語言、視覺和音頻等多種能力。

用戶可以上傳各種圖片、視頻，以及包含圖片和文字的文檔，討論其中的內(nèi)容。

GPT-4o也內(nèi)置了搜索功能，可以實時搜索網(wǎng)頁信息來回復(fù)用戶。

相比ChatGPT，GPT-4o的記憶能力更是提升了不少，不僅在對話中可以記住你提過的問題，還能記住你們之間的所有對話，提供「連續(xù)感」。

更高級的是，新版模型還具備了數(shù)據(jù)分析能力，可以理解并分析用戶上傳的數(shù)據(jù)和圖表。

而且，為了真正實現(xiàn)「讓AGI惠及全人類」的愿景，GPT-4o有50種語言的版本，并改進了推理的質(zhì)量和速度，這也就意味著，全球97%的人口都可以使用GPT-4o了！

GPT-4o刷新SOTA，擊敗「開源GPT-4」還免費用

GPT-4o的具體性能表現(xiàn)如何？

接下來的圖表中，可以看到，OpenAI對此前所有堪稱超越GPT-4版本的模型，做出了統(tǒng)一回應(yīng)：

We're so back!

在傳統(tǒng)基準(zhǔn)測試中，GPT-4o在文本、推理和編碼智能方面，達到了GPT-4 Turbo級別的性能，同時在多語言、音頻和視覺能力方面創(chuàng)下了新高。

如下是，在文本評估中，GPT-4o幾乎碾壓一眾模型，包括Claude 3 Opus，Gemini Pro 1.5，甚至是「開源版GPT-4」Llama 3 400B。

GPT-4o在零樣本的COT MMLU（常識問題）上創(chuàng)造了88.7%的新高分。

與傳統(tǒng)的5個樣本，沒有使用COT的MMLU評測中，GPT-4o更是創(chuàng)下了87.2%的新高分！

不過在DROP中，GPT-4o的表現(xiàn)稍落后于GPT-4 Turbo。

在音頻ASR表現(xiàn)上，比起Whisper-v3 ，GPT-4o顯著提高了所有語言的語音識別性能，尤其是對資源較少的語言。

音頻翻譯能力，GPT-4o刷新SOTA，并在MLS基準(zhǔn)上超過了Whisper-v3。

另外，OpenAI團隊還對最新模型GPT-4o在M3Exam基準(zhǔn)上進行了測試。

這是一種多語言和視覺評估基準(zhǔn)，由來自其他國家標(biāo)準(zhǔn)化測試的多項選擇題組成，有時還包括數(shù)字和圖表。

結(jié)果如下表所示，在所有語言的測試中，GPT-4o都比GPT-4強。

（在此，省略了Swahili和Javanese兩種語言的視覺結(jié)果，因為這些語言只有5個或更少的視覺問題。）

最后，在視覺理解基準(zhǔn)EVALS評估上，GPT-4o也取得了領(lǐng)先的性能。

同樣，擊敗了GPT-4 Turbo、Gemini 1.0 Ultra、Gemini 1.5 Pro，以及Claude 3 Opus。

ChatGPT免費用戶，可以訪問的功能

OpenAI官博還介紹了，ChatGPT免費用戶可以訪問新模型加持下的功能，包括：

- 體驗GPT-4級別的智能

- 從聯(lián)網(wǎng)后的模型得到響應(yīng)

- 分析數(shù)據(jù)并創(chuàng)建圖表

- 暢聊你拍的照片

- 上傳文件以幫助總結(jié)、撰寫或分析

- 發(fā)現(xiàn)和使用GPTs和GPT Store

- 用記憶構(gòu)建更有用的體驗

比如，你拍一張照片發(fā)給ChatGPT，然后問「這個食物的營養(yǎng)價值是什么」？

ChatGPT瞬間做出響應(yīng)，解釋了牛角包的營養(yǎng)價值。

免費用戶還可以體驗到聯(lián)網(wǎng)搜索的快樂。（當(dāng)然是最新最強模型）

另外，免費福利還包括，在GPT商店中使用模型。

API速度飆升2倍，再打骨折

此外，讓開發(fā)者興奮的是，GPT-4o不僅應(yīng)用在ChatGPT服務(wù)中，模型的API也被同步放出，可以部署各種下游應(yīng)用程序上。

同時，API的性能也有所改進，據(jù)說相比GPT-4 Turbo，推理速度提升2倍，消息限制提高五倍，而且價格還會降低50%。

ChatGPT桌面版也來了

正如Murati一出場開宗明義的：對OpenAI來說，打造一款真正讓所有人可用的產(chǎn)品，非常之重要。

為了讓每個人無論身在何處，都能隨時用上ChatGPT，OpenAI發(fā)布了ChatGPT的桌面版本。

它擁有桌面應(yīng)用程序，和全新的用戶界面，可以很輕易地和我們的工作流融為一體。

只需一個簡單的快捷鍵——Option+空格鍵，就可以立即召喚桌面版ChatGPT。

甚至，你也可以直接在應(yīng)用程序中截圖，并進行提問。

然后，讓其幫你總結(jié)所截取的網(wǎng)頁內(nèi)容——「將其總結(jié)成5個主題，并列出行動計劃」。

接下來，ChatGPT一通炫技，嗖嗖嗖地解決了提出的問題。

你甚至，可以從你的電腦上直接與ChatGPT進行語音對話，點擊桌面應(yīng)用程序右下角的耳機圖標(biāo)，便可開始。

神秘gpt2就是GPT-4o！

幾天前，大模型LMSYS競技場上，一個名為gpt2神秘模型突然現(xiàn)身，其性能甚至超越了GPT-4。

全網(wǎng)紛紛猜測，這個模型，可能就是GPT-4.5/GPT-5。

就連Altman本人多次發(fā)貼，暗示gpt2的強大能力——

如今，gpt2的身份，真的解密了。

OpenAI研究科學(xué)家William Fedus剛剛發(fā)文，一直在測試的版本「im-also-a-good-gpt2-chatbot」就是GPT-4o。

以下是它一直以來的表現(xiàn)。

im-also-a-good-gpt2-chatbot總ELO得分，超過了最新的gpt4-turbo-2024-04-09。

但ELO最終得分，會受到「提示」難度的限制（即無法在類似「你好嗎」這種簡單提示上取得任意高的勝率）。

OpenAI團隊發(fā)現(xiàn)，在更難的提示集合上——尤其是編程方面——存在更大的差距：

而GPT-4o在我們此前的最佳模型上，ELO甚至可以提高100分。

最關(guān)鍵的是，GPT-4o不僅是全世界最好的模型，甚至可以在ChatGPT中免費用。

另一邊，LMSYS發(fā)布了最新的gpt2-chatbots結(jié)果，已經(jīng)躍升至大模型競技場榜首！

奧特曼對此大贊，「令人驚嘆的工作」！

OpenAI聯(lián)創(chuàng)Greg Brockman表示，「初步的指標(biāo)看起來很有前景」。

接下來，就看明天谷歌I/O大會上的表現(xiàn)了。

參考資料：

https://twitter.com/gdb/status/1790071008499544518

https:///index/hello-gpt-4o/

https:///index/gpt-4o-and-more-tools-to-chatgpt-free/

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： DOICT觀察者 > 《DICT軟件技術(shù)服務(wù)》

舉報/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

DOICT觀察者

關(guān)注對話

TA的最新館藏

?忒休斯之船、漏水的船及不系之舟
秋茄子
一二線城市引領(lǐng)增長，Z世代年輕人是電競實體場景最主流消費人群——2024年電競實體場景發(fā)展報告
[轉(zhuǎn)] 流連歌妓美貌，卻是兩代皇帝都愛的“宰相詞人”，古代第一星探，卻埋沒自己兒子
光纖項目損耗如何計算？這個表格徹底解決
當(dāng)年南通縣“五大市鎮(zhèn)”中，三余最年輕——探訪三余鎮(zhèn)的形成與初貌

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

OpenAI一夜改寫歷史，GPT-4o干翻所有語音助手！絲滑如真人？

今天凌晨，OpenAI突然放大招，推出新款人工智能模型GPT-4o。