OpenAI發(fā)布GPT

燕山茶社 2024-05-14 發(fā)布于河北

展開全文

OpenAi春季發(fā)布會，上線了GPT-4o，不僅可以免費在ChatGPT中使用，還可以同時處理音頻，視頻，與輸入文本等多種輸入信息。

GPT-4o（“o”代表“omni”）它接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像的任意組合輸出。模型更加智能，且輸入輸出方式更加自然，符合人類的交互需求。它可以在短短 232 毫秒內(nèi)響應音頻輸入，平均為 320 毫秒，這與人類在對話中的響應時間相似，完全可以跟模型進行實時聊天了，而不是需要等待一段時間，失去了真真聊天的意義。

它在英語和代碼文本上的表現(xiàn)與 GPT-4 Turbo 相當，在非英語語言文本上的表現(xiàn)有顯著改善，同時 API 也更快、價格便宜 50%。與現(xiàn)有模型相比，GPT-4o 在視覺和音頻理解方面尤其出色。

在 GPT-4o 之前，可以使用語音模式與 ChatGPT 交談，平均延遲為 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。主要原因是語音模式是一個由三個獨立模型組成的系統(tǒng)：一個簡單的語音模型將音頻轉(zhuǎn)錄為文本，GPT-3.5 或 GPT-4 接收文本并輸出文本，第三個語音模型再將該文本轉(zhuǎn)換回音頻。這個過程不僅要使用3個模型，浪費時間，而模型之間并沒有交互動作，每個模型完成自己的任務(wù)。不僅在交互中會丟失信息，更沒聊天的情感在。給人的感覺就是一個冰冷的機器設(shè)備。

借助 GPT-4o，OpenAi在文本、視覺和音頻上端到端地訓練了一個新模型，這意味著所有輸入和輸出都由同一個神經(jīng)網(wǎng)絡(luò)處理。由于 GPT-4o 是第一個結(jié)合所有這些模式的模型，因此仍然只是在探索該模型可以做什么及其局限性。

GPT-4o 的文本和圖像功能已經(jīng)在 ChatGPT 中推出。并在免費套餐中提供 GPT-4o，并向 Plus 用戶提供高達 5 倍的消息限制。OpenAi將在未來幾周內(nèi)在 ChatGPT Plus 中推出新版語音模式 GPT-4o 的 alpha 版。

開發(fā)人員現(xiàn)在還可以在 API 中訪問 GPT-4o 作為文本和視覺模型。與 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，價格降低一半，速率限制提高 5 倍。