OpenAi春季發(fā)布會,上線了GPT-4o,不僅可以免費在ChatGPT中使用,還可以同時處理音頻,視頻,與輸入文本等多種輸入信息。 GPT-4o(“o”代表“omni”)它接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。模型更加智能,且輸入輸出方式更加自然,符合人類的交互需求。它可以在短短 232 毫秒內(nèi)響應音頻輸入,平均為 320 毫秒,這與人類在對話中的響應時間相似,完全可以跟模型進行實時聊天了,而不是需要等待一段時間,失去了真真聊天的意義。 它在英語和代碼文本上的表現(xiàn)與 GPT-4 Turbo 相當,在非英語語言文本上的表現(xiàn)有顯著改善,同時 API 也更快、價格便宜 50%。與現(xiàn)有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。 在 GPT-4o 之前,可以使用語音模式與 ChatGPT 交談,平均延遲為 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。主要原因是語音模式是一個由三個獨立模型組成的系統(tǒng):一個簡單的語音模型將音頻轉(zhuǎn)錄為文本,GPT-3.5 或 GPT-4 接收文本并輸出文本,第三個語音模型再將該文本轉(zhuǎn)換回音頻。這個過程不僅要使用3個模型,浪費時間,而模型之間并沒有交互動作,每個模型完成自己的任務(wù)。不僅在交互中會丟失信息,更沒聊天的情感在。給人的感覺就是一個冰冷的機器設(shè)備。 借助 GPT-4o,OpenAi在文本、視覺和音頻上端到端地訓練了一個新模型,這意味著所有輸入和輸出都由同一個神經(jīng)網(wǎng)絡(luò)處理。由于 GPT-4o 是第一個結(jié)合所有這些模式的模型,因此仍然只是在探索該模型可以做什么及其局限性。 GPT-4o 的文本和圖像功能已經(jīng)在 ChatGPT 中推出。并在免費套餐中提供 GPT-4o,并向 Plus 用戶提供高達 5 倍的消息限制。OpenAi將在未來幾周內(nèi)在 ChatGPT Plus 中推出新版語音模式 GPT-4o 的 alpha 版。 開發(fā)人員現(xiàn)在還可以在 API 中訪問 GPT-4o 作為文本和視覺模型。與 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,價格降低一半,速率限制提高 5 倍。 ![]() ![]() ![]() ![]() |
|