【原】LLMs之OpenAI o1：OpenAI o1的簡介、安裝和使用方法、案例應用之詳細攻略

處女座的程序猿 2024-09-13 發(fā)布于上海

展開全文

LLMs之OpenAI o1：OpenAI o1的簡介、安裝和使用方法、案例應用之詳細攻略

導讀：OpenAI 推出全新推理模型系列 OpenAI o1，旨在提升 AI 模型的推理能力，使其能夠更深入地思考問題，并解決更復雜的任務，尤其在科學、編碼和數(shù)學領域表現(xiàn)出色。
背景痛點：現(xiàn)有 AI 模型在解決復雜問題時，推理能力不足，難以處理科學、編碼、數(shù)學等領域中的難題。
解決方案：OpenAI 推出全新推理模型系列 OpenAI o1，旨在提升模型的推理能力，使其能夠更深入地思考問題，并解決更復雜的任務。
核心思路步驟:
>>? 訓練方法：通過訓練，模型學習更長時間地思考問題，嘗試不同的策略，并識別錯誤。
>>? 推理能力提升：模型能夠像人類一樣，進行更深入的推理，并解決更復雜的問題。
>>? 安全保障：采用新的安全訓練方法，利用模型的推理能力，使其更好地遵循安全和對齊準則。
優(yōu)勢：
>>?強大的推理能力：在科學、編碼、數(shù)學等領域表現(xiàn)出色，例如在國際數(shù)學奧林匹克競賽中取得了優(yōu)異的成績。
>>?安全可靠：新的安全訓練方法有效提升了模型的安全性和可靠性，并通過嚴格的測試和評估來確保其安全性。
>>?廣泛應用：適用于各種需要推理能力的應用場景，例如醫(yī)療研究、物理學研究、軟件開發(fā)等。
OpenAI o1-mini:
>>?針對開發(fā)人員推出的更輕量級推理模型，專注于代碼生成和調試。
>>?速度更快，成本更低，適合需要推理能力但不需要廣泛世界知識的應用場景。
未來展望:
>>?持續(xù)更新模型，并添加更多功能，例如網頁瀏覽、文件和圖片上傳等。
>>?繼續(xù)開發(fā)和發(fā)布 GPT 系列模型，以及 OpenAI o1 系列模型。
總結：OpenAI o1-preview 是 OpenAI 在推理能力方面取得的重大突破，為解決復雜問題提供了新的解決方案。其強大的推理能力、安全可靠性以及廣泛的應用場景，使其成為未來 AI 發(fā)展的重要方向。

概述

2024年9月12日，OpenAI正式推出流傳已久的OpenAI o1-preview，這是一個全新的推理模型系列，用于解決復雜問題。9月12日起正式上線。

我們開發(fā)了一系列新的AI模型，旨在在回答問題之前花費更多時間進行思考。這些模型能夠推理復雜任務，并解決科學、編碼和數(shù)學領域中比以往模型更難的問題。

今天，我們在ChatGPT和我們的API中發(fā)布了這一系列的首款模型。這是一個預覽版，我們預計會定期更新和改進。與此次發(fā)布同時推出的，還有正在開發(fā)中的下一次更新的評估。

官網地址：https:///index/introducing-openai-o1-preview/

工作原理

我們訓練這些模型在回答問題之前花費更多時間思考，類似于人類的思考過程。通過訓練，它們學會了改進思維過程，嘗試不同的策略，并能夠識別錯誤。

在我們的測試中，下一次模型更新在物理、化學和生物等高難度基準任務中表現(xiàn)與博士生相當。我們還發(fā)現(xiàn)它在數(shù)學和編碼方面表現(xiàn)出色。在國際數(shù)學奧林匹克（IMO）預選考試中，GPT-4o僅正確解決了13%的問題，而推理模型的正確率達到了83%。在編程能力測試中，該模型在Codeforces競賽中達到了89百分位。你可以在我們的技術研究文章中了解更多。

作為早期模型，它目前還沒有許多使ChatGPT更實用的功能，例如瀏覽網絡獲取信息和上傳文件及圖像。在許多常見場景中，GPT-4o將在短期內表現(xiàn)得更為強大。

但對于復雜推理任務而言，這是一次重大突破，代表了AI能力的新水平。鑒于此，我們將計數(shù)重置為1，并將這一系列命名為OpenAI o1。

安全性

在開發(fā)這些新模型的過程中，我們采用了一種新的安全訓練方法，利用其推理能力，使其遵循安全性和對齊性指南。通過能夠在上下文中推理安全規(guī)則，它可以更有效地應用這些規(guī)則。

我們通過測試模型在用戶試圖繞過其安全規(guī)則時能否繼續(xù)遵守安全規(guī)則（稱為“越獄”）來衡量其安全性。在我們最難的越獄測試中，GPT-4o得分為22（滿分為100），而我們的o1-preview模型得分為84。你可以在系統(tǒng)卡片和我們的研究文章中了解更多。

為了與這些模型的新能力相匹配，我們加強了我們的安全工作、內部治理以及與聯(lián)邦政府的合作。這包括使用我們的準備框架（新窗口打開）、一流的紅隊測試以及董事會層面的審查流程，包括安全與安保委員會的審查。

為了推動我們對AI安全的承諾，我們最近與美國和英國的AI安全機構正式簽署了協(xié)議。我們已經開始落實這些協(xié)議，包括為這些機構提供研究版本的早期訪問權限。這是我們合作中的重要第一步，幫助建立研究、評估和測試未來模型的流程，以確保在公開發(fā)布之前和之后都能進行審查。

適用對象

這些增強的推理能力在解決科學、編程、數(shù)學等領域的復雜問題時可能特別有用。例如，o1可以被醫(yī)療研究人員用來標注細胞測序數(shù)據(jù)，物理學家可以使用它生成量子光學所需的復雜數(shù)學公式，開發(fā)者可以用它來構建和執(zhí)行多步驟的工作流程。

OpenAI o1-mini

o1系列擅長準確生成和調試復雜代碼。為了為開發(fā)者提供更高效的解決方案，我們還推出了OpenAI o1-mini，這是一個更快速、更廉價的推理模型，特別擅長編碼。作為一個更小的模型，o1-mini的成本比o1-preview低80%，對于需要推理但不需要廣泛世界知識的應用來說，它是一個強大且具有成本效益的模型。

如何使用OpenAI o1

測試地址：https:///?model=o1-preview
API地址：https://platform./playground/chat?models=o1-mini

從今天開始，ChatGPT Plus和團隊用戶可以在ChatGPT中訪問o1模型。o1-preview和o1-mini可以手動在模型選擇器中選擇。上線時，每周的消息限額分別為30條（o1-preview）和50條（o1-mini）。我們正在努力提高這些限額，并使ChatGPT能夠自動為給定提示選擇合適的模型。

一個新的ChatGPT下拉菜單的圖片，顯示了新的“o1-preview”模型選項，背景為亮黃色和藍色的抽象圖案 ChatGPT企業(yè)版和教育版用戶將在下周獲得對這兩個模型的訪問權限。

符合API使用等級5的開發(fā)者（新窗口打開）今天可以在API中開始使用這兩個模型進行原型開發(fā)，每分鐘限額為20次請求。我們將在進一步測試后提高這些限額。當前這些模型的API不包括函數(shù)調用、流式傳輸、系統(tǒng)消息支持等功能。要開始使用，請查看API文檔（新窗口打開）。

我們還計劃向所有ChatGPT免費用戶開放o1-mini的使用權限。