無法訪問GPT-3？強大的克隆版GPT-J帶著60億參數(shù)來了

板橋胡同37號 2021-07-19

展開全文

編輯｜核子可樂、鈺瑩

去年 9 月，微軟宣布與 OpenAI 達成獨家授權(quán)協(xié)議，稱該公司將使用 GPT-3 來“創(chuàng)建新的解決方案，利用先進自然語言生成的驚人能力”。這一安排不會阻止其他公司通過 OpenAI 的 API 訪問 GPT-3，但它賦予了微軟獨家使用基本代碼的權(quán)利，這就像乘坐一輛飛車和打開引擎蓋修理發(fā)動機之間的區(qū)別。

如今，EleutherAI 研究團隊開源了一個基于 GPT-3 的自然語言處理 AI 模型 GPT-J，能夠與類似規(guī)模的 GPT-3 模型相媲美。

EleutherAI 開源 60 億參數(shù)的 GPT-J

為了打破 OpenAI 和微軟對自然語言處理 AI 模型的壟斷，EleutherAI 的一組研究人員已經(jīng)對 GPT-J 進行開源。GPT-J 是一套基于 GPT-3 的 AI 模型，其中包含 60 億條參數(shù)。該模型使用高達 800 GB 的開源文本數(shù)據(jù)集訓(xùn)練而成，并在性能上足以與同等規(guī)模的 GPT-3 模型相媲美。

開發(fā)者 Aran Komatsuzaki 在自己的博客上發(fā)布了這個版本。本套模型采用 Google Cloud 的 v3-256 TPU 在 EleutherAI 的 Pile 數(shù)據(jù)集上訓(xùn)練完成，整個訓(xùn)練周期大約為五個星期。在常規(guī) NLP 基準(zhǔn)測試任務(wù)當(dāng)中，GPT-J 的準(zhǔn)確率與 OpenAI 方面發(fā)布的 GPT-3 67 億參數(shù)版高度相似。

EleutherAI 開源的這個版本包含模型代碼、預(yù)訓(xùn)練權(quán)重文件、Colab notebook 以及演示網(wǎng)站等。根據(jù) Komatsuzaki 的介紹，GPT-J 是目前公開可用的 Transformer 語言模型當(dāng)中，在處理下游任務(wù)時實現(xiàn)最佳零樣本性能的解決方案。

OpenAI 于 2018 年首次發(fā)表了關(guān)于生成式預(yù)訓(xùn)練 transformers（GPT）的論文，這是一種無監(jiān)督學(xué)習(xí)模型、在多項 NLP 任務(wù)上取得了最佳結(jié)果。2019 年初，OpenAI 公布了一套名為 GPT 的 15 億參數(shù)模型，并將其命名為 GPT-2。OpenAI 最初拒絕發(fā)布體量更大的訓(xùn)練模型，理由是“擔(dān)心此項技術(shù)遭到濫用”……但萬物逃不過“真香”定律，他們還是在同年晚些時候發(fā)布了新版本。去年，OpenAI 拿出了一套包含 1750 億個參數(shù)的新模型，名為 GPT-3，但同樣沒有發(fā)布訓(xùn)練后的模型文件。相反，OpenAI 決定提供一個 API，允許開發(fā)人員通過 Web 服務(wù)調(diào)用該模型將這項功能整合到自己的代碼當(dāng)中。

EleutherAI 是一個“由獨立的基層志愿者組成的研究人員團體”，并于 2021 年 3 月發(fā)布了他們的第一個“類 GPT”系統(tǒng)實現(xiàn)方案，即 27 億參數(shù)的 GPT-Neo 模型。GPT-Neo 以 TensorFlow 為實現(xiàn)環(huán)境，并在 TPU 上使用并行庫 Mesh TensorFlow。該團隊之后又著手開發(fā) GPT-NeoX，這是一套基于 GPU 并使用微軟 DeepSpeed 的實現(xiàn)方案；雖然代碼已經(jīng)開源，但目前尚無可用的模型文件。

而此次發(fā)布的最新模型 GPT-J 則是使用新庫 Mesh-Transformer-JAX 訓(xùn)練而成。該庫使用谷歌的 JAX 線性代數(shù)框架，而非 TensorFlow 等專用深度學(xué)習(xí)框架。Komatsuzaki 表示，GPT-J 擁有“比 TensorFlow 更靈活、更快的推理速度”，且模型的開發(fā)周期也比以往的項目短得多。與體量為 2.7 GB 的 GPT-Neo 模型相比，GPT-J 的訓(xùn)練效率提高了 125%。

為了回應(yīng)人們對于模型遭受濫用的擔(dān)憂，EleutherAI 聯(lián)合創(chuàng)始人 Connor Leahy 在該組織的博客上重申了對成果進行開源的理由。Leahy 指出，像 GPT 這樣的模型“結(jié)構(gòu)簡單、原理清晰”，因此不可能奢望能阻止它永不落入壞人手中。相反，EleutherAI 希望能借自己的開源努力推動更廣泛的安全研究，特別是幫助“資源匱乏”的研究人員接觸到同等規(guī)模的復(fù)雜模型。Leahy 還指出，不少資金充足的組織已經(jīng)訓(xùn)練出比 GPT-3 更大的模型，微軟、英偉達及谷歌都在此列。

在關(guān)于 GPT-J 版本的討論當(dāng)中，一位用戶通過推文詢問了運行這套模型的硬件要求。Komatsuzaki 回應(yīng)如下：

要實現(xiàn)推理，您在原則上可以通過修改代碼，將這套模型運行在任何具有 12 GB 以上內(nèi)存的硬件之上。但使用 TPU 可以實現(xiàn)最佳吞吐量，只是這要求您只能直接運行原始模型。如果要對模型進行調(diào)優(yōu)，則您至少需要具備 TPU v3-8。

GPT-J 代碼與模型現(xiàn)已在 GitHub 上發(fā)布。EleutherAI 的官方網(wǎng)站中則提供關(guān)于模型文本生成功能的交互式演示。

官方演示地址：https://6b./

GitHub 地址：https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b

原文鏈接：https://www./news/2021/07/eleutherai-gpt-j/

GPT-3 的局限

雖然 GPT-3 擁有龐大的 1750 億參數(shù)，用來定義自己的語言，但這些訓(xùn)練數(shù)據(jù)集大多是從互聯(lián)網(wǎng)上學(xué)習(xí)到的，包括新聞文章、維基百科條目和在線書籍，還包括 Reddit 和其他網(wǎng)站上的所有討論，這些內(nèi)容有對有錯，導(dǎo)致 GPT-3 也會時不時出現(xiàn)一些攻擊性內(nèi)容。

在一篇題為《更好的語言模型及其影響》（Better Language Models and Their Implications）的博客文章中，OpenAI 強調(diào)，主要擔(dān)心的是，惡意行為者會利用 GPT-2 生成高質(zhì)量的虛假新聞，從而愚弄讀者，并破壞事實與虛構(gòu)之間的區(qū)別。

然而，人工智能社區(qū)有很多人反對這一限制發(fā)布的做法。當(dāng)年晚些時候，該公司改弦更張，提供了一個完整的模型，但確實有人利用它制造假新聞，騙取了點擊量。但它并沒有在互聯(lián)網(wǎng)上掀起一場非真相的海嘯。在過去的幾年里，人們已經(jīng)證明了他們自己能夠在無需人工智能的幫助下就能做到很好。

然后是 GPT-3，在 2020 年 5 月的一份長達 75 頁的論文中亮相。OpenAI 最新的語言模型要遠遠大于之前的任何一個模型。與 GPT-2 的 15 億個參數(shù)相比，它的 1750 億語言參數(shù)有了顯著增長。

Sandhini Agarwal 是 OpenAI 的人工智能政策研究員，他向 Spectrum 介紹了該公司的 GPT-3 策略?！拔覀儽仨毢蜕贁?shù)人一起進行這個封閉測試，否則我們甚至不知道這個模型的能力，也不知道我們需要在哪些問題上取得進展，”她說，“如果我們想要在有害的偏見等問題上取得進展，我們就必須實際部署?！?/p>

Agarwal 解釋說，一個內(nèi)部團隊將審查所提議的應(yīng)用，為那些通過 API 獲得 GPT-3 訪問權(quán)限的公司提供安全指南，在部署前再次對應(yīng)用進行審查，并在部署后監(jiān)控其使用情況。

OpenAI 也在開發(fā)工具，幫助用戶對 GPT-3 生成的文本進行更好的控制。它提供了一個針對有害偏見和“有毒”語言的通用內(nèi)容過濾器。但是，Agarwal 表示，這種過濾器實際上是不可能創(chuàng)建的。因為“偏見是一種非常虛幻的東西，會根據(jù)上下文不斷變化而變化”。特別是在有爭議的話題上，一個在辯論一方的人看來可能是正確的回應(yīng)，卻可能被另一方認為是“有毒”的。

另一種方法是提示工程，它將諸如“the friendly bot then said”等語句添加到用戶的提示中，這樣就可以將 GPT-3 設(shè)置為以禮貌、無爭議的語氣生成文本。用戶還可以為自己的回答選擇一個“溫度”設(shè)置。設(shè)定較低的溫度，意味著人工智能可以將以前很普通的詞語組合起來，很少冒險，也不會引起意外；設(shè)定較高的溫度，就更容易產(chǎn)生奇怪的語言。

目前，尚不清楚這種局限是否會同樣體現(xiàn)在 GPT-J 身上，團隊又是否會有相應(yīng)的解決方案。

此外，上述兩種模型都不是針對中文語境推出的，對中文的表現(xiàn)都不盡如人意。在 NLP 任務(wù)中，中文語言是很有挑戰(zhàn)的。與英文不同，中文需要進行分詞，而英文就是天然單詞；其次中文的歧義性很強，比如說“喜歡上 / 一個人”，”喜歡 / 上一個 / 人“，”喜歡上 / 一個 / 人“，這些都表達了不同的意思。

因此，我們也在過去一年見證了以中文為核心的大規(guī)模預(yù)訓(xùn)練模型的出現(xiàn)。

以中文為核心的大規(guī)模預(yù)訓(xùn)練模型

清源 CPM

清源 CPM 是北京智源人工智能研究院和清華大學(xué)研究團隊合作開展的大規(guī)模預(yù)訓(xùn)練模型，2020 年 11 月中旬，CPM 開放第一階段的 26 億參數(shù)規(guī)模的中文語言模型 (CPM-LM) 和 217 億參數(shù)規(guī)模的結(jié)構(gòu)化知識表示模型 (CPM-KM) 下載，以及相應(yīng)的系統(tǒng)演示。

關(guān)于預(yù)訓(xùn)練模型的大量實驗表明，更大的模型參數(shù)和更多的預(yù)訓(xùn)練數(shù)據(jù)，通常能夠帶來更好的下游任務(wù)效果，這類模型被證明在各種少樣本學(xué)習(xí) NLP 任務(wù)中十分有效。傳統(tǒng)預(yù)訓(xùn)練模型往往需要經(jīng)過有監(jiān)督訓(xùn)練數(shù)據(jù)微調(diào) (Fine-tuning)，才能解決各種自然語言處理任務(wù)。而第一版 CPM 中文語言模型與 GPT-3 等預(yù)訓(xùn)練模型類似，僅需要通過少次、單次學(xué)習(xí)甚至零次學(xué)習(xí)，就能完成不同自然語言處理任務(wù)，具備一定的常識和認知的泛化能力。CPM 模型從大規(guī)模的中文語料庫中學(xué)習(xí)了通用的語言模式，有望顯著提升中文自然語言處理各任務(wù)的性能。初步的實驗表明，CPM 模型能夠用于問題解答、摘要和對話以及生成各種文本包括隨筆、小說、代碼、電子表格等。

與此同時，基于清源 CPM 模型的文本深度理解和智能生成能力，智源研究院也將積極與產(chǎn)業(yè)界合作，在智能客服、個性推薦、文本生成、自動編程等方面，探索新型的人工智能應(yīng)用和商業(yè)模式。

相關(guān)資源：

清源 CPM 主頁：https://cpm./

清源 CPM Github 托管代碼主頁：https://github.com/TsinghuaAI/

預(yù)訓(xùn)練模型必讀論文列表：https://github.com/thunlp/PLMpapers

阿里巴巴的預(yù)訓(xùn)練語言模型 PLUG

今年 4 月 19 日，在以中文為核心的超大規(guī)模語言模型領(lǐng)域，阿里巴巴達摩院機器智能實驗室重磅發(fā)布最新訓(xùn)練的 270 億參數(shù)規(guī)模的中文語言理解和生成統(tǒng)一模型 --PLUG (Pre-training for Language Understanding and Generation)。

據(jù)了解，PLUG 采用了 1TB 以上高質(zhì)量中文文本訓(xùn)練數(shù)據(jù)，涵蓋新聞、小說、詩歌、問答等廣泛類型及領(lǐng)域，其模型訓(xùn)練依托了阿里云 EFLOPS 高性能 AI 計算集群。

PLUG 超大規(guī)模預(yù)訓(xùn)練中文理解 & 生成統(tǒng)一模型，是目前中文社區(qū)最大規(guī)模的純文本預(yù)訓(xùn)練語言模型，集語言理解與生成能力于一身。其目標(biāo)是通過超大模型的能力，大幅度提升中文 NLP 各大任務(wù)的表現(xiàn)，取得超越人類表現(xiàn)的性能。

根據(jù)阿里巴巴達摩院的介紹，相較于 Open AI 的 GPT-3 等其他大規(guī)模生成模型，PLUG 具備如下幾個優(yōu)勢：

PLUG 是目前中文社區(qū)最大規(guī)模的純文本預(yù)訓(xùn)練語言模型。
PLUG 集語言理解與生成能力于一身，在語言理解（NLU）任務(wù)上，以 80.179 分刷新了 Chinese GLUE 分類榜單的紀(jì)錄；
在語言生成（NLG）任務(wù)上，在多項應(yīng)用數(shù)據(jù)上較 State-of-the-art 平均提升 8% 以上。PLUG 可為目標(biāo)任務(wù)做針對性優(yōu)化，通過利用下游訓(xùn)練數(shù)據(jù) finetune 模型使其在該特定任務(wù)上生成質(zhì)量達到最優(yōu)，彌補之前其它大規(guī)模生成模型 few-shot inference 的生成效果不足，適于應(yīng)用在實際生成任務(wù)。
PLUG 采用了大規(guī)模的高質(zhì)量中文訓(xùn)練數(shù)據(jù)（1TB 以上），同時，PLUG 采用 encoder-decoder 的雙向建模方式，因此，在傳統(tǒng)的 zero-shot 生成的表現(xiàn)上，無論是生成的多樣性，領(lǐng)域的廣泛程度，還是生成長文本的表現(xiàn)，較此前的模型均有明顯的優(yōu)勢。
PLUG 開放了體驗功能供學(xué)術(shù)領(lǐng)域試用。