如今,EleutherAI 研究團隊開源了一個基于 GPT-3 的自然語言處理 AI 模型 GPT-J,能夠與類似規(guī)模的 GPT-3 模型相媲美。 為了打破 OpenAI 和微軟對自然語言處理 AI 模型的壟斷,EleutherAI 的一組研究人員已經(jīng)對 GPT-J 進行開源。GPT-J 是一套基于 GPT-3 的 AI 模型,其中包含 60 億條參數(shù)。該模型使用高達 800 GB 的開源文本數(shù)據(jù)集訓(xùn)練而成,并在性能上足以與同等規(guī)模的 GPT-3 模型相媲美。 開發(fā)者 Aran Komatsuzaki 在自己的博客上發(fā)布了這個版本。本套模型采用 Google Cloud 的 v3-256 TPU 在 EleutherAI 的 Pile 數(shù)據(jù)集上訓(xùn)練完成,整個訓(xùn)練周期大約為五個星期。在常規(guī) NLP 基準(zhǔn)測試任務(wù)當(dāng)中,GPT-J 的準(zhǔn)確率與 OpenAI 方面發(fā)布的 GPT-3 67 億參數(shù)版高度相似。 EleutherAI 開源的這個版本包含模型代碼、預(yù)訓(xùn)練權(quán)重文件、Colab notebook 以及演示網(wǎng)站等。根據(jù) Komatsuzaki 的介紹,GPT-J 是目前公開可用的 Transformer 語言模型當(dāng)中,在處理下游任務(wù)時實現(xiàn)最佳零樣本性能的解決方案。 OpenAI 于 2018 年首次發(fā)表了關(guān)于生成式預(yù)訓(xùn)練 transformers(GPT)的論文,這是一種無監(jiān)督學(xué)習(xí)模型、在多項 NLP 任務(wù)上取得了最佳結(jié)果。2019 年初,OpenAI 公布了一套名為 GPT 的 15 億參數(shù)模型,并將其命名為 GPT-2。OpenAI 最初拒絕發(fā)布體量更大的訓(xùn)練模型,理由是“擔(dān)心此項技術(shù)遭到濫用”……但萬物逃不過“真香”定律,他們還是在同年晚些時候發(fā)布了新版本。去年,OpenAI 拿出了一套包含 1750 億個參數(shù)的新模型,名為 GPT-3,但同樣沒有發(fā)布訓(xùn)練后的模型文件。相反,OpenAI 決定提供一個 API,允許開發(fā)人員通過 Web 服務(wù)調(diào)用該模型將這項功能整合到自己的代碼當(dāng)中。 EleutherAI 是一個“由獨立的基層志愿者組成的研究人員團體”,并于 2021 年 3 月發(fā)布了他們的第一個“類 GPT”系統(tǒng)實現(xiàn)方案,即 27 億參數(shù)的 GPT-Neo 模型。GPT-Neo 以 TensorFlow 為實現(xiàn)環(huán)境,并在 TPU 上使用并行庫 Mesh TensorFlow。該團隊之后又著手開發(fā) GPT-NeoX,這是一套基于 GPU 并使用微軟 DeepSpeed 的實現(xiàn)方案;雖然代碼已經(jīng)開源,但目前尚無可用的模型文件。 而此次發(fā)布的最新模型 GPT-J 則是使用新庫 Mesh-Transformer-JAX 訓(xùn)練而成。該庫使用谷歌的 JAX 線性代數(shù)框架,而非 TensorFlow 等專用深度學(xué)習(xí)框架。Komatsuzaki 表示,GPT-J 擁有“比 TensorFlow 更靈活、更快的推理速度”,且模型的開發(fā)周期也比以往的項目短得多。與體量為 2.7 GB 的 GPT-Neo 模型相比,GPT-J 的訓(xùn)練效率提高了 125%。 為了回應(yīng)人們對于模型遭受濫用的擔(dān)憂,EleutherAI 聯(lián)合創(chuàng)始人 Connor Leahy 在該組織的博客上重申了對成果進行開源的理由。Leahy 指出,像 GPT 這樣的模型“結(jié)構(gòu)簡單、原理清晰”,因此不可能奢望能阻止它永不落入壞人手中。相反,EleutherAI 希望能借自己的開源努力推動更廣泛的安全研究,特別是幫助“資源匱乏”的研究人員接觸到同等規(guī)模的復(fù)雜模型。Leahy 還指出,不少資金充足的組織已經(jīng)訓(xùn)練出比 GPT-3 更大的模型,微軟、英偉達及谷歌都在此列。 在關(guān)于 GPT-J 版本的討論當(dāng)中,一位用戶通過推文詢問了運行這套模型的硬件要求。Komatsuzaki 回應(yīng)如下: 要實現(xiàn)推理,您在原則上可以通過修改代碼,將這套模型運行在任何具有 12 GB 以上內(nèi)存的硬件之上。但使用 TPU 可以實現(xiàn)最佳吞吐量,只是這要求您只能直接運行原始模型。如果要對模型進行調(diào)優(yōu),則您至少需要具備 TPU v3-8。 GPT-J 代碼與模型現(xiàn)已在 GitHub 上發(fā)布。EleutherAI 的官方網(wǎng)站中則提供關(guān)于模型文本生成功能的交互式演示。 官方演示地址:https://6b./ GitHub 地址:https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b 原文鏈接:https://www./news/2021/07/eleutherai-gpt-j/ 雖然 GPT-3 擁有龐大的 1750 億參數(shù),用來定義自己的語言,但這些訓(xùn)練數(shù)據(jù)集大多是從互聯(lián)網(wǎng)上學(xué)習(xí)到的,包括新聞文章、維基百科條目和在線書籍,還包括 Reddit 和其他網(wǎng)站上的所有討論,這些內(nèi)容有對有錯,導(dǎo)致 GPT-3 也會時不時出現(xiàn)一些攻擊性內(nèi)容。 在一篇題為《更好的語言模型及其影響》(Better Language Models and Their Implications)的博客文章中,OpenAI 強調(diào),主要擔(dān)心的是,惡意行為者會利用 GPT-2 生成高質(zhì)量的虛假新聞,從而愚弄讀者,并破壞事實與虛構(gòu)之間的區(qū)別。 然而,人工智能社區(qū)有很多人反對這一限制發(fā)布的做法。當(dāng)年晚些時候,該公司改弦更張,提供了一個完整的模型,但確實有人利用它制造假新聞,騙取了點擊量。但它并沒有在互聯(lián)網(wǎng)上掀起一場非真相的海嘯。在過去的幾年里,人們已經(jīng)證明了他們自己能夠在無需人工智能的幫助下就能做到很好。 然后是 GPT-3,在 2020 年 5 月的一份長達 75 頁的論文中亮相。OpenAI 最新的語言模型要遠遠大于之前的任何一個模型。與 GPT-2 的 15 億個參數(shù)相比,它的 1750 億語言參數(shù)有了顯著增長。 Sandhini Agarwal 是 OpenAI 的人工智能政策研究員,他向 Spectrum 介紹了該公司的 GPT-3 策略?!拔覀儽仨毢蜕贁?shù)人一起進行這個封閉測試,否則我們甚至不知道這個模型的能力,也不知道我們需要在哪些問題上取得進展,”她說,“如果我們想要在有害的偏見等問題上取得進展,我們就必須實際部署?!?/p> Agarwal 解釋說,一個內(nèi)部團隊將審查所提議的應(yīng)用,為那些通過 API 獲得 GPT-3 訪問權(quán)限的公司提供安全指南,在部署前再次對應(yīng)用進行審查,并在部署后監(jiān)控其使用情況。 OpenAI 也在開發(fā)工具,幫助用戶對 GPT-3 生成的文本進行更好的控制。它提供了一個針對有害偏見和“有毒”語言的通用內(nèi)容過濾器。但是,Agarwal 表示,這種過濾器實際上是不可能創(chuàng)建的。因為“偏見是一種非常虛幻的東西,會根據(jù)上下文不斷變化而變化”。特別是在有爭議的話題上,一個在辯論一方的人看來可能是正確的回應(yīng),卻可能被另一方認為是“有毒”的。 另一種方法是提示工程,它將諸如“the friendly bot then said”等語句添加到用戶的提示中,這樣就可以將 GPT-3 設(shè)置為以禮貌、無爭議的語氣生成文本。用戶還可以為自己的回答選擇一個“溫度”設(shè)置。設(shè)定較低的溫度,意味著人工智能可以將以前很普通的詞語組合起來,很少冒險,也不會引起意外;設(shè)定較高的溫度,就更容易產(chǎn)生奇怪的語言。 目前,尚不清楚這種局限是否會同樣體現(xiàn)在 GPT-J 身上,團隊又是否會有相應(yīng)的解決方案。 此外,上述兩種模型都不是針對中文語境推出的,對中文的表現(xiàn)都不盡如人意。在 NLP 任務(wù)中,中文語言是很有挑戰(zhàn)的。與英文不同,中文需要進行分詞,而英文就是天然單詞;其次中文的歧義性很強,比如說“喜歡上 / 一個人”,”喜歡 / 上一個 / 人“,”喜歡上 / 一個 / 人“,這些都表達了不同的意思。 因此,我們也在過去一年見證了以中文為核心的大規(guī)模預(yù)訓(xùn)練模型的出現(xiàn)。 清源 CPM 是北京智源人工智能研究院和清華大學(xué)研究團隊合作開展的大規(guī)模預(yù)訓(xùn)練模型,2020 年 11 月中旬,CPM 開放第一階段的 26 億參數(shù)規(guī)模的中文語言模型 (CPM-LM) 和 217 億參數(shù)規(guī)模的結(jié)構(gòu)化知識表示模型 (CPM-KM) 下載,以及相應(yīng)的系統(tǒng)演示。 關(guān)于預(yù)訓(xùn)練模型的大量實驗表明,更大的模型參數(shù)和更多的預(yù)訓(xùn)練數(shù)據(jù),通常能夠帶來更好的下游任務(wù)效果,這類模型被證明在各種少樣本學(xué)習(xí) NLP 任務(wù)中十分有效。傳統(tǒng)預(yù)訓(xùn)練模型往往需要經(jīng)過有監(jiān)督訓(xùn)練數(shù)據(jù)微調(diào) (Fine-tuning),才能解決各種自然語言處理任務(wù)。而第一版 CPM 中文語言模型與 GPT-3 等預(yù)訓(xùn)練模型類似,僅需要通過少次、單次學(xué)習(xí)甚至零次學(xué)習(xí),就能完成不同自然語言處理任務(wù),具備一定的常識和認知的泛化能力。CPM 模型從大規(guī)模的中文語料庫中學(xué)習(xí)了通用的語言模式,有望顯著提升中文自然語言處理各任務(wù)的性能。初步的實驗表明,CPM 模型能夠用于問題解答、摘要和對話以及生成各種文本包括隨筆、小說、代碼、電子表格等。 與此同時,基于清源 CPM 模型的文本深度理解和智能生成能力,智源研究院也將積極與產(chǎn)業(yè)界合作,在智能客服、個性推薦、文本生成、自動編程等方面,探索新型的人工智能應(yīng)用和商業(yè)模式。 相關(guān)資源 : 清源 CPM 主頁:https://cpm./ 清源 CPM Github 托管代碼主頁:https://github.com/TsinghuaAI/ 預(yù)訓(xùn)練模型必讀論文列表:https://github.com/thunlp/PLMpapers 今年 4 月 19 日,在以中文為核心的超大規(guī)模語言模型領(lǐng)域,阿里巴巴達摩院機器智能實驗室重磅發(fā)布最新訓(xùn)練的 270 億參數(shù)規(guī)模的中文語言理解和生成統(tǒng)一模型 --PLUG (Pre-training for Language Understanding and Generation)。 據(jù)了解,PLUG 采用了 1TB 以上高質(zhì)量中文文本訓(xùn)練數(shù)據(jù),涵蓋新聞、小說、詩歌、問答等廣泛類型及領(lǐng)域,其模型訓(xùn)練依托了阿里云 EFLOPS 高性能 AI 計算集群。 PLUG 超大規(guī)模預(yù)訓(xùn)練中文理解 & 生成統(tǒng)一模型,是目前中文社區(qū)最大規(guī)模的純文本預(yù)訓(xùn)練語言模型,集語言理解與生成能力于一身。其目標(biāo)是通過超大模型的能力,大幅度提升中文 NLP 各大任務(wù)的表現(xiàn),取得超越人類表現(xiàn)的性能。 根據(jù)阿里巴巴達摩院的介紹,相較于 Open AI 的 GPT-3 等其他大規(guī)模生成模型,PLUG 具備如下幾個優(yōu)勢:
|
|
來自: 板橋胡同37號 > 《數(shù)據(jù)》