日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

無法訪問GPT-3?強大的克隆版GPT-J帶著60億參數(shù)來了

 板橋胡同37號 2021-07-19
圖片
編輯|核子可樂、鈺瑩
去年 9 月,微軟宣布與 OpenAI 達成獨家授權(quán)協(xié)議,稱該公司將使用 GPT-3 來“創(chuàng)建新的解決方案,利用先進自然語言生成的驚人能力”。這一安排不會阻止其他公司通過 OpenAI 的 API 訪問 GPT-3,但它賦予了微軟獨家使用基本代碼的權(quán)利,這就像乘坐一輛飛車和打開引擎蓋修理發(fā)動機之間的區(qū)別。

如今,EleutherAI 研究團隊開源了一個基于 GPT-3 的自然語言處理 AI 模型 GPT-J,能夠與類似規(guī)模的 GPT-3 模型相媲美。
EleutherAI 開源 60 億參數(shù)的 GPT-J

為了打破 OpenAI 和微軟對自然語言處理 AI 模型的壟斷,EleutherAI 的一組研究人員已經(jīng)對 GPT-J 進行開源。GPT-J 是一套基于 GPT-3 的 AI 模型,其中包含 60 億條參數(shù)。該模型使用高達 800 GB 的開源文本數(shù)據(jù)集訓(xùn)練而成,并在性能上足以與同等規(guī)模的 GPT-3 模型相媲美。

開發(fā)者 Aran Komatsuzaki 在自己的博客上發(fā)布了這個版本。本套模型采用 Google Cloud 的 v3-256 TPU 在 EleutherAI 的 Pile 數(shù)據(jù)集上訓(xùn)練完成,整個訓(xùn)練周期大約為五個星期。在常規(guī) NLP 基準(zhǔn)測試任務(wù)當(dāng)中,GPT-J 的準(zhǔn)確率與 OpenAI 方面發(fā)布的 GPT-3 67 億參數(shù)版高度相似。

EleutherAI 開源的這個版本包含模型代碼、預(yù)訓(xùn)練權(quán)重文件、Colab notebook 以及演示網(wǎng)站等。根據(jù) Komatsuzaki 的介紹,GPT-J 是目前公開可用的 Transformer 語言模型當(dāng)中,在處理下游任務(wù)時實現(xiàn)最佳零樣本性能的解決方案。

OpenAI 于 2018 年首次發(fā)表了關(guān)于生成式預(yù)訓(xùn)練 transformers(GPT)的論文,這是一種無監(jiān)督學(xué)習(xí)模型、在多項 NLP 任務(wù)上取得了最佳結(jié)果。2019 年初,OpenAI 公布了一套名為 GPT 的 15 億參數(shù)模型,并將其命名為 GPT-2。OpenAI 最初拒絕發(fā)布體量更大的訓(xùn)練模型,理由是“擔(dān)心此項技術(shù)遭到濫用”……但萬物逃不過“真香”定律,他們還是在同年晚些時候發(fā)布了新版本。去年,OpenAI 拿出了一套包含 1750 億個參數(shù)的新模型,名為 GPT-3,但同樣沒有發(fā)布訓(xùn)練后的模型文件。相反,OpenAI 決定提供一個 API,允許開發(fā)人員通過 Web 服務(wù)調(diào)用該模型將這項功能整合到自己的代碼當(dāng)中。

EleutherAI 是一個“由獨立的基層志愿者組成的研究人員團體”,并于 2021 年 3 月發(fā)布了他們的第一個“類 GPT”系統(tǒng)實現(xiàn)方案,即 27 億參數(shù)的 GPT-Neo 模型。GPT-Neo 以 TensorFlow 為實現(xiàn)環(huán)境,并在 TPU 上使用并行庫 Mesh TensorFlow。該團隊之后又著手開發(fā) GPT-NeoX,這是一套基于 GPU 并使用微軟 DeepSpeed 的實現(xiàn)方案;雖然代碼已經(jīng)開源,但目前尚無可用的模型文件。

而此次發(fā)布的最新模型 GPT-J 則是使用新庫 Mesh-Transformer-JAX 訓(xùn)練而成。該庫使用谷歌的 JAX 線性代數(shù)框架,而非 TensorFlow 等專用深度學(xué)習(xí)框架。Komatsuzaki 表示,GPT-J 擁有“比 TensorFlow 更靈活、更快的推理速度”,且模型的開發(fā)周期也比以往的項目短得多。與體量為 2.7 GB 的 GPT-Neo 模型相比,GPT-J 的訓(xùn)練效率提高了 125%。

為了回應(yīng)人們對于模型遭受濫用的擔(dān)憂,EleutherAI 聯(lián)合創(chuàng)始人 Connor Leahy 在該組織的博客上重申了對成果進行開源的理由。Leahy 指出,像 GPT 這樣的模型“結(jié)構(gòu)簡單、原理清晰”,因此不可能奢望能阻止它永不落入壞人手中。相反,EleutherAI 希望能借自己的開源努力推動更廣泛的安全研究,特別是幫助“資源匱乏”的研究人員接觸到同等規(guī)模的復(fù)雜模型。Leahy 還指出,不少資金充足的組織已經(jīng)訓(xùn)練出比 GPT-3 更大的模型,微軟、英偉達及谷歌都在此列。

在關(guān)于 GPT-J 版本的討論當(dāng)中,一位用戶通過推文詢問了運行這套模型的硬件要求。Komatsuzaki 回應(yīng)如下:

要實現(xiàn)推理,您在原則上可以通過修改代碼,將這套模型運行在任何具有 12 GB 以上內(nèi)存的硬件之上。但使用 TPU 可以實現(xiàn)最佳吞吐量,只是這要求您只能直接運行原始模型。如果要對模型進行調(diào)優(yōu),則您至少需要具備 TPU v3-8。

GPT-J 代碼與模型現(xiàn)已在 GitHub 上發(fā)布。EleutherAI 的官方網(wǎng)站中則提供關(guān)于模型文本生成功能的交互式演示。

官方演示地址:https://6b./

GitHub 地址:https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b

原文鏈接:https://www./news/2021/07/eleutherai-gpt-j/

GPT-3 的局限

雖然 GPT-3 擁有龐大的 1750 億參數(shù),用來定義自己的語言,但這些訓(xùn)練數(shù)據(jù)集大多是從互聯(lián)網(wǎng)上學(xué)習(xí)到的,包括新聞文章、維基百科條目和在線書籍,還包括 Reddit 和其他網(wǎng)站上的所有討論,這些內(nèi)容有對有錯,導(dǎo)致 GPT-3 也會時不時出現(xiàn)一些攻擊性內(nèi)容。

在一篇題為《更好的語言模型及其影響》(Better Language Models and Their Implications)的博客文章中,OpenAI 強調(diào),主要擔(dān)心的是,惡意行為者會利用 GPT-2 生成高質(zhì)量的虛假新聞,從而愚弄讀者,并破壞事實與虛構(gòu)之間的區(qū)別。

然而,人工智能社區(qū)有很多人反對這一限制發(fā)布的做法。當(dāng)年晚些時候,該公司改弦更張,提供了一個完整的模型,但確實有人利用它制造假新聞,騙取了點擊量。但它并沒有在互聯(lián)網(wǎng)上掀起一場非真相的海嘯。在過去的幾年里,人們已經(jīng)證明了他們自己能夠在無需人工智能的幫助下就能做到很好。

然后是 GPT-3,在 2020 年 5 月的一份長達 75 頁的論文中亮相。OpenAI 最新的語言模型要遠遠大于之前的任何一個模型。與 GPT-2 的 15 億個參數(shù)相比,它的 1750 億語言參數(shù)有了顯著增長。

Sandhini Agarwal 是 OpenAI 的人工智能政策研究員,他向 Spectrum 介紹了該公司的 GPT-3 策略?!拔覀儽仨毢蜕贁?shù)人一起進行這個封閉測試,否則我們甚至不知道這個模型的能力,也不知道我們需要在哪些問題上取得進展,”她說,“如果我們想要在有害的偏見等問題上取得進展,我們就必須實際部署?!?/p>

Agarwal 解釋說,一個內(nèi)部團隊將審查所提議的應(yīng)用,為那些通過 API 獲得 GPT-3 訪問權(quán)限的公司提供安全指南,在部署前再次對應(yīng)用進行審查,并在部署后監(jiān)控其使用情況。

OpenAI 也在開發(fā)工具,幫助用戶對 GPT-3 生成的文本進行更好的控制。它提供了一個針對有害偏見和“有毒”語言的通用內(nèi)容過濾器。但是,Agarwal 表示,這種過濾器實際上是不可能創(chuàng)建的。因為“偏見是一種非常虛幻的東西,會根據(jù)上下文不斷變化而變化”。特別是在有爭議的話題上,一個在辯論一方的人看來可能是正確的回應(yīng),卻可能被另一方認為是“有毒”的。

另一種方法是提示工程,它將諸如“the friendly bot then said”等語句添加到用戶的提示中,這樣就可以將 GPT-3 設(shè)置為以禮貌、無爭議的語氣生成文本。用戶還可以為自己的回答選擇一個“溫度”設(shè)置。設(shè)定較低的溫度,意味著人工智能可以將以前很普通的詞語組合起來,很少冒險,也不會引起意外;設(shè)定較高的溫度,就更容易產(chǎn)生奇怪的語言。

目前,尚不清楚這種局限是否會同樣體現(xiàn)在 GPT-J 身上,團隊又是否會有相應(yīng)的解決方案。

此外,上述兩種模型都不是針對中文語境推出的,對中文的表現(xiàn)都不盡如人意。在 NLP 任務(wù)中,中文語言是很有挑戰(zhàn)的。與英文不同,中文需要進行分詞,而英文就是天然單詞;其次中文的歧義性很強,比如說“喜歡上 / 一個人”,”喜歡 / 上一個 / 人“,”喜歡上 / 一個 / 人“,這些都表達了不同的意思。

因此,我們也在過去一年見證了以中文為核心的大規(guī)模預(yù)訓(xùn)練模型的出現(xiàn)。

以中文為核心的大規(guī)模預(yù)訓(xùn)練模型
清源 CPM

清源 CPM 是北京智源人工智能研究院和清華大學(xué)研究團隊合作開展的大規(guī)模預(yù)訓(xùn)練模型,2020 年 11 月中旬,CPM 開放第一階段的 26 億參數(shù)規(guī)模的中文語言模型 (CPM-LM) 和 217 億參數(shù)規(guī)模的結(jié)構(gòu)化知識表示模型 (CPM-KM) 下載,以及相應(yīng)的系統(tǒng)演示。

關(guān)于預(yù)訓(xùn)練模型的大量實驗表明,更大的模型參數(shù)和更多的預(yù)訓(xùn)練數(shù)據(jù),通常能夠帶來更好的下游任務(wù)效果,這類模型被證明在各種少樣本學(xué)習(xí) NLP 任務(wù)中十分有效。傳統(tǒng)預(yù)訓(xùn)練模型往往需要經(jīng)過有監(jiān)督訓(xùn)練數(shù)據(jù)微調(diào) (Fine-tuning),才能解決各種自然語言處理任務(wù)。而第一版 CPM 中文語言模型與 GPT-3 等預(yù)訓(xùn)練模型類似,僅需要通過少次、單次學(xué)習(xí)甚至零次學(xué)習(xí),就能完成不同自然語言處理任務(wù),具備一定的常識和認知的泛化能力。CPM 模型從大規(guī)模的中文語料庫中學(xué)習(xí)了通用的語言模式,有望顯著提升中文自然語言處理各任務(wù)的性能。初步的實驗表明,CPM 模型能夠用于問題解答、摘要和對話以及生成各種文本包括隨筆、小說、代碼、電子表格等。

與此同時,基于清源 CPM 模型的文本深度理解和智能生成能力,智源研究院也將積極與產(chǎn)業(yè)界合作,在智能客服、個性推薦、文本生成、自動編程等方面,探索新型的人工智能應(yīng)用和商業(yè)模式。

相關(guān)資源 :

清源 CPM 主頁:https://cpm./

清源 CPM Github 托管代碼主頁:https://github.com/TsinghuaAI/

預(yù)訓(xùn)練模型必讀論文列表:https://github.com/thunlp/PLMpapers

阿里巴巴的預(yù)訓(xùn)練語言模型 PLUG

今年 4 月 19 日,在以中文為核心的超大規(guī)模語言模型領(lǐng)域,阿里巴巴達摩院機器智能實驗室重磅發(fā)布最新訓(xùn)練的 270 億參數(shù)規(guī)模的中文語言理解和生成統(tǒng)一模型 --PLUG (Pre-training for Language Understanding and Generation)。

據(jù)了解,PLUG 采用了 1TB 以上高質(zhì)量中文文本訓(xùn)練數(shù)據(jù),涵蓋新聞、小說、詩歌、問答等廣泛類型及領(lǐng)域,其模型訓(xùn)練依托了阿里云 EFLOPS 高性能 AI 計算集群。

PLUG 超大規(guī)模預(yù)訓(xùn)練中文理解 & 生成統(tǒng)一模型,是目前中文社區(qū)最大規(guī)模的純文本預(yù)訓(xùn)練語言模型,集語言理解與生成能力于一身。其目標(biāo)是通過超大模型的能力,大幅度提升中文 NLP 各大任務(wù)的表現(xiàn),取得超越人類表現(xiàn)的性能。

根據(jù)阿里巴巴達摩院的介紹,相較于 Open AI 的 GPT-3 等其他大規(guī)模生成模型,PLUG 具備如下幾個優(yōu)勢:

  • PLUG 是目前中文社區(qū)最大規(guī)模的純文本預(yù)訓(xùn)練語言模型。

  • PLUG 集語言理解與生成能力于一身,在語言理解(NLU)任務(wù)上,以 80.179 分刷新了 Chinese GLUE 分類榜單的紀(jì)錄;

  • 在語言生成(NLG)任務(wù)上,在多項應(yīng)用數(shù)據(jù)上較 State-of-the-art 平均提升 8% 以上。PLUG 可為目標(biāo)任務(wù)做針對性優(yōu)化,通過利用下游訓(xùn)練數(shù)據(jù) finetune 模型使其在該特定任務(wù)上生成質(zhì)量達到最優(yōu),彌補之前其它大規(guī)模生成模型 few-shot inference 的生成效果不足,適于應(yīng)用在實際生成任務(wù)。

  • PLUG 采用了大規(guī)模的高質(zhì)量中文訓(xùn)練數(shù)據(jù)(1TB 以上),同時,PLUG 采用 encoder-decoder 的雙向建模方式,因此,在傳統(tǒng)的 zero-shot 生成的表現(xiàn)上,無論是生成的多樣性,領(lǐng)域的廣泛程度,還是生成長文本的表現(xiàn),較此前的模型均有明顯的優(yōu)勢。

  • PLUG 開放了體驗功能供學(xué)術(shù)領(lǐng)域試用。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多