【原】GPT圖解大模型是怎樣構建的

小虛竹 2024-01-15 發(fā)布于福建

展開全文

??作者主頁：小虛竹
??作者簡介：大家好,我是小虛竹。2022年度博客之星評選TOP 10??，Java領域優(yōu)質創(chuàng)作者??，CSDN博客專家??，華為云享專家??，掘金年度人氣作者??，阿里云專家博主??，51CTO專家博主??
??技術活，該賞
??點贊 ?? 收藏 ?再看，養(yǎng)成習慣

文章目錄

零：前言

虛竹哥最近發(fā)現，當國外OpenAI的權力的游戲反轉再反轉的時候，國內的AI創(chuàng)業(yè)者們除了吃瓜之外也沒閑著。

有很多程序員正在AIGC賽道中默默發(fā)財，有通過短視頻做內容爆火，接廣告的；有賣AI解決方案的；有賣AI課程的；也有賣AI產品，慢慢做大做強的…更不必說，那些拿下“人均年薪100萬”大模型相關崗位的“贏家們”。

你看，拼多多殺入大模型，狂發(fā)年薪百萬的大模型offer。vivo副總裁周圍也表示目前vivo大模型的人才成本平均稅后為100萬元。而且通過今年的秋招，我們能看到，大平臺都在找懂大模型的人，而NLP算法工程師、深度學習等崗位更是大模型人才市場里最為緊缺和急需的頭批人才。

一、顯然，率先擁抱AI的人，已經拿到了新世界的入場券。

虛竹哥希望能夠幫助粉絲朋友們迅速地抓住機遇，吃上大模型時代紅利，為此，帶來了這本由新加坡科技研究局人工智能高級研究員黃佳編寫的**《GPT圖解大模型是怎樣構建的》**。

不管你是NLP領域學生、研究人員，還是對ChatGPT和生成式模型有興趣的人，亦或是基礎不深，但是想入門AI的初學者，都別錯過這本書！

要知道，市面上講述大模型的書籍，大多采用百科全書式的呈現方法，為讀者講解現成的知識結論。 《GPT圖解大模型是怎樣構建的》 卻是通過一問一答的方式，趣味詮釋程序員們應該知道、可能好奇的ChatGPT和大模型的疑問、核心技術，梳理生成式語言模型的發(fā)展脈絡。

在這本書里，黃佳老師將帶領讀者踏上一段扣人心弦的探索之旅，了解ChatGPT的前世今生，并能動手從0到1搭建語言模型。

二、誰說大模型只是一夕之間爆火的？每一次技術的演進都有它背后的故事

在20世紀40年代和50年代，人工智能的概念開始浮現，但直到1956年的 達特茅斯會議 上，它才成為一個獨立的學科領域。

達特茅斯會議吸引了許多計算機科學家、數學家和其他領域的研究者，他們聚集在一起討論智能機器的發(fā)展前景。他們的共同目標是在計算機上實現人類智能的各個方面，為現代人工智能研究開辟了道路。從那時起，人工智能領域不斷發(fā)展，涌現出了大量的理論、技術和應用。

人工智能（Artificial Intelligence，AI）技術有兩大核心應用：計算機視覺（Computer Vision，CV）和自然語言處理（Natural Language Processing，NLP）。而在 AI 技術發(fā)展里程碑中，前期的突破多與 CV 相關，如 CNN 和 AlexNet ；而后期的突破則多與 NLP 相關，如 Transformer 和 ChatGPT。

從發(fā)端，到寒冬，到發(fā)展，到二次寒冬，再到深度學習時代的崛起，最后到如今的ChatGPT輝煌時代?？梢哉f，AI技術的發(fā)展并不是一帆風順的：盛夏與寒冬交錯，期望和失望交融。

自然語言處理技術也是如此。

這本書在談論關于語言模型的原理和代碼以外，最耐人尋味的便是余老師對自然語言處理技術演進的科普以及何為語言？信息又如何傳播？

同時他讓讀者了解到：自然語言處理技術的演進過程包含一些獨屬于它的微妙細節(jié)。而對這個過程的體會，能夠讓我們對自然語言處理技術有更深的領悟。

比如，對于NLP的定義，黃佳老師在書中是這樣描述的：

“自然語言處理是人工智能的一個子領域，關注計算機如何理解、解釋和生成人類語言。NLP 的核心任務，就是為人類的語言編碼并解碼，只有讓計算機能夠理解人類的語言，它才有可能完成原本只有人類才能夠完成的任務。因此我們可以說：NLP 就是人類和計算機之間溝通的橋梁！”

再比如，對于NLP 技術的演進過程，黃佳老師將其分為4個階段，使用了 4 個詞語來概括它們，分別是起源、基于規(guī)則、基于統計、深度學習和大數據驅動，厘清了它們的傳承關系。

基于規(guī)則和基于統計的語言模型是 NLP 技術發(fā)展的關鍵節(jié)點，而大規(guī)模語言模型的誕生又進一步拓展了 NLP 技術的應用范圍。

過去的十余年，語言模型的算法層出不窮。這本書的可貴之處在于它能夠追本溯源，既讓讀者學會了語言模型的經典與主流算法，也讓讀者見證了其發(fā)展脈絡，引導讀者思考自然語言處理技術是怎么一步一步走到今天的。

比如，書中精選了早期的N-gram以及基于淺層神經網絡的NPLM進行詳細講解，并逐步過渡到基于深層網絡的語言模型（生成式語言模型GPT）。GPT模型的深層網絡不再采用CNN、RNN或者LSTM等結構，而是采用表達能力更強的Transformer，因此在講解GPT模型時，黃佳老師更細致地講解了“Transformer的思想是什么，其核心組件有哪些，為什么其表達能力更強”。

三、不明覺厲的大模型，怎么學習？好懂又好記的對話＋圖解方式

說到這里，想必大家已經從宏觀上對 NLP 的發(fā)展、大型預訓練模型的發(fā)展，甚至從 ChatGPT 到 GPT-4 的發(fā)展有了一定的理解。

在這本書中，黃佳老師 會循著自然語言處理技術的演進過程，給讀者講透它的技術重點，并和大家一起實際操練一番，一步一步帶你學透 GPT。

正如黃佳老師所說：“今天，在我們?yōu)?ChatGPT、GPT-4 等大模型的神奇能力而驚嘆的同時，讓我們對它們的底層邏輯與技術做一次嚴肅而快樂的探索。對我來說，這也是一次朝圣之旅，一次重溫人工智能和自然語言處理技術 70 年間艱辛發(fā)展的旅程。”

從 N-Gram、詞袋模型（Bag-of-Words，BoW）、Word2Vec（Word to Vector，W2V）、神經概率語言模型（Neural Probabilistic Language Model，NPLM）、循環(huán)神經網絡（Recurrent Neural Network，RNN）、Seq2Seq（Sequence-to-Sequence，S2S）、注意力機制（Attention Mechanism）、Transformer、BERT 到 GPT 的技術，其中凝聚了多少位了不起的大牛的知識和心血，對于許多程序員而言，自行學習其中的原理和代碼也是比較麻煩和有難度的。

對于已有基礎的程序員尚且如此，何況是零基礎的小白呢？

這套書令人驚喜的是它試圖通過一問一答的教學方式，加上圖文并茂的講解，關注初學者學習中的真實問題，一一回答，講解語言模型，對技術進行解碼。

比如，在介紹N-Gram時：

正文每個小節(jié)以小冰的提問為線索，以最新熱點為引入，以公司同事在不同時間、不同場景中的對話為講述方式，深入淺出地剖析大模型相關的知識，講解語言模型和算法背后的意義。

小冰是一個充滿好奇心的初學者，是生活于當下的你我他。她的提問正是我們的疑問點，她那不太完美的回答正是我們目前的認知。而咖哥則是一位博學多才、幽默風趣且喜歡答疑解惑的技術大咖。他的特別發(fā)言也被“附”在書中，記錄對應的原理和代碼，專業(yè)解答相關問題。

在小冰和咖哥一問一答的演繹下，黃佳老師將晦澀難懂的知識用通俗易懂的語言表述出來，將抽象概念具體化，輕松風趣地解答初學者可能會對大模型感到好奇的種種問題。

在翻閱這本書時，像下面這些章節(jié)名也令人印象深刻：

序章看似尋常最奇崛，成如容易卻艱辛
第 1 課高樓萬丈平地起：語言模型的雛形 N-Gram 和簡單文本表示 Bag-of-Words
第 2 課問君文本何所似：詞的向量表示 Word2Vec 和 Embedding
第 3 課山重水復疑無路：神經概率語言模型和循環(huán)神經網絡
第 4 課柳暗花明又一村：Seq2Seq 編碼器 - 解碼器架構
第 5 課見微知著開慧眼：引入注意力機制
第 6 課層巒疊翠上青天：搭建 GPT 核心組件 Transformer
第 7 課芳林新葉催陳葉：訓練出你的簡版生成式 GPT
第8課流水后波推前波：ChatGPT基于人類反饋的強化學習
第9課生生不息的循環(huán)：使用強大的GPT-4 API
后記莫等閑，白了少年頭

黃佳老師特意以**“古詩詞+章節(jié)內容”**的形式為每個講解不同語言模型的篇章命名，多為古詩詞的改編，加上暗喻，用字數簡短但是意蘊深厚的古詩詞提煉大模型的特征、語言模型的發(fā)展脈絡，讓知識點直觀、易懂、易記。