最近這幾年,大家一起共同經(jīng)歷了 NLP(寫一下全稱,Natural Language Processing) 這一領(lǐng)域井噴式的發(fā)展,從 Word2Vec 到大量使用 RNN、LSTM,從 seq2seq 再到 Attention,Transformer,Bert,直到現(xiàn)在的大模型 GPT-4。作為理解、生成與處理自然語言這一人類生活、交流的核心工具與信息共享的重要載體,計算語言學(xué)家早在上世紀(jì)五十年代就從“計算”的視角開始關(guān)注使用“機器”對自然語言進(jìn)行處理。而伴隨著各種技術(shù)的逐步成熟,NLP 這一領(lǐng)域蓬勃發(fā)展欣欣向榮,以 ACL 收錄為例,從 1952 年至今,已經(jīng)發(fā)表了超過 80000 論文: 伴隨著出版物的增加,NLP 領(lǐng)域也發(fā)展成為了擁有多個不同分支,由不同子領(lǐng)域子學(xué)科共同構(gòu)成的大領(lǐng)域大學(xué)科,過去可能有不少綜述 NLP 歷史,梳理 NLP 發(fā)展脈絡(luò)的文章、綜述,但是很遺憾很少有從一個空間的角度對 NLP 廣泛鋪開的領(lǐng)域進(jìn)行概述的研究。 而今天介紹的這篇由德國慕尼黑工業(yè)大學(xué)出品的論文,便對最近 20 年 NLP 研究領(lǐng)域進(jìn)行了一個詳盡系統(tǒng)的分類與綜述,幫助大家站在一個上帝視角,概覽 NLP 360 度的全景圖。作者希望通過這樣的工作,可以幫助任何一個 NLP 領(lǐng)域的學(xué)者、從業(yè)者、實踐者以及初學(xué)者識別 NLP 的研究趨勢,幫助研究社區(qū)彌補現(xiàn)有的空白,以更好的探索 NLP 中的各種研究領(lǐng)域。 論文題目: 論文鏈接: 1. NLP 究竟包含哪些子領(lǐng)域?要說 NLP 的子領(lǐng)域,隨口一提就可以想到許多,從機器翻譯到情感分析,從信息檢索到文本生成,但是要以一套結(jié)構(gòu)化的體系完整的概述 NLP 領(lǐng)域的分類法,可能就并不是一件那么輕松的工作。 而論文作者在參考 ACL、EMNLP、COLING 以及 IJCNLP 等 NLP 領(lǐng)域主要會議網(wǎng)站上列出的最近幾年的投稿主題,以及 ACL Anthology 中包含的研討會的主題,及 EMNLP 2022 中 828篇論文的研究領(lǐng)域,構(gòu)建了初版的 NLP 領(lǐng)域分類法,同時為了盡可能全面完整的構(gòu)建 NLP 研究領(lǐng)域的方方面面,作者又與 NLP 不同領(lǐng)域的專家進(jìn)行了 20 余次一對一的訪談,根據(jù)訪談結(jié)果以及對初版分類的修訂與完善,作者構(gòu)建了這樣一套 NLP 研究領(lǐng)域分類法如下圖所示: 可以看到,作者共將 NLP 分為了 12 個大領(lǐng)域,包含多模態(tài)(Multimodality)、自然語言交互( Natural Language Interfaces)、語義解析(Semantic Text Processing)、情感分析(Sentiment Analysis)、句法分析(Syntactic Text Processing)、NLP 中的認(rèn)知語言學(xué)分析(Linguistics & Cognitive NLP)、可解釋 NLP(Responsible & Trustworthy NLP)、邏輯推理(Reasoning)、雙語(Multilinguality)、信息檢索(Information Retrieval)、信息提取與文本挖掘(Information Extraction & Text Mining)、文本生成(Text Generation)。 通過這套分類法,作者使用半人工半自動的標(biāo)注方式構(gòu)建了一個包含 178521 篇論文領(lǐng)域標(biāo)注的訓(xùn)練集,并且訓(xùn)練得到了一個弱監(jiān)督的論文領(lǐng)域分類器,通過此分類器,作者分類得到了 1952 年至 2022 年 ACL Anthology 中包含的所有共計 74279 篇論文作為最終的分析研究對象。 2. NLP 研究領(lǐng)域的發(fā)展脈絡(luò)?雖然 NLP 最早的論文出現(xiàn)在 1952 年,但是其論文數(shù)量至 2000 年才開始緩慢增長,從 2000 年至 2017 年,NLP 的研究數(shù)量增加了四倍,而在接下來的五年中,NLP 的研究數(shù)量又翻了一番,這表明這五年 NLP 領(lǐng)域得到了爆炸式的發(fā)展,而根據(jù)作者構(gòu)建的論文領(lǐng)域分類集,作者研究了 NLP 中最受歡迎的研究領(lǐng)域(Fos)的發(fā)展與變化情況: 可以看到機器翻譯與語言模型是 NLP 文獻(xiàn)中最受歡迎的研究領(lǐng)域,但是這兩個領(lǐng)域的發(fā)展變化有著十分明顯的區(qū)別,機器翻譯是一個經(jīng)過深入研究,已經(jīng)被建立了許多年的研究論文,發(fā)文數(shù)量以及增長率都相對平穩(wěn),而語言模型雖然也經(jīng)過了長時間的研究,但是其出版數(shù)量直到 2018 年才開始顯著增長,在關(guān)注其他 NLP 的領(lǐng)域時也可以看到類似的情況,表示學(xué)習(xí)與文本分類雖然研究廣泛,但是增長率沒有顯著變化,而對話系統(tǒng)以及低資源 NLP 則在近期獲得了非常高的增長率。 而整個 NLP 的研究領(lǐng)域中,也出現(xiàn)了經(jīng)典的二八法則,大多數(shù) NLP 領(lǐng)域的研究程度顯著低于這些最受歡迎的 NLP 領(lǐng)域的研究程度,似乎 NLP 研究的發(fā)展主要來自于熱門領(lǐng)域與應(yīng)用的驅(qū)動,但是總體而言,NLP 所有領(lǐng)域的研究都在保持正向增長。 3. 什么才是 NLP 研究的未來?所謂知古方能鑒今,根據(jù)整個 NLP 領(lǐng)域的研究發(fā)展,作者又探究了 NLP 各個領(lǐng)域的研究趨勢并探索了 NLP 領(lǐng)域未來的發(fā)展方向: 首先,作者采用矩陣式的方式繪制了從 2018 年到 2022 年 NLP 相關(guān)的各個 FoS 的文章數(shù)量-增長率矩陣,增長率高且總體文章數(shù)量的較多的研究領(lǐng)域?qū)儆?NLP 中的“明星”產(chǎn)品,可以看到,占據(jù) NLP 舞臺中心的領(lǐng)域包括語言模型、可解釋性 NLP、低資源 NLP等,而類似機器翻譯、文本分類與表示學(xué)習(xí)則由于其高的文章數(shù)量與低的增長率成為了 NLP 研究的基礎(chǔ),值得關(guān)注的還有一部分保持高增長率與低文章數(shù)量的研究領(lǐng)域,比如段落檢索、風(fēng)格轉(zhuǎn)換、代碼生成等,這些研究領(lǐng)域雖然近期熱度高漲,但是由于文章數(shù)量較少無法得到明顯的進(jìn)一步發(fā)展趨勢的判斷。 利用創(chuàng)新擴散理論,作者繪制了 NLP 研究領(lǐng)域的創(chuàng)新生命周期圖如上圖所示,從上圖可以看出,語義解析領(lǐng)域已經(jīng)基本步入了夕陽,接近創(chuàng)新生命周期的衰落期,而機器翻譯、表示學(xué)習(xí)與文本分析整體雖然都比較受歡迎,但是其已經(jīng)過了創(chuàng)新生命周期從成熟到衰落的拐點,發(fā)展速度目前正在減緩。而可解釋性 NLP,多模型以及自然語言交互等領(lǐng)域正處于快速發(fā)展期,在未來的研究中很有可能開始加速,而作為明星產(chǎn)品的綠色 NLP 正值當(dāng)打之年,未來可能會迎來爆發(fā)。 總結(jié)與討論盡管當(dāng)下伴隨著大模型的橫空出世,似乎許多 NLP 問題都一夜之間變成了已經(jīng)被解決的問題,這篇文章很合時宜的指出,伴隨著 NLP 使用模型越來越大,模型參數(shù)量直逼天文數(shù)字,與之伴生的計算成本問題、環(huán)境問題以及倫理問題有可能成為未來 NLP 研究的主流。 伴隨著一個領(lǐng)域的快速發(fā)展,可以宏觀的全景的對一個領(lǐng)域有一個全面的理解是一件相當(dāng)困難的事,而這篇通過收集、分類與判斷以呈現(xiàn)領(lǐng)域結(jié)構(gòu)化概述的工作可能對我們更加明確的了解我們身處的這個領(lǐng)域會非常有幫助吧! |
|