深度強(qiáng)化學(xué)習(xí)是近年來人工智能領(lǐng)域內(nèi)最受關(guān)注的研究方向之一,并已在游戲和機(jī)器人控制等領(lǐng)域取得了很多矚目的成果,其中值得關(guān)注的典型案例包括DeepMind攻破雅達(dá)利(Atari)游戲的深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN),在圍棋中獲得突破性進(jìn)展的AlphaGo和AlphaGo Zero,以及在Dota 2對戰(zhàn)人類職業(yè)玩家的OpenAI Five。深度強(qiáng)化學(xué)習(xí)是深層神經(jīng)網(wǎng)絡(luò)的一種形式,將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,可以直接根據(jù)輸入的對象實施控制,是一種更接近人類思維方式的人工智能方法。強(qiáng)化學(xué)習(xí)領(lǐng)域主要兩大問題:一是如何有效的與環(huán)境交互(如探索與利用、樣本效率等),二是如何有效地從經(jīng)歷中學(xué)習(xí)(例如長期信用分配、稀疏獎勵信號等)。深度強(qiáng)化學(xué)習(xí)是開發(fā)業(yè)務(wù)應(yīng)用程序中的通用技術(shù)之一,對于訓(xùn)練模型,它所需要的數(shù)據(jù)更少;而且其中另一個優(yōu)點在于可以通過模擬來訓(xùn)練模型,這完全消除了傳統(tǒng)深度學(xué)習(xí)技術(shù)對標(biāo)記數(shù)據(jù)的嚴(yán)重依賴。 2018年深度強(qiáng)化學(xué)習(xí)最引人注目的是DeepMind在2018年12月《科學(xué)(Science)》公開發(fā)表了AlphaZero完整論文,并登上其期刊封面,AlphaZero是AlphaGo和AlphaGo Zero的進(jìn)化版本,依靠基于深度神經(jīng)網(wǎng)絡(luò)的通用強(qiáng)化學(xué)習(xí)算法和通用樹搜索算法,已經(jīng)學(xué)會了三種不同的復(fù)雜棋類游戲,并且可能學(xué)會任何一種完美信息博弈的游戲:在國際象棋中,AlphaZero訓(xùn)練4小時超越了世界冠軍程序Stockfish;在日本將棋中,AlphaZero訓(xùn)練2小時超越了世界冠軍程序Elmo;在圍棋中,AlphaZero訓(xùn)練30小時超越了與李世石對戰(zhàn)的AlphaGo?!犊茖W(xué)》期刊評價稱,“AlphaZero能夠解決多個復(fù)雜問題的單一算法,是創(chuàng)建通用機(jī)器學(xué)習(xí)系統(tǒng),解決實際問題的重要一步”。2018年,歷時兩年開發(fā)完成的Alpha家族另一成員AlphaFold也被公開,能根據(jù)基因序列來預(yù)測蛋白質(zhì)的3D結(jié)構(gòu),并在有著“蛋白質(zhì)結(jié)構(gòu)預(yù)測奧運會”美譽的蛋白質(zhì)結(jié)構(gòu)預(yù)測的關(guān)鍵性評價(Critical Assessment of Protein Structure Prediction,CASP)比賽中奪冠,被譽為“證明人工智能研究驅(qū)動、加速科學(xué)進(jìn)展重要里程碑”和“生物學(xué)的核心挑戰(zhàn)之一上取得了重大進(jìn)展”。AlphaFold使用兩種不同的方法,來構(gòu)建完整的蛋白質(zhì)結(jié)構(gòu)預(yù)測,這兩種方法均依賴深度強(qiáng)化學(xué)習(xí)技術(shù):第一種方法基于結(jié)構(gòu)生物學(xué)中常用的技術(shù),用新的蛋白質(zhì)片段反復(fù)替換蛋白質(zhì)結(jié)構(gòu)的片段,他們訓(xùn)練了一個生成神經(jīng)網(wǎng)絡(luò)來發(fā)明新的片段,用來不斷提高蛋白質(zhì)結(jié)構(gòu)的評分;第二種方法通過梯度下降法優(yōu)化得分,可以進(jìn)行微小的、增量的改進(jìn),從而得到高精度的結(jié)構(gòu)。從2016年AlphaGo論文發(fā)表在《自然(Nature)》上,到今天AlphaZero登上《科學(xué)》,Alpha家族除了最新的AlphaFold之外,AlphaGo、AlphaGo Zero和AlphaZero已經(jīng)全部刊登在頂級期刊《科學(xué)》和《自然》上。 2018年,谷歌在圍繞深度強(qiáng)化學(xué)習(xí)的研究與應(yīng)用中取得多項開創(chuàng)性進(jìn)展。2018年6月,谷歌大腦(Google Brain)提出了一個為強(qiáng)化學(xué)習(xí)環(huán)境構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型“世界模型(World Models)”,“世界模型”可通過無監(jiān)督的方式快速訓(xùn)練,讓人工智能在“夢境”中對外部環(huán)境的未來狀態(tài)進(jìn)行預(yù)測,大幅提高了完成任務(wù)的效率;2018年8月,谷歌宣布推出一個新的基于Tensorflow的強(qiáng)化學(xué)習(xí)框架,稱為Dopamine,旨在為強(qiáng)化學(xué)習(xí)研究人員提供靈活性、穩(wěn)定性和可重復(fù)性,這個強(qiáng)大的新框架有力地推動強(qiáng)化學(xué)習(xí)研究取得根本性的新突破;2018年10月,谷歌DeepMind開源了一個內(nèi)部強(qiáng)化學(xué)習(xí)庫TRFL,用于在TensorFlow中編寫強(qiáng)化學(xué)習(xí)智能體,包含了DeepMind內(nèi)部用于大量非常成功的智能體的關(guān)鍵算法組件,如DQN和IMPALA(Importance Weighted Actor Learner Architecture)等。 2018年9月,麻省理工學(xué)院和Google Cloud的研究人員提出AutoML模型壓縮技術(shù),利用強(qiáng)化學(xué)習(xí)將壓縮流程自動化,完全無需人工,而且速度更快,性能更高。模型壓縮是在計算資源有限、能耗預(yù)算緊張的移動設(shè)備上有效部署神經(jīng)網(wǎng)絡(luò)模型的關(guān)鍵技術(shù)。在許多機(jī)器學(xué)習(xí)應(yīng)用,例如機(jī)器人、自動駕駛和廣告排名等,深度神經(jīng)網(wǎng)絡(luò)經(jīng)常受到延遲、電力和模型大小預(yù)算的限制。該項研究能夠自動查找任意網(wǎng)絡(luò)的壓縮策略,以實現(xiàn)比人為設(shè)計的基于規(guī)則的模型壓縮方法更好的性能。 2018年10月,美國能源部旗下勞倫斯伯克利國家實驗室發(fā)布了新的研究項目,旨在將人工智能應(yīng)用到自動駕駛車輛中,從而使交通流更為順暢、節(jié)省車輛油耗并改善空氣質(zhì)量。該機(jī)構(gòu)還與加州大學(xué)伯克利分校開展合作,將深度強(qiáng)化學(xué)習(xí)技術(shù)用于訓(xùn)練控制器,實現(xiàn)更加可持續(xù)的交通模式。 2018年6月,DeepMind聯(lián)合谷歌大腦(Google Brain)、麻省理工學(xué)院等機(jī)構(gòu)將圖與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了一個全新的深度學(xué)習(xí)模塊“圖網(wǎng)絡(luò)(Graph Network)”,是對以前各種對圖進(jìn)行操作的神經(jīng)網(wǎng)絡(luò)方法的推廣和擴(kuò)展。由于“圖網(wǎng)絡(luò)”主要采用神經(jīng)網(wǎng)絡(luò)的方式對圖進(jìn)行操作,因此它又可以稱為“圖神經(jīng)網(wǎng)絡(luò)”。圖網(wǎng)絡(luò)具有強(qiáng)大的關(guān)系歸納偏置,為操縱結(jié)構(gòu)化知識和生成結(jié)構(gòu)化行為提供了一個直接的界面,由于其支持關(guān)系推理和組合泛化的優(yōu)勢,“讓深度學(xué)習(xí)也能因果推理”,引起業(yè)界的廣泛關(guān)注。 圖網(wǎng)絡(luò)的框架定義了一類用于圖形結(jié)構(gòu)表示的關(guān)系推理的函數(shù),推廣并擴(kuò)展了各種神經(jīng)網(wǎng)絡(luò)方法,并為操作結(jié)構(gòu)化知識和生成結(jié)構(gòu)化行為提供了新的思路。圖網(wǎng)絡(luò)框架概括并擴(kuò)展了各種的圖神經(jīng)網(wǎng)絡(luò)、多層感知機(jī)神經(jīng)網(wǎng)絡(luò)等,并支持從簡單的構(gòu)建模塊來構(gòu)建復(fù)雜的結(jié)構(gòu)。圖網(wǎng)絡(luò)框架的主要計算單元是圖網(wǎng)絡(luò)模塊,即“圖到圖”模塊,它將圖作為輸入,對圖的結(jié)構(gòu)執(zhí)行計算,并返回圖作為輸出。圖網(wǎng)絡(luò)框架的模塊組織強(qiáng)調(diào)了可定制性,并能合成可以表達(dá)關(guān)系歸納偏置的新架構(gòu),其關(guān)鍵的設(shè)計原則可以概述為靈活的表征、可配置的模塊內(nèi)部結(jié)構(gòu)以及可組合的多模塊框架。2018年10月,DeepMind開源了內(nèi)部的Graph Nets庫,用于在TensorFlow中構(gòu)建簡單而強(qiáng)大的關(guān)系推理網(wǎng)絡(luò)。 2018年度深度學(xué)習(xí)技術(shù)在自然語言處理領(lǐng)域最矚目的突破性進(jìn)展是谷歌的BERT模型。2018年10月,谷歌發(fā)布的BERT(Bidirectional Encoder Representation from Transformers)模型,該模型被認(rèn)為是自然語言處理領(lǐng)域“最強(qiáng)模型”,一經(jīng)發(fā)布便引發(fā)了深度學(xué)習(xí)界持續(xù)而強(qiáng)烈的關(guān)注。BERT模型是一種對語言表征進(jìn)行預(yù)訓(xùn)練的模型,經(jīng)過大型文本語料庫(如維基百科)訓(xùn)練后獲得的通用“語言理解”模型,該模型可用于多種自然語言處理下游任務(wù)(如自動問答、情感分析等)。BERT模型之所以表現(xiàn)得比過往的方法要好,是因為它是首個用于進(jìn)行自然語言處理預(yù)訓(xùn)練的無監(jiān)督、深度雙向系統(tǒng)。BERT模型是一種深度雙向Transformer模型,刷新了11種自然語言處理任務(wù)的最佳表現(xiàn),包括斯坦福問答數(shù)據(jù)集(SQuAD)等。在描述該模型的論文發(fā)布之后不久,其研究團(tuán)隊還開源了該模型的代碼,并發(fā)布了可供下載的模型版本,已經(jīng)在大規(guī)模數(shù)據(jù)集上經(jīng)過預(yù)訓(xùn)練。BERT模型被廣泛認(rèn)為是一個重大的進(jìn)展,因為它可讓任何人都可以構(gòu)建涉及自然語言處理的機(jī)器學(xué)習(xí)模型,并將這種強(qiáng)大工具用作其中的組件,這能節(jié)省從頭開始訓(xùn)練語言處理模型所需的時間、精力、知識和資源。 多任務(wù)學(xué)習(xí)(Multi-Task Learning)是指讓單個智能體學(xué)習(xí)如何解決許多不同的任務(wù),一直是人工智能研究的長期目標(biāo),被認(rèn)為是通往通用人工智能(Artificial General Intelligence)的關(guān)鍵一環(huán)。關(guān)于通用人工智能(也稱“強(qiáng)人工智能”)的相關(guān)研究希望通過一個通用的數(shù)學(xué)模型,能夠最大限度概括智能的本質(zhì)。目前對于“智能的本質(zhì)”的比較主流的看法,是系統(tǒng)能夠具有通用效用最大化能力,即系統(tǒng)擁有通用歸納能力,能夠逼近任意可逼近的模式,并能利用所識別到的模式取得一個效用函數(shù)的最大化效益。 當(dāng)前多任務(wù)學(xué)習(xí)存在的問題在于,強(qiáng)化學(xué)習(xí)智能體用來判斷成功的獎勵方案經(jīng)常存在差異,導(dǎo)致他們把注意力集中在獎勵更高的任務(wù)上。為了解決這個問題,2018年9月,DeepMind開發(fā)了PopArt(Preserving Outputs Precisely while Adaptively Rescaling Targets),解決了不同游戲獎勵機(jī)制規(guī)范化的問題,它可以玩57款雅達(dá)利電子游戲(包括雅達(dá)利經(jīng)典的“突出重圍(Breakout)”和“乒乓球(Pong)”游戲),并且在所有57款游戲中達(dá)到高于人類中間水平的表現(xiàn)。PopArt的工作機(jī)制是在機(jī)器對不同任務(wù)的學(xué)習(xí)數(shù)據(jù)進(jìn)行加權(quán)之前,先對數(shù)據(jù)目標(biāo)進(jìn)行自動的“歸一化”調(diào)整,再將其轉(zhuǎn)換成原始數(shù)據(jù)輸出給機(jī)器。其優(yōu)勢體現(xiàn)在如下兩個方面:機(jī)器對不同獎勵大小和頻率的多個任務(wù)進(jìn)行更穩(wěn)健、一致的學(xué)習(xí);能夠有效增加機(jī)器學(xué)習(xí)智能體的數(shù)據(jù)效率,降低訓(xùn)練成本。 近年來,多任務(wù)學(xué)習(xí)領(lǐng)域已經(jīng)取得許多卓越的進(jìn)步。隨著人工智能研究向更復(fù)雜的現(xiàn)實世界領(lǐng)域發(fā)展,構(gòu)建一個單一的強(qiáng)智能體(General Agent)來學(xué)習(xí)執(zhí)行多重任務(wù)將變得至關(guān)重要,而不是構(gòu)建多個專家智能體。到目前為止,這已經(jīng)被證明是一項重大挑戰(zhàn)。 隨著深度學(xué)習(xí)在計算機(jī)視覺、自然語言處理等領(lǐng)域取得的成果越來越顯著,對深度學(xué)習(xí)的討論越來越多。谷歌、英偉達(dá)、臉書、微軟等科技巨頭在2018年圍繞深度學(xué)習(xí)推出一系列開源框架。 2018年,谷歌第二代人工智能框架TensorFlow進(jìn)行了多次重大改進(jìn),重點在于提高易用性和高效性,推出TensorFlow Hub、TensorFlow.js、TensorFlow Extended;提供Cloud TPU模塊與管道;提供新的分布式策略API;提供概率編程工具;集成Cloud Big Table等。目前TensorFlow在各類深度學(xué)習(xí)框架的對比中處于統(tǒng)治地位,谷歌宣布將于2019年發(fā)布TensorFlow 2.0版本。基于TensorFlow,谷歌在2018年開源多款開發(fā)平臺或模型:2018年1月,谷歌推出機(jī)器學(xué)習(xí)產(chǎn)品Cloud AutoML,擁有視覺、自然語言處理、翻譯等多種服務(wù);2018年10月,谷歌開源輕量級AutoML框架AdaNet,該框架基于TensorFlow,提供了一種通用框架,不僅能夠?qū)W習(xí)神經(jīng)網(wǎng)絡(luò)架構(gòu),還能學(xué)習(xí)集成從而獲得更佳的模型,僅需少量的專家干預(yù)便能自動學(xué)習(xí)高質(zhì)量模型,在提供學(xué)習(xí)保證的同時也能保持快速、靈活;2018年10月,DeepMind開源一個用于在TensorFlow環(huán)境中開發(fā)強(qiáng)化學(xué)習(xí)智能體的代碼庫TRFL,打包了許多有用的基礎(chǔ)組件,包含DeepMind自己用來開發(fā)DQN、DDPG以及IMPALA等知名強(qiáng)化學(xué)習(xí)技術(shù)的許多關(guān)鍵算法組件;2018年11月,圍繞稱為自然語言處理領(lǐng)域重大進(jìn)展的BERT模型,谷歌開源了BERT模型TensorFlow代碼、BERT-Base與BERT-Large模型的預(yù)訓(xùn)練檢查點、微調(diào)實驗結(jié)果的自動化復(fù)現(xiàn)TensorFlow代碼、預(yù)訓(xùn)練數(shù)據(jù)生成和數(shù)據(jù)訓(xùn)練的代碼。 2018年3月,英偉達(dá)(NVIDIA)推出了一個更新的、全面優(yōu)化的軟件堆棧,還公布了其全球領(lǐng)先的深度學(xué)習(xí)計算平臺所取得的一系列重要進(jìn)展,包括NVIDIA Tesla V100(最強(qiáng)大的數(shù)據(jù)中心GPU)的2倍內(nèi)存提升,以及革命性的全新GPU互聯(lián)結(jié)構(gòu)NVIDIA NVSwitch,它可使多達(dá)16個Tesla V100 GPU同時以2.4 TB /秒的速度進(jìn)行通信,這一速度創(chuàng)下歷史新高(相較于半年前發(fā)布的上一代產(chǎn)品,其深度學(xué)習(xí)工作負(fù)載性能實現(xiàn)10倍提升);同時,英偉達(dá)推出NVIDIA DGX-2,是其在深度學(xué)習(xí)計算領(lǐng)域取得的重大突破,這是首款能夠提供每秒兩千萬億次浮點運算能力的單點服務(wù)器,具有300臺服務(wù)器的深度學(xué)習(xí)處理能力,占用15個數(shù)據(jù)中心機(jī)架空間,而體積則縮小60倍,能效提升18倍。2018年11月,英偉達(dá)發(fā)布了一個基于Python的遷移學(xué)習(xí)工具包(Transfer Learning Toolkit),打包了很多預(yù)訓(xùn)練的模型,并提供多GPU支持,用戶還可以在工具包提供的原有神經(jīng)網(wǎng)絡(luò)上,增加數(shù)據(jù)或者增加特征,然后讓它們重新訓(xùn)練以適應(yīng)變化,該工具包主要面向智能視頻分析和醫(yī)學(xué)影像分析等兩種應(yīng)用。 2018年6月,蘋果公司在WWDC2018上發(fā)布了Core ML 2,該框架是在蘋果產(chǎn)品上使用的高性能機(jī)器學(xué)習(xí)和深度學(xué)習(xí)框架,能幫助開發(fā)者快速地將多種機(jī)器學(xué)習(xí)模型融合到移動應(yīng)用程序中,比初代Core ML提速逾30%;同時,蘋果還發(fā)布Create ML,支持計算機(jī)視覺、自然語言處理等機(jī)器學(xué)習(xí)任務(wù)模型開發(fā),能直接在Mac上完成模型訓(xùn)練。 2018年11月,由諸多硅谷科技巨頭聯(lián)合建立的人工智能非營利組織OpenAI推出深度強(qiáng)化學(xué)習(xí)教育資源Spinning Up,一個旨在提供深度強(qiáng)化學(xué)習(xí)的項目。Spinning Up包括一系列重要的強(qiáng)化學(xué)習(xí)研究論文,理解強(qiáng)化學(xué)習(xí)所必需的術(shù)語表,以及一系列用于運行練習(xí)的算法。該項目的推出不僅是為了幫助人們了解強(qiáng)化學(xué)習(xí)是如何工作的,也是為了讓更多來自計算機(jī)科學(xué)領(lǐng)域之外的人參與進(jìn)來,從而朝著OpenAI安全創(chuàng)建通用人工智能的總體目標(biāo)邁進(jìn)。 2018年10月,F(xiàn)acebook發(fā)布開源移動端深度學(xué)習(xí)加速框架QNNPACK,可以成倍提升神經(jīng)網(wǎng)絡(luò)的推理效率,幾乎比TensorFlow Lite快一倍;2018年12月,F(xiàn)acebook開源PyTorch 1.0穩(wěn)定版,融合了Caffe2和ONNX支持模塊化、面向生產(chǎn)的功能,并保留了PyTorch 現(xiàn)有的靈活、以研究為中心的設(shè)計;同月,F(xiàn)acebook開源了一個基于PyTorch的深度學(xué)習(xí)框架PyText,旨在解決當(dāng)前自然語言處理任務(wù)中時間緊且需要大規(guī)模部署之間的矛盾,能夠迅捷化構(gòu)建和部署自然語言處理系統(tǒng),該框架不僅能簡化流程更快部署,還能調(diào)取眾多預(yù)構(gòu)建模型和程序方便大規(guī)模部署。 由斯坦福大學(xué)主導(dǎo)發(fā)布的“AI Index”2018年度報告指出,在眾多深度學(xué)習(xí)開源框架中,TensorFlow的受歡迎程度在開發(fā)者中遙遙領(lǐng)先、穩(wěn)步增長;排名緊隨其后的是Scikit-Learn和BVLC/Caffe,但是落后明顯。此外,根據(jù)Google Trends過去三年的統(tǒng)計數(shù)據(jù)可知,在全球范圍內(nèi)計算機(jī)科學(xué)領(lǐng)域,TensorFlow、Keras、PyTorch、Caffe、Theano這五個深度學(xué)習(xí)框架在Google網(wǎng)頁搜索的熱度中,TensorFlow一直處于領(lǐng)先狀態(tài)且領(lǐng)先優(yōu)勢巨大,Keras位居第二。 作者:北京海鷹科技情報研究所 葛悅濤 王彤 |
|