谷歌開源強(qiáng)化學(xué)習(xí)深度規(guī)劃網(wǎng)絡(luò) PlaNet

flyk0tcfb46p9f 2019-02-24

展開全文

雷鋒網(wǎng) AI 科技評(píng)論按：近日，谷歌在官方博客上開源了強(qiáng)化學(xué)習(xí)深度規(guī)劃網(wǎng)絡(luò) PlaNet，PlaNet 成功解決各種基于圖像的控制任務(wù)，最終性能與先進(jìn)的無模型智能體相比，在數(shù)據(jù)處理效率方面平均提高了 5000％。雷鋒網(wǎng) AI 科技評(píng)論對(duì)此進(jìn)行編譯如下。

針對(duì)人工智能體如何隨著時(shí)間的推移改善自身決策機(jī)制的研究，當(dāng)下用得最多的方法是強(qiáng)化學(xué)習(xí)。技術(shù)實(shí)現(xiàn)上，智能體會(huì)在選擇動(dòng)作（如馬達(dá)命令）的過程中觀察來自知覺輸入的流信息（如相機(jī)圖像），有時(shí)還會(huì)接收到實(shí)現(xiàn)指定目標(biāo)的獎(jiǎng)勵(lì)。這種無模型的強(qiáng)化學(xué)習(xí)方法可以直接預(yù)測經(jīng)過知覺觀察后的行為，使 DeepMind 的 DQN 能夠玩 Atari 游戲以及使用其他智能體來操控機(jī)器人。然而，這種具有「黑箱」性質(zhì)的方法往往需要數(shù)周的模擬交互，經(jīng)過反復(fù)的試驗(yàn)與試錯(cuò)才能完成學(xué)習(xí)，由此限制了在現(xiàn)實(shí)中的應(yīng)用。

與此相對(duì)的是，基于模型的強(qiáng)化學(xué)習(xí)試圖讓智能體習(xí)得現(xiàn)實(shí)世界的日常運(yùn)行規(guī)律。并非將觀察結(jié)果直接轉(zhuǎn)化為行動(dòng)，這種方法允許智能體明確提前做出計(jì)劃，通過「想象」長期回報(bào)從而更謹(jǐn)慎地采取行動(dòng)。這種基于模型的強(qiáng)化學(xué)習(xí)方法實(shí)際上已取得了實(shí)質(zhì)性成功，最著名如 AlphaGo，能在熟知規(guī)則的游戲虛擬板上進(jìn)行移動(dòng)操控。如果要將方法擴(kuò)大至未知環(huán)境中進(jìn)行運(yùn)用（例如操控僅有像素作為輸入的機(jī)器人），智能體必須懂得自己從經(jīng)驗(yàn)中習(xí)得規(guī)則。只有實(shí)現(xiàn)了這種動(dòng)態(tài)模型，我們?cè)瓌t上才有可能進(jìn)行更高效與自然的多任務(wù)學(xué)習(xí)。創(chuàng)建出足夠準(zhǔn)確用于進(jìn)行規(guī)劃的模型，一直是強(qiáng)化學(xué)習(xí)的長期目標(biāo)。

為了讓該難點(diǎn)早日取得突破，我們聯(lián)手 DeepMind 推出了深度規(guī)劃網(wǎng)絡(luò)（PlaNet）智能體，該智能體僅憑圖像輸入即可習(xí)得關(guān)于世界的模型，有效擴(kuò)大模型的規(guī)劃范圍。PlaNet 成功解決各種基于圖像的控制任務(wù)，最終性能與先進(jìn)的無模型智能體相比，在數(shù)據(jù)處理效率方面平均提高了 5000％。我們?cè)谏鐓^(qū)開源了相關(guān)代碼：

開源網(wǎng)址：https://github.com/google-research/planet

PlaNet 的工作原理

簡單來說，PlaNet 能在給定圖像輸入的情況下習(xí)得動(dòng)態(tài)模型，并通過它高效吸收新的經(jīng)驗(yàn)。與過去基于圖像進(jìn)行規(guī)劃的方法相比，我們依靠的是隱藏或潛在狀態(tài)的緊湊序列。之所以被稱作潛在動(dòng)態(tài)模型，是因?yàn)樗辉偈菑囊粋€(gè)圖像到一個(gè)圖像來進(jìn)行直接預(yù)測，而是先預(yù)測未來的潛在狀態(tài)，然后再從相應(yīng)的潛在狀態(tài)中生成每一個(gè)步驟的圖像與獎(jiǎng)勵(lì)。通過這種方式壓縮圖像，智能體將能自動(dòng)習(xí)得更多抽象表示，比如物體的位置和速度，無需全程生成圖像也能對(duì)未來的狀態(tài)進(jìn)行預(yù)測。

潛在動(dòng)態(tài)學(xué)習(xí)模型：在潛在動(dòng)態(tài)學(xué)習(xí)模型中，輸入圖像的信息將通過編碼器網(wǎng)絡(luò)（灰色梯形）集成到隱藏狀態(tài)（綠色）中。然后隱藏狀態(tài)再向前映射以預(yù)測未來的圖像（藍(lán)色梯形）與獎(jiǎng)勵(lì)（藍(lán)色矩形）。

為了讓大家準(zhǔn)確把握潛在動(dòng)態(tài)學(xué)習(xí)模型，我們向大家推介：

循環(huán)狀態(tài)空間模型（A Recurrent State Space Model）：兼具確定性與隨機(jī)性因素的潛在動(dòng)態(tài)學(xué)習(xí)模型，可以在牢記過程諸多信息的情況下，預(yù)測實(shí)現(xiàn)魯棒性規(guī)劃所需的各種可能未來。最終的實(shí)驗(yàn)表明，這兩種因素對(duì)于高規(guī)劃性能的實(shí)現(xiàn)至關(guān)重要。
潛在的超調(diào)目標(biāo)（A Latent Overshooting Objective）：潛在空間中的一步與多步預(yù)測之間被強(qiáng)行達(dá)到一致性，我們?yōu)闈撛趧?dòng)態(tài)學(xué)習(xí)模型提煉出用于訓(xùn)練多步預(yù)測的目標(biāo)。這便產(chǎn)生了一個(gè)能夠快速、有效增進(jìn)長期預(yù)測性能的目標(biāo)，可與任意的潛在序列模型相兼容。

雖然預(yù)測未來圖像允許我們對(duì)模型進(jìn)行「傳授」，然而圖像的編碼和解碼（上圖中的梯形）過程有賴于大量運(yùn)算，這將降低我們的規(guī)劃效率。無論如何，在緊湊的潛在狀態(tài)空間中進(jìn)行規(guī)劃依然是高效的，因?yàn)槲覀儍H需通過預(yù)測未來的獎(jiǎng)勵(lì)而非圖像來評(píng)估動(dòng)作序列。舉個(gè)例子，即便場景無法可視化，智能體也能自行想象球的位置以及它與目標(biāo)的距離將如何因?yàn)槟承﹦?dòng)作而被改變。這也意味著，每次智能體在選擇動(dòng)作時(shí)，可與大批量將近 10,000 個(gè)想象動(dòng)作序列進(jìn)行對(duì)比。最后通過執(zhí)行找到最佳序列的首個(gè)動(dòng)作，我們?cè)贀?jù)此重新規(guī)劃下一步。

潛在空間中進(jìn)行規(guī)劃：為了進(jìn)行規(guī)劃，我們將過去的圖像（灰色梯形）編碼變?yōu)楫?dāng)前的隱藏狀態(tài)（綠色）。據(jù)此我們有效預(yù)測多個(gè)動(dòng)作序列的未來獎(jiǎng)勵(lì)。請(qǐng)注意上圖里基于過去圖像的圖像解碼器（藍(lán)色梯形）是如何消失的。最后通過執(zhí)行找到最佳序列的首個(gè)動(dòng)作（紅色框）。

與之前關(guān)于世界模型（world models）的工作相比，PlaNet 無需任何政策指導(dǎo)即可運(yùn)作——它純粹通過規(guī)劃來選擇行動(dòng)，因此可以從實(shí)時(shí)的模型改進(jìn)中受益。有關(guān)技術(shù)細(xì)節(jié)可以查看：

在線論文：https://planetrl./

PDF 文件：https:///publications/2019-planet.pdf

PlaNet與無模型方法對(duì)比

我們利用連串控制任務(wù)上對(duì) PlaNet 的表現(xiàn)進(jìn)行考察。實(shí)驗(yàn)中這些智能體僅會(huì)獲得圖像觀察與獎(jiǎng)勵(lì)。這些任務(wù)涵蓋了各種不同類型的挑戰(zhàn)：

cartpole 上升任務(wù)，帶有固定攝像頭，因此 cart 可以放心移出視線。智能體必須吸收并記住多個(gè)幀的信息。
手指旋轉(zhuǎn)任務(wù)，需要對(duì)兩個(gè)單獨(dú)的對(duì)象以及它們之間的交互關(guān)系進(jìn)行預(yù)測。
獵豹奔跑任務(wù)，難點(diǎn)包括難以準(zhǔn)確預(yù)測的地面接觸，需要一個(gè)可以預(yù)測多種可能未來的模型。
杯子任務(wù)，球被抓住時(shí)只會(huì)提供稀疏的獎(jiǎng)勵(lì)信號(hào)，這就意味著需要一個(gè)能夠準(zhǔn)確預(yù)測未來以規(guī)劃精確行動(dòng)序列的模型。
步行者任務(wù)，模擬機(jī)器人一開始會(huì)躺在地上，必須使它學(xué)會(huì)站起來并走路。

PlaNet 智能體會(huì)接受各種基于圖像的控制任務(wù)的訓(xùn)練。這些任務(wù)涵蓋了不同的挑戰(zhàn)：部分可觀察性、與地面的接觸、用于接球的稀疏獎(jiǎng)勵(lì)以及控制具有挑戰(zhàn)性的雙足機(jī)器人。

我們是第一個(gè)利用學(xué)習(xí)模型進(jìn)行基于圖像任務(wù)的規(guī)劃，然后結(jié)果優(yōu)于無模型方法的工作。下表將 PlaNet 與著名的 A3C 智能體和 D4PG 智能體進(jìn)行了對(duì)比，兩者的結(jié)合正好代表了無模型強(qiáng)化學(xué)習(xí)方法的最新進(jìn)展。基線的編號(hào)均取自 DeepMind Control Suite。最終結(jié)果顯示，PlaNet 在所有任務(wù)上的表現(xiàn)都明顯優(yōu)于 A3C，并接近 D4PG 的最終性能，在與環(huán)境的交互頻次上平均減少了 5000％。

搞定所有任務(wù)的萬能智能體（One Agent）

此外，我們還訓(xùn)練了用于解決所有六項(xiàng)任務(wù)的 PlaNet 萬能智能體。該智能體在不指定任務(wù)目標(biāo)的情況下被隨機(jī)放置至不同環(huán)境中，需要靠自己從圖像觀察中來推斷出任務(wù)。在不更改超參數(shù)的情況下，多任務(wù)智能體達(dá)到與萬能智能體同樣的平均性能水平。萬能智能體雖然在 cartpole 上升任務(wù)中學(xué)習(xí)速度較緩慢，然而在需要自行進(jìn)行更多探索、更具有挑戰(zhàn)性的步行者任務(wù)上表現(xiàn)出更高的學(xué)習(xí)能力與性能水平。

PlaNet 智能體在多個(gè)任務(wù)上進(jìn)行訓(xùn)練的預(yù)測視頻。經(jīng)過訓(xùn)練的智能體收集信息過程展示如上，下方是 open-loop 幻覺智能體。萬能智能體將前 5 幀視為上下文語境來推斷任務(wù)和狀態(tài)，并在給定一系列動(dòng)作的情況下準(zhǔn)確預(yù)測往后的 50 個(gè)步驟。

結(jié)論

我們的研究結(jié)果展示了用來建立自主強(qiáng)化學(xué)習(xí)智能體的動(dòng)態(tài)學(xué)習(xí)模型的前景。我們建議往后的研究可以將重點(diǎn)放在如何使其通過更高難度的任務(wù)來習(xí)得更精確的動(dòng)態(tài)學(xué)習(xí)模型，比如在 3D 環(huán)境和現(xiàn)實(shí)世界中的機(jī)器人任務(wù)。一個(gè)可能該研究進(jìn)一步取得突破的因素是 TPU 處理能力。我們對(duì)基于模型的強(qiáng)化學(xué)習(xí)方法在開源后的可能性感到異常興奮，其中可能受惠的領(lǐng)域包括多任務(wù)學(xué)習(xí)、分層規(guī)劃和通過不確定性進(jìn)行估計(jì)的主動(dòng)探索任務(wù)等。

via https://ai./2019/02/introducing-planet-deep-planning.html

雷鋒網(wǎng) AI 科技評(píng)論

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： flyk0tcfb46p9f > 《AI》

舉報(bào)/認(rèn)領(lǐng)