日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

谷歌開源強(qiáng)化學(xué)習(xí)深度規(guī)劃網(wǎng)絡(luò) PlaNet

 flyk0tcfb46p9f 2019-02-24

雷鋒網(wǎng) AI 科技評(píng)論按:近日,谷歌在官方博客上開源了強(qiáng)化學(xué)習(xí)深度規(guī)劃網(wǎng)絡(luò) PlaNet,PlaNet 成功解決各種基于圖像的控制任務(wù),最終性能與先進(jìn)的無模型智能體相比,在數(shù)據(jù)處理效率方面平均提高了 5000%。雷鋒網(wǎng) AI 科技評(píng)論對(duì)此進(jìn)行編譯如下。

針對(duì)人工智能體如何隨著時(shí)間的推移改善自身決策機(jī)制的研究,當(dāng)下用得最多的方法是強(qiáng)化學(xué)習(xí)。技術(shù)實(shí)現(xiàn)上,智能體會(huì)在選擇動(dòng)作(如馬達(dá)命令)的過程中觀察來自知覺輸入的流信息(如相機(jī)圖像),有時(shí)還會(huì)接收到實(shí)現(xiàn)指定目標(biāo)的獎(jiǎng)勵(lì)。這種無模型的強(qiáng)化學(xué)習(xí)方法可以直接預(yù)測經(jīng)過知覺觀察后的行為,使 DeepMind 的 DQN 能夠玩 Atari 游戲以及使用其他智能體來操控機(jī)器人。然而,這種具有「黑箱」性質(zhì)的方法往往需要數(shù)周的模擬交互,經(jīng)過反復(fù)的試驗(yàn)與試錯(cuò)才能完成學(xué)習(xí),由此限制了在現(xiàn)實(shí)中的應(yīng)用。

與此相對(duì)的是,基于模型的強(qiáng)化學(xué)習(xí)試圖讓智能體習(xí)得現(xiàn)實(shí)世界的日常運(yùn)行規(guī)律。并非將觀察結(jié)果直接轉(zhuǎn)化為行動(dòng),這種方法允許智能體明確提前做出計(jì)劃,通過「想象」長期回報(bào)從而更謹(jǐn)慎地采取行動(dòng)。這種基于模型的強(qiáng)化學(xué)習(xí)方法實(shí)際上已取得了實(shí)質(zhì)性成功,最著名如 AlphaGo,能在熟知規(guī)則的游戲虛擬板上進(jìn)行移動(dòng)操控。如果要將方法擴(kuò)大至未知環(huán)境中進(jìn)行運(yùn)用(例如操控僅有像素作為輸入的機(jī)器人),智能體必須懂得自己從經(jīng)驗(yàn)中習(xí)得規(guī)則。只有實(shí)現(xiàn)了這種動(dòng)態(tài)模型,我們?cè)瓌t上才有可能進(jìn)行更高效與自然的多任務(wù)學(xué)習(xí)。創(chuàng)建出足夠準(zhǔn)確用于進(jìn)行規(guī)劃的模型,一直是強(qiáng)化學(xué)習(xí)的長期目標(biāo)。

為了讓該難點(diǎn)早日取得突破,我們聯(lián)手 DeepMind 推出了深度規(guī)劃網(wǎng)絡(luò)(PlaNet)智能體,該智能體僅憑圖像輸入即可習(xí)得關(guān)于世界的模型,有效擴(kuò)大模型的規(guī)劃范圍。PlaNet 成功解決各種基于圖像的控制任務(wù),最終性能與先進(jìn)的無模型智能體相比,在數(shù)據(jù)處理效率方面平均提高了 5000%。我們?cè)谏鐓^(qū)開源了相關(guān)代碼:

開源網(wǎng)址:https://github.com/google-research/planet

PlaNet 的工作原理 

簡單來說,PlaNet 能在給定圖像輸入的情況下習(xí)得動(dòng)態(tài)模型,并通過它高效吸收新的經(jīng)驗(yàn)。與過去基于圖像進(jìn)行規(guī)劃的方法相比,我們依靠的是隱藏或潛在狀態(tài)的緊湊序列。之所以被稱作潛在動(dòng)態(tài)模型,是因?yàn)樗辉偈菑囊粋€(gè)圖像到一個(gè)圖像來進(jìn)行直接預(yù)測,而是先預(yù)測未來的潛在狀態(tài),然后再從相應(yīng)的潛在狀態(tài)中生成每一個(gè)步驟的圖像與獎(jiǎng)勵(lì)。通過這種方式壓縮圖像,智能體將能自動(dòng)習(xí)得更多抽象表示,比如物體的位置和速度,無需全程生成圖像也能對(duì)未來的狀態(tài)進(jìn)行預(yù)測。

潛在動(dòng)態(tài)學(xué)習(xí)模型:在潛在動(dòng)態(tài)學(xué)習(xí)模型中,輸入圖像的信息將通過編碼器網(wǎng)絡(luò)(灰色梯形)集成到隱藏狀態(tài)(綠色)中。然后隱藏狀態(tài)再向前映射以預(yù)測未來的圖像(藍(lán)色梯形)與獎(jiǎng)勵(lì)(藍(lán)色矩形)。

為了讓大家準(zhǔn)確把握潛在動(dòng)態(tài)學(xué)習(xí)模型,我們向大家推介:

  • 循環(huán)狀態(tài)空間模型(A Recurrent State Space Model):兼具確定性與隨機(jī)性因素的潛在動(dòng)態(tài)學(xué)習(xí)模型,可以在牢記過程諸多信息的情況下,預(yù)測實(shí)現(xiàn)魯棒性規(guī)劃所需的各種可能未來。最終的實(shí)驗(yàn)表明,這兩種因素對(duì)于高規(guī)劃性能的實(shí)現(xiàn)至關(guān)重要。

  • 潛在的超調(diào)目標(biāo)(A Latent Overshooting Objective):潛在空間中的一步與多步預(yù)測之間被強(qiáng)行達(dá)到一致性,我們?yōu)闈撛趧?dòng)態(tài)學(xué)習(xí)模型提煉出用于訓(xùn)練多步預(yù)測的目標(biāo)。這便產(chǎn)生了一個(gè)能夠快速、有效增進(jìn)長期預(yù)測性能的目標(biāo),可與任意的潛在序列模型相兼容。

雖然預(yù)測未來圖像允許我們對(duì)模型進(jìn)行「傳授」,然而圖像的編碼和解碼(上圖中的梯形)過程有賴于大量運(yùn)算,這將降低我們的規(guī)劃效率。無論如何,在緊湊的潛在狀態(tài)空間中進(jìn)行規(guī)劃依然是高效的,因?yàn)槲覀儍H需通過預(yù)測未來的獎(jiǎng)勵(lì)而非圖像來評(píng)估動(dòng)作序列。舉個(gè)例子,即便場景無法可視化,智能體也能自行想象球的位置以及它與目標(biāo)的距離將如何因?yàn)槟承﹦?dòng)作而被改變。這也意味著,每次智能體在選擇動(dòng)作時(shí),可與大批量將近 10,000 個(gè)想象動(dòng)作序列進(jìn)行對(duì)比。最后通過執(zhí)行找到最佳序列的首個(gè)動(dòng)作,我們?cè)贀?jù)此重新規(guī)劃下一步。

潛在空間中進(jìn)行規(guī)劃:為了進(jìn)行規(guī)劃,我們將過去的圖像(灰色梯形)編碼變?yōu)楫?dāng)前的隱藏狀態(tài)(綠色)。據(jù)此我們有效預(yù)測多個(gè)動(dòng)作序列的未來獎(jiǎng)勵(lì)。請(qǐng)注意上圖里基于過去圖像的圖像解碼器(藍(lán)色梯形)是如何消失的。最后通過執(zhí)行找到最佳序列的首個(gè)動(dòng)作(紅色框)。

與之前關(guān)于世界模型(world models)的工作相比,PlaNet 無需任何政策指導(dǎo)即可運(yùn)作——它純粹通過規(guī)劃來選擇行動(dòng),因此可以從實(shí)時(shí)的模型改進(jìn)中受益。有關(guān)技術(shù)細(xì)節(jié)可以查看:

在線論文:https://planetrl./

PDF 文件:https:///publications/2019-planet.pdf

PlaNet與無模型方法對(duì)比

我們利用連串控制任務(wù)上對(duì) PlaNet 的表現(xiàn)進(jìn)行考察。實(shí)驗(yàn)中這些智能體僅會(huì)獲得圖像觀察與獎(jiǎng)勵(lì)。這些任務(wù)涵蓋了各種不同類型的挑戰(zhàn):

  • cartpole 上升任務(wù),帶有固定攝像頭,因此 cart 可以放心移出視線。智能體必須吸收并記住多個(gè)幀的信息。

  • 手指旋轉(zhuǎn)任務(wù),需要對(duì)兩個(gè)單獨(dú)的對(duì)象以及它們之間的交互關(guān)系進(jìn)行預(yù)測。

  • 獵豹奔跑任務(wù),難點(diǎn)包括難以準(zhǔn)確預(yù)測的地面接觸,需要一個(gè)可以預(yù)測多種可能未來的模型。

  • 杯子任務(wù),球被抓住時(shí)只會(huì)提供稀疏的獎(jiǎng)勵(lì)信號(hào),這就意味著需要一個(gè)能夠準(zhǔn)確預(yù)測未來以規(guī)劃精確行動(dòng)序列的模型。

  • 步行者任務(wù),模擬機(jī)器人一開始會(huì)躺在地上,必須使它學(xué)會(huì)站起來并走路。

PlaNet 智能體會(huì)接受各種基于圖像的控制任務(wù)的訓(xùn)練。這些任務(wù)涵蓋了不同的挑戰(zhàn):部分可觀察性、與地面的接觸、用于接球的稀疏獎(jiǎng)勵(lì)以及控制具有挑戰(zhàn)性的雙足機(jī)器人。

我們是第一個(gè)利用學(xué)習(xí)模型進(jìn)行基于圖像任務(wù)的規(guī)劃,然后結(jié)果優(yōu)于無模型方法的工作。下表將 PlaNet 與著名的 A3C 智能體和 D4PG 智能體進(jìn)行了對(duì)比,兩者的結(jié)合正好代表了無模型強(qiáng)化學(xué)習(xí)方法的最新進(jìn)展。基線的編號(hào)均取自 DeepMind Control Suite。最終結(jié)果顯示,PlaNet 在所有任務(wù)上的表現(xiàn)都明顯優(yōu)于 A3C,并接近 D4PG 的最終性能,在與環(huán)境的交互頻次上平均減少了 5000%。

搞定所有任務(wù)的萬能智能體(One Agent)

此外,我們還訓(xùn)練了用于解決所有六項(xiàng)任務(wù)的 PlaNet 萬能智能體。該智能體在不指定任務(wù)目標(biāo)的情況下被隨機(jī)放置至不同環(huán)境中,需要靠自己從圖像觀察中來推斷出任務(wù)。在不更改超參數(shù)的情況下,多任務(wù)智能體達(dá)到與萬能智能體同樣的平均性能水平。萬能智能體雖然在 cartpole 上升任務(wù)中學(xué)習(xí)速度較緩慢,然而在需要自行進(jìn)行更多探索、更具有挑戰(zhàn)性的步行者任務(wù)上表現(xiàn)出更高的學(xué)習(xí)能力與性能水平。

PlaNet 智能體在多個(gè)任務(wù)上進(jìn)行訓(xùn)練的預(yù)測視頻。經(jīng)過訓(xùn)練的智能體收集信息過程展示如上,下方是 open-loop 幻覺智能體。萬能智能體將前 5 幀視為上下文語境來推斷任務(wù)和狀態(tài),并在給定一系列動(dòng)作的情況下準(zhǔn)確預(yù)測往后的 50 個(gè)步驟。

結(jié)論

我們的研究結(jié)果展示了用來建立自主強(qiáng)化學(xué)習(xí)智能體的動(dòng)態(tài)學(xué)習(xí)模型的前景。我們建議往后的研究可以將重點(diǎn)放在如何使其通過更高難度的任務(wù)來習(xí)得更精確的動(dòng)態(tài)學(xué)習(xí)模型,比如在 3D 環(huán)境和現(xiàn)實(shí)世界中的機(jī)器人任務(wù)。一個(gè)可能該研究進(jìn)一步取得突破的因素是 TPU 處理能力。我們對(duì)基于模型的強(qiáng)化學(xué)習(xí)方法在開源后的可能性感到異常興奮,其中可能受惠的領(lǐng)域包括多任務(wù)學(xué)習(xí)、分層規(guī)劃和通過不確定性進(jìn)行估計(jì)的主動(dòng)探索任務(wù)等。

via https://ai./2019/02/introducing-planet-deep-planning.html

雷鋒網(wǎng) AI 科技評(píng)論

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多