日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

 LZS2851 2016-06-14

ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

1新智元原創(chuàng)

ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

  1. 像素循環(huán)神經網絡(Pixel Recurrent Neural Networks)

  2. 卷積神經網絡中循環(huán)對稱性的利用(Exploiting Cyclic Symmetry in Convolutional Neural Networks)

  3. 深度強化學習的異步算法(Asynchronous Methods for Deep Reinforcement Learning)

  4. 基于模型加速的連續(xù)深度Q學習(Continuous Deep Q-Learning with Model-based Acceleration)

關注新智元(AI_era)回復“0614”下載論文(請直接在公眾號回復,不是在文章下評論或留言)

1. 像素循環(huán)神經網絡

摘要

自然圖像分布建模是無監(jiān)督學習中的重大問題。該模型必須同時具有表達性、可解性(tractable)和可擴展性。我們提出了一個深度神經網絡,能循序預測圖像中兩個維度上的像素。方法是對原始像素值離散概率建模,對圖像中依賴關系的完整集合編碼。構架上的創(chuàng)新包括多個快速二維循環(huán)層和有效利用深度循環(huán)網絡中的殘差連接。我們從自然圖像中獲得的對數似然分數顯著高于先前的最高水平。我們的主要研究結果也為 ImageNet 各個數據集提供了測試基準。模型產生的樣本干凈、多樣且具有全局一致性。

1. 引言

本文中,我們提出了二維循環(huán)神經網絡(RNN),并將其用于自然圖像大規(guī)模建模。所產生的 PixelRNN 含有 12 層快速二維長短時記憶(LSTM)。這些層在狀態(tài)中使用 LSTM 單元,用卷積方法從數據的一個空間維度中一次性計算出所有狀態(tài)。我們設計了兩種類型的層:第一種是 Row LSTM,每一行都做卷積;第二種是對角線雙長短時記憶(BiLSTM)層,其中以嶄新的方式沿圖像對角線做卷積。該網絡也包含了圍繞 LSTM 層的殘差連接;我們發(fā)現這有助于把 PixelRNN 的深度訓練到 12 層。

我們也考慮了另一種簡化構架,核心組成部分與 PixelRNN 相同。我們發(fā)現通過使用 Masked 卷積,卷積神經網絡(CNN)可被用于依賴度范圍固定的序列模型。由此,PixelCNN 的構架是一個由 15 個層構成的完全卷積網絡,所有層中保留了輸入的空間分辨率,并在每個位置輸出一個條件分布。

ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

使用 PixelRNN 處理后的圖片效果

PixelRNN 和 PixelCNN 都沒有引入其他獨立假設,就得到了像素相互依賴關系的全部 generality,也保持了每個單獨像素內部 RGB 顏色值之間的依賴關系。而且,與之前那些將像素作為連續(xù)變量建模的方法相比,我們用一個簡單 softmax 層實現了多項式分布,從而以離散值對像素建模。這一方法讓我們的模型在表征和訓練上具有優(yōu)勢。

本文的貢獻如下。第 3 部分,我們設計了兩種 PixelRNN,分別對應兩種類型 LSTM 層;我們描述了一個純粹使用卷積的 PixelCNN,這也是我們最快的構架;我們還設計了一個可擴展的 PixelRNN。第 5 部分,我們證明了使用離散 softmax 分布和采用 LSTM 層的殘差連接的相對優(yōu)勢。接下來,我們在 MNIST 和 CIFAR-10 檢測模型,取得的對數似然分數顯著高于先前結果。我們還提供了大規(guī)模 ImageNet 數據集大小變換為 32*32 和 64*64 像素的結果;據我們所知(論文發(fā)表時)尚未有人提交該數據集生成模型的似然分數。最后,我們對 PixelRNN 產生的樣本做了定性評價。

2. 建模

ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

圖2. 左:為了生成像素 xi, 我們以所有在 xi 左側和上側所生成的像素為條件。中:核為 3 的 Row LSTM。行 LSTM 的依賴域不會延續(xù)到圖像的兩側邊緣。右:對角線 BiLSTM 的兩個方向。對角線 BiLSTM 依賴域覆蓋了圖像的整個背景。

ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

圖3. 對角線 BiLSTM 中,為了沿對角線并行處理,對輸入的圖進行了偏轉,其中每一行都相對前一行偏移了一個位置。當空間層被從左到右逐列計算時,輸出圖被轉換為原始大小。卷積核為 2。

3. 像素循環(huán)神經網絡

本部分我們描述了 PixelRNN 的構成要素。3.1 和 3.2 部分,我們描述了兩種類型的 LSTM 層,都使用卷積一次性計算一個空間維度的所有狀態(tài)。3.3 部分,我們描述了如何整合殘差連接,從而增強對擁有多個 LSTM 層的 PixelRNN 的訓練。3.4 部分,我們描述了計算顏色離散聯合分布的 softmax 層以及 masking 技術。3.5 部分,我們描述了 PixelCNN 構架。最后 3.6 部分,我們描述了可擴展架構。

6. 結論

我們顯著增強了作為自然圖像生成模型的深度 RNN。我們描述了新的二維 LSTM 層,包括可擴展到更龐大數據集的行 LSTM 層和對角線 BiLSTM 層。我們訓練了 PixelRNN 對圖像的原始 RGB 像素值建模。我們使用條件分布下的 softmax 層,將像素值作為離散隨機變量。我們使用 masked 卷積,令 PixelRNN 對顏色信道之間的全部依賴關系建模。我們提出并評估了這些模型的在構架上進展,這些進展使模型具有多達 12 層 LSTM。

我們表明 PixelRNN 顯著提高了處理 Binary MINIST 和 CIFAR-10 數據集的最高水平,也為 ImageNet 數據集的生成圖像建模提供了新的測試基準。我們認為 PixelRNN 既能對空間局部相關性建模,也能對遠程相關性建模,并能生成輪廓清晰一致的圖像。隨著模型變得更大更好,再加上有無窮的數據可供訓練,進一步的計算和更大的模型可能還會進一步提升結果。

【點評】這篇文章主要提出了一種使用LSTM對圖像進行建模的架構。與普通的對圖像像素建模的算法相比,該算法有很多的獨特的地方。首先,本文將每個像素預測建模成了256類的分類問題。其次,本文提出了Masked Convolution的概念來處理圖像預測中多通道預測的問題。雖然對于單純對圖像建模的性能,本文的方法不如最新的基于adversarial的方法。但是,LSTM最近已經被證明是對于圖像中空間dependency的有效模型,例如圖像分割中就可以使用LSTM進行建模。PixelRNN在這種模型中可能會有用武之地。

2. 卷積神經網絡中循環(huán)對稱性的利用

摘要

循環(huán)對稱性指的是旋轉角度為 90° 整數倍時的對稱性。許多圖形都有旋轉對稱性。為了訓練卷積神經網絡,有時會通過數據增強來利用這個性質,但仍然需要通過數據學習旋轉等價性質。平移對稱性可以通過卷積層編碼,若能把旋轉對稱性編碼進網絡的架構,會提高參數空間的利用率,因為不再需要學習那部分(描述旋轉對稱性的)參數。我們引入4種操作,它們可被作為層插入神經網絡,并且可以被組合起來讓模型部分地在旋轉操作下等價。這4種操作還能讓不同朝向下共享參數。我們用3個具有旋轉對稱性的數據集評估了這些結構變動的效果,發(fā)現模型更小,而性能得到了提升。

4. 神經網絡里的編碼等效性

本節(jié)只講了循環(huán)對稱性的情況,也就是旋轉的角度是 90° 整數倍,但我們提出的框架可以被推廣到別的情景。

ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

(a) 浮游生物的圖片 (b) 星系的圖片

ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

波士頓地區(qū)建筑 (a) 衛(wèi)星圖像 (b) 建筑標簽

ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

左中右分別為浮游生物、星系圖像和波士頓建筑的基礎架構。紅色代表卷基層,藍色代表 pooling 層,黃色代表 dense 層

7. 總結

我們介紹了構建旋轉對稱神經網絡的框架,只需要使用4個新的層,它們可以很容易地插入現有的網絡架構。除了需要調整訓練所需的 minibatch 大小,不需要別的改動。擁有完全對稱性的數據集上新的模型,性能提高而參數更少。使用 Theano 對滾動操作的快速 GPU 實現(見此:https://github.com/ benanne/kaggle-ndsb)。

未來我們希望把文中所講的方法用于別的具有旋轉對稱性的數據,特別是那些缺少數據的領域,比如醫(yī)學圖像,以及參數共享有助于減少過度擬合的領域。我們還想把該方法擴展到別的變換群,比如旋轉角度不是 90° 整數倍的情況,以及探索內插和對齊帶來的復雜性的掌控策略。最后,我們希望把工作延伸到體積數據,在這里參數數量的減少更加重要,并且很多對稱性都可以被利用起來而無需繁重的內插。

3. 深度強化學習的異步算法

摘要

我們提出了一種在概念上非常簡單并且輕量的深度強化學習框架,使用異步梯度下降優(yōu)化深度神經網絡控制器。我們展示了 4 種標準 RL 算法的異步模型變體,表明并行 actor-learner 在訓練中能帶來穩(wěn)定化的影響,使所有 4 種方法都能順利訓練出神經網絡控制器。相比目前最領先的方法,論文中表現最好的方法——actor-critic(AC)的異步變體——ATARI游戲表現更好,訓練用時僅為一半,并且使用的是一個多核CPU而非GPU。不僅如此,我們展示了異步 AC 方法在各式連續(xù)運動控制問題,以及一個新任務(包含使用視覺輸入在一個隨機 3D 迷宮中尋找到獎勵)同樣表現出色。

1. 引言

深度神經網絡提供了豐富的、能讓強化學習(reinforcement learning,RL)算法高效運行的表征。但之前人們認為,將簡單的在線RL算法與深度神經網絡相結合從根本上來說是不穩(wěn)定的。為了讓算法能夠穩(wěn)定化,研究者提出了許多解決方案。這些方法的核心是相似的:一個在線RL代理(agent)取得的觀測數據的順序是非平穩(wěn)的(non-stationary),在線RL的更新相互之間會有很高的相關性。通過將數據儲存在經驗回放記憶體(experience replay memory)之中,數據將可以根據不同的時間步長分批處理或是隨機采樣。用這種方法整合記憶體中的數據會降低非平穩(wěn)性,降低更新互相之間的相關性,但同時也令這些方法的適用范圍僅限于離策略(off-policy)RL算法。

ATARI 2600之類的充滿挑戰(zhàn)的領域中,基于經驗回放的深度RL算法一鳴驚人。但是,經驗回放有一些缺陷:每一次真實交互(real interaction),它都需要耗用更多的內存和計算力,并且它要求離策略學習算法能基于舊策略生成的數據進行更新。

這篇論文中,我們?yōu)樯疃萊L提供了一種迥異的范式。與經驗回放不同,對于環(huán)境中的多個實例,我們并行、異步地執(zhí)行多個 agent。在任意時間步長,并行 agent 都將會歷經許多不同的狀態(tài),這種并行性也能令 agent 的數據去相關,更接近平穩(wěn)過程(stationary process)。這個簡單的想法使得深度神經網絡能被穩(wěn)健且高效地應用于數量更為龐大的在策略(on-policy)RL算法——比如 Sarsa、n步方法——以及AC方法和Q學習之類的離策略(off-policy)RL算法。

異步RL范式也在實際操作上也有優(yōu)點。原先的深度RL非常依賴硬件,比如GPU或是HPC,而我們的實驗用機只是擁有一個標準多核CPU。學習各類ATARI 2600時,異步RL在許多游戲中都獲得了更好的表現,訓練耗時比原先基于GPU的算法短得多,消耗資源也比HPC少得多。不僅如此,我們提出的方法中表現最好的A3C方法(asynchronous advantage actor-critic),還能夠良好適用于各類連續(xù)運動控制任務、也能僅僅從視覺輸入中學會探索3D迷宮的通用策略。我們相信,A3C能在2D和3D游戲、離散和連續(xù)動作空間上同時獲得成功,A3C能訓練前饋和遞歸 agent,使它成為目前最通用、最成功的RL agent。

4. 異步無鎖(lock-free)強化學習

我們現在展示的是一步Sarsa、一步Q學習、n步Q學習、優(yōu)勢AC(advantage actor-critic)的多線程異步變體。設計這些方法的目的,是尋找出能可靠訓練深度神經網絡策略、無需大量資源的RL算法。雖然這 4 個基礎的RL方法相當不同,其中AC是一種在策略搜索方法、而Q學習是一種離策略基于價值(value-based)的方法,我們通過兩個操作令這 4 種算法能夠得以實現并進行比較。

首先,我們運用 Gorila 框架中提出的異步 actor-learner,不過是在一臺機器上使用多線程,而非使用不同的機器和一個參數服務器。我們讓學習器位于同一臺機器,免除了在不同機器間傳輸梯度和參數的消耗,也使我們能使用 Hogwild! 式更新訓練控制器。

其次,我們將觀測做成了多個并行 actor-learner 有可能對環(huán)境的不同部分進行探索的形式。不僅如此,你可以在每個 actor-learner 中人為使用不同的探索策略實現最大化多樣性的目的。通過在不同線程中運行不同的探索策略,多個并行在線更新的 actor-learner 對參數改變的總和,最終將有可能比一個單獨進行在線更新的 agent 做的更新,互相之間相關性更低。因此,我們不使用回放記憶體,而是依賴于采用不同探索策略的并行行動者,替代DQN訓練算法中經驗回放提供的穩(wěn)定化效果。

除了令學習得以穩(wěn)定化,使用多個并行 actor-learner 也有一些實際的好處。第一,減少訓練時間,減少幅度大致上與并行 actor-learner 的數量呈線性相關。第二,由于不再依賴經驗回放讓學習穩(wěn)定化,我們能使用在策略強化學習方法——比如Sarsa和AC——以穩(wěn)定的方式訓練神經網絡。

6. 結論和討論

我們展示了 4 種標準RL算法的異步版本,并表明了它們能夠以穩(wěn)定的方式訓練許多領域中的神經網絡控制器。在我們提出的框架中,基于價值的算法和基于策略的算法、離策略和在策略算法,離散性任務和連續(xù)性任務,都有可能在RL中穩(wěn)定訓練神經網絡。當我們用 16 核CPU訓練ATARI任務時,我們提出的異步算法訓練速度比Nvidia K40 GPU訓練DQN的速度快,其中A3C算法的訓練用時比目前最領先的方法少一半。

我們的一個主要發(fā)現是,使用并行 actor-learner 更新一個共享模型,對于我們研究的 3 種基于價值的算法的學習過程都具有穩(wěn)定化影響。雖然這表明穩(wěn)定的在線Q學習可能脫離經驗回放,但是這不意味著經驗回放是無用的。將經驗回放整合入異步RL框架,有可能通過重復利用舊數據大幅提高這些方法的數據效率。這可能會進而在與環(huán)境交互的消耗比更新模型的消耗更大的領域(比如TORCS)帶來更快的訓練速度。

將其他現有的RL模型或是深度RL近期進展與我們的異步框架相結合,展現出了許多迅速優(yōu)化我們在文中展示的算法的可能性。我們展示的n步模型是向前的(forward view),直接使用修正后的n步回報作為目標,但是使用向后的方法在資格跡(eligibility trace)中結合不同的回報已經變得更為常見。通過使用其他估計優(yōu)勢函數的方法——比如Schulman等人(2015b)的泛化優(yōu)勢估計——可能會切實改善A3C算法。所有我們研究的基于價值的方法,都有可能受益于用各種方式降低Q值的高估誤差(over-estimation bias)。而另一個更值得揣摩的方向是,嘗試結合近期真正的在線時間差分方法的研究與非線性函數逼近。

4. 基于模型加速的連續(xù)深度Q學習

摘要

模型無關的強化學習被成功應用于許多難題,最近還被用于處理大型神經網絡策略和價值函數。然而,模型無關的算法的樣本復雜度往往限制了它們在硬件系統中的應用,尤其是使用高維函數逼近器時。本文中,我們對算法和表示進行了探索,降低對連續(xù)控制任務的深度強化學習的樣本復雜度。我們還提出了兩個補充技術,用于提高這些算法的效率。

1. 引言

本文中,我們提出了兩種補充技術,用于提高在連續(xù)控制領域中深度強化學習的效率:我們取得了一個Q學習變量,它可被用于連續(xù)領域;我們也提出了一種方法來把這種連續(xù)Q學習算法與已學到的模型聯合起來以對學習進行加速,并保留模型無關的強化學習的好處。在連續(xù)行動領域中的模型無關的強化學習,通常使用策略搜索方法來處理。將價值函數估計整合到這些技術中,就會產生 actor-critic 算法,這種算法兼具策略搜索和價值函數估計的有點,但缺點是需要訓練兩個彼此分離的函數逼近器。我們提出的連續(xù)領域Q學習算法稱為歸一化優(yōu)勢函數(NAF),它避免了對第二個行動者或策略函數的需求,從而帶來了更簡潔的算法。更簡潔的優(yōu)化目標和對價值函數參數化的選擇,讓算法應用于一些連續(xù)控制領域的大型神經網絡函數逼近器時,樣本使用效率明顯更高。

除了完善一種模型無關的深度強化學習算法,我們也試圖讓算法包含基于模型的強化學習要素,從而加速學習,同時不喪失模型無關方法的那些優(yōu)點。一種方法是,讓Q學習算法等離策略算法包含由基于模型的規(guī)劃器所產生的離策略經驗。然而,盡管這種方案看起來很自然,但經驗評估表明它對學習進行加速時缺乏效率。這部分是因為價值函數估計算法的本性:這種算法為了對價值函數局面精確建模,好的和壞的狀態(tài)轉變都必須經歷。我們提出了一種替代方法,把學習到的模型整合到我們的連續(xù)行動Q學習算法中。該方法基于 imagination rollout:類似于 Dyna-Q 方法,從學習到的模型中產生出在策略樣本。我們表明,當學到的動態(tài)模型與真實模型完美匹配時,這種方法極其有效,但在學習到的不完美的模型情況下則會戲劇性地下跌。不過,反復讓局部線性模型去適應最新的在策略或離策略 rollout 批次,這種方法能提供充分的局部精確性,從而讓我們能在真實世界樣本的臨近區(qū)域使用 short imagination rollout 實現實質性的進步。

我們的論文有三個主要貢獻:第一,我們取得并評價了一個Q函數表示,能夠在連續(xù)領域中進行有效的Q學習;第二,我們評估了幾個能夠把學習到的模型包含進模型無關的Q學習的選項,并表明在我們的連續(xù)控制任務中,它們都缺乏效率。第三,我們提出,聯合局部線性模型和局部在策略 imagination rollout,加速對模型無關的連續(xù)Q學習,并證明了這能帶來樣本復雜度方面的顯著進步。

7. 討論

我們在文中探索了幾種方法,提高模型無關的深度強化學習的樣本使用效率。我們首先提出了一種方法,把標準Q學習方法應用于高維、連續(xù)領域,并使用了 NAF 表示。這讓我們能夠簡化更常見的 actor-critic 式算法,同時保留非線性價值函數逼近器的好處。

與近年提出的深度 actor-critic 算法相比,我們的方法常常學得更快,能獲得更準確的策略。我們進一步探索了模型無關的強化學習如何能通過整合已學到的模型而獲得加速,并不需要在面臨不完美模型學習時犧牲策略優(yōu)化方面的代價。盡管Q學習能包含離策略經驗,(通過基于模型的規(guī)劃)從離策略探索中學習只在極少情況下提高了算法的總體樣本使用率。我們假定原因是為了獲取對Q函數的準確估計,需要同時觀察成功和不成功的行動。另一種基于綜合在策略 rollout 的替代方法能顯著改善樣本復雜度。我們表明,訓練神經網絡模型并不能在我們的這一領域中取得實質性改善,而就讓隨時間變化的線性模型反復再適應,卻能在它們所應用的領域中帶來顯著的提高。

【點評】本文提出了使用模型對Q-learning進行加速的算法。本文由兩個創(chuàng)新點。首先,本文提出了normalized advantage function作為Q-learning的目標。更重要的是,本文提出了使用一個線性的模型為Q-learning產生訓練數據。在本文的實驗中,線性模型產生的數據產生了很好的作用。但是,對于更加復雜的Q-learning問題,比如以圖像作為輸入的問題。線性模型是否是一個很好的模型還存在疑問。

下輯將于明天發(fā)布,敬請期待

專家介紹

王江,在復旦大學獲得學士和碩士學位,在美國西北大學獲得博士學位。曾在微軟亞洲研究院、微軟Redmond研究院、Google研究院、Google圖像搜索組實習,現在百度硅谷的深度學習實驗室任資深研究科學家。他的研究成果在頂級學術會議和期刊PAMI、CVPR、ICCV、ECCV、 ICLR、CIKM中發(fā)表論文20余篇,并被廣泛引用總共近1000次。他的工作在Google和百度的圖像檢索系統、人臉識別系統和大規(guī)模深度學習中均得到了廣泛的應用。

「招聘」

全職記者、編譯和活動運營

歡迎實習生

以及人工智能翻譯社志愿者

詳細信息請進入公眾號點擊「招聘」

或發(fā)郵件至 jobs@aiera.com.cn

新智元招聘信息請點擊“閱讀原文”

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多