【導(dǎo)讀】伯克利在秋季學(xué)期開設(shè)了《深度強化學(xué)習(xí)課程》,有6名老師和28節(jié)課程,是想學(xué)習(xí)強化學(xué)習(xí)的讀者不可錯過的一門課程。 講師介紹 Sergey Levine,29歲,加州大學(xué)伯克利分校助理教授。Levine 研究貢獻(xiàn)在于教會機(jī)器人如何觀察,并從以往的成功案例中學(xué)習(xí)經(jīng)驗,將已經(jīng)十分出眾的圖像識別分類算法用于機(jī)器人機(jī)械臂。首先,Levine給機(jī)械臂設(shè)定一些手頭上很容易解決的目標(biāo)(比如,擰上瓶蓋),完成之后機(jī)械臂就可以回顧之前的成功案例并從中學(xué)習(xí)經(jīng)驗。機(jī)器人會觀測視覺系統(tǒng)數(shù)據(jù)如何映射到機(jī)械臂的電機(jī)信號,從而正確地完成任務(wù)。此外,機(jī)器人還會監(jiān)督自己的學(xué)習(xí)過程。 個人主頁: https://people.eecs./~svlevine/ Gregory Kahn,加州大學(xué)伯克利分校博士生。主要研究目標(biāo)是開發(fā)能夠使機(jī)器人在現(xiàn)實世界中運行的算法。 致力于移動機(jī)器人的深度強化學(xué)習(xí)研究。https://people.eecs./~gregoryk/ Michael Chang,加州大學(xué)伯克利分校博士生。研究興趣是歸納偏見和算法約束。http://mbchang./ https://people.eecs./~rakelly/ Sid Reddy,加州大學(xué)伯克利分校博士生。探索機(jī)器學(xué)習(xí)、機(jī)器人技術(shù)和認(rèn)知科學(xué)的交叉部分。感興趣的是將人工智能和機(jī)器智能結(jié)合起來,以解決順序決策問題https://people.eecs./~reddy/ 課程介紹
01: 課程介紹和概述 02:監(jiān)督學(xué)習(xí)和模擬 03:TensorFlow和神經(jīng)網(wǎng)絡(luò)回顧 04:強化學(xué)習(xí)介紹 05:策略梯度介紹 06:actor-critic方法 07:高級Q-學(xué)習(xí)算法 08:高級actor-critic算法 09:高級策略梯度 10:優(yōu)化控制和規(guī)劃 11:模仿最優(yōu)控制學(xué)習(xí)策略 12:從數(shù)據(jù)學(xué)習(xí)動態(tài)系統(tǒng) 13:高級模型學(xué)習(xí)和鏡像 14:概率與變分推斷 15:推斷與控制 16:逆向強化學(xué)習(xí) 17:探索1 18:探索2 19:遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí) 20:元學(xué)習(xí) 21:并行強化系統(tǒng)設(shè)計 22:高級模仿學(xué)習(xí)和開放問題 23:邀請講者:Craig Boutilier,多倫多大學(xué)計算機(jī)科學(xué)系教授,谷歌首席科學(xué)家之一 24:邀請講者: Kate Rakelly & Gregory Kahn 25:邀請講者:Quoc Le,谷歌研究員 26:邀請講者: Karol Hausman 27:Project展示 28:Project展示 課程地址: http://rail.eecs./deeprlcourse/ 深度強化學(xué)習(xí)概述 |
|