官方揭秘OpenAI Five打敗人類：遷移學(xué)習(xí)10個(gè)月訓(xùn)練4.5萬(wàn)年

懶人葛優(yōu)癱 2019-04-16

展開(kāi)全文

官方揭秘OpenAI Five打敗人類：遷移學(xué)習(xí)10個(gè)月訓(xùn)練4.5萬(wàn)年

【新智元導(dǎo)讀】在上周末徹底攻陷了Dota人類頂級(jí)職業(yè)戰(zhàn)隊(duì)OG后，OpenAI站出來(lái)介紹了OpenAI Five是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時(shí)候在想什么。

OpenAI Five是第一個(gè)在電子競(jìng)技游戲中擊敗世界冠軍的人工智能，在上周末與2-0大敗世界冠軍Dota 2團(tuán)隊(duì)OG，這是AI第一次在直播中擊敗了電子競(jìng)技專家。

官方揭秘OpenAI Five打敗人類：遷移學(xué)習(xí)10個(gè)月訓(xùn)練4.5萬(wàn)年

OG和OpenAI開(kāi)發(fā)組

本次比賽還得出了兩個(gè)驚人的發(fā)現(xiàn)：

盡管訓(xùn)練的時(shí)候?qū)Ｗ⒂趽魯∑渌偪耠娔X，但OpenAI Five在比賽中卻展現(xiàn)出和人類玩家的優(yōu)秀的團(tuán)隊(duì)協(xié)作意識(shí)。這意味著未來(lái)的AI系統(tǒng)可以從競(jìng)爭(zhēng)型AI轉(zhuǎn)變?yōu)楹献餍虯I
總決賽讓OpenAI的科學(xué)家可以回答一個(gè)重要的研究問(wèn)題：OpenAI Five在多大程度、以何種方式能夠被確定的打敗？并且可能是有史以來(lái)最大規(guī)模的、人們可以有意識(shí)地與之交互的高強(qiáng)度深層強(qiáng)化學(xué)習(xí)智能體的部署

徹底攻陷了人類頂級(jí)職業(yè)玩家后，OpenAI站出來(lái)介紹了OpenAI Five是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時(shí)候在想什么。

為什么選擇Dota？

OpenAI Five的初衷是為了解決現(xiàn)有深度強(qiáng)化學(xué)習(xí)算法無(wú)法實(shí)現(xiàn)的問(wèn)題。為此需要大幅增加工具的的能力、復(fù)雜的算法思想（例如分層強(qiáng)化學(xué)習(xí)）。

官方揭秘OpenAI Five打敗人類：遷移學(xué)習(xí)10個(gè)月訓(xùn)練4.5萬(wàn)年

OpenAI Five將世界視為一堆必須破譯的數(shù)字。它使用相同的通用學(xué)習(xí)代碼，無(wú)論這些數(shù)字代表Dota游戲（約20,000個(gè)數(shù)字）或機(jī)器人手（約200個(gè)）的狀態(tài)

為了構(gòu)建OpenAI Five，研究人員創(chuàng)建了一個(gè)名為Rapid的系統(tǒng)，以前所未有的規(guī)模運(yùn)行PPO。結(jié)果超出了研究人員最大的期望，產(chǎn)生出了世界級(jí)的Dota機(jī)器人，沒(méi)有觸及任何基本的性能限制。

當(dāng)今的監(jiān)督學(xué)習(xí)算法之所以能有如此強(qiáng)大功能，是以大量經(jīng)驗(yàn)為代價(jià)的，這在游戲或模擬環(huán)境之外是不切實(shí)際的。研究人員認(rèn)為減少經(jīng)驗(yàn)量是深度學(xué)習(xí)的下一個(gè)挑戰(zhàn)。

研究人員表示，從今天開(kāi)始OpenAI Five將不會(huì)繼續(xù)打比賽，但取得的進(jìn)步和技術(shù)的發(fā)展將繼續(xù)推動(dòng)未來(lái)的工作。研究人員認(rèn)為Dota對(duì)于監(jiān)督學(xué)習(xí)開(kāi)發(fā)來(lái)說(shuō)比現(xiàn)在使用的標(biāo)準(zhǔn)環(huán)境更具有內(nèi)在的趣味性和難度。

算力

OpenAI Five這次的勝利是由于一次重大變化：訓(xùn)練計(jì)算量增加了8倍。前期階段研究人員通過(guò)提高培訓(xùn)規(guī)模來(lái)推動(dòng)進(jìn)一步的發(fā)展，之后將絕大部分算力用于培訓(xùn)單一的OpenAI Five模型，相當(dāng)于延長(zhǎng)了訓(xùn)練時(shí)間。

總的來(lái)說(shuō)，當(dāng)前版本的OpenAI Five已經(jīng)消耗了800 petaflop/s-days，并且在10個(gè)實(shí)時(shí)月內(nèi)獲得了45000年的游戲經(jīng)驗(yàn)，平均每天獲得250年的模擬經(jīng)驗(yàn)。OpenAI Five的總決賽版本與TI版本相比，勝率為99.9％。

遷移學(xué)習(xí)

盡管模型大小和游戲規(guī)則發(fā)生了變化，但目前版本的OpenAI Five自2018年6月以來(lái)一直在不斷訓(xùn)練。在每種情況下，研究人員都能夠?qū)⒛Ｐ娃D(zhuǎn)移并繼續(xù)培訓(xùn)，這對(duì)于其他領(lǐng)域的監(jiān)督學(xué)習(xí)來(lái)說(shuō)是一個(gè)開(kāi)放的挑戰(zhàn)。

據(jù)悉，這可能是監(jiān)督學(xué)習(xí)智能體第一次使用如此長(zhǎng)期的訓(xùn)練課程進(jìn)行訓(xùn)練。

協(xié)同模式

它實(shí)際上感覺(jué)很好; 我的毒蛇在某些時(shí)候?yàn)槲耀I(xiàn)出了生命。他試圖幫助我，想著“我確定她知道她在做什么”然后顯然我沒(méi)有。但是，你知道，他相信我。對(duì)于[人類]隊(duì)友，我并沒(méi)有那么多.-無(wú)論如何

官方揭秘OpenAI Five打敗人類：遷移學(xué)習(xí)10個(gè)月訓(xùn)練4.5萬(wàn)年

在總決賽期間，研究人員展示了OpenAI Five與人類一起在團(tuán)隊(duì)中的表現(xiàn)，兩隊(duì)的成員都是2個(gè)真人帶3個(gè)智能體

OpenAI Five與人類的協(xié)同作戰(zhàn)能力為人類與人工智能互動(dòng)的未來(lái)提供了一個(gè)引人注目的愿景：人工智能系統(tǒng)能夠和人類協(xié)作并增強(qiáng)人類體驗(yàn)。

玩家認(rèn)為從機(jī)器人隊(duì)友哪里感受到了戰(zhàn)友之情，并從這些先進(jìn)的系統(tǒng)中學(xué)到了很多東西，整體來(lái)說(shuō)是一種有趣的體驗(yàn)。

值得注意的是，OpenAI Five展示了zero-shot遷移學(xué)習(xí)，與人類并肩作戰(zhàn)或者對(duì)抗人類。研究人員非常驚訝這一點(diǎn)和它一樣有效。事實(shí)上，研究人員考慮在國(guó)際上進(jìn)行協(xié)同作案韓比賽，但認(rèn)為需要專門的訓(xùn)練。

OpenAI Five Arena

目前研究人員還不知道OpenAI Five在多大程度上能夠通過(guò)更機(jī)智的策略被擊敗，所以研究人員推出了OpenAI Five Arena。這是一項(xiàng)公開(kāi)的實(shí)驗(yàn)，任何人都可以跟OpenAI Five組隊(duì)或者對(duì)戰(zhàn)。

競(jìng)技場(chǎng)于4月18日星期四太平洋標(biāo)準(zhǔn)時(shí)間下午6點(diǎn)開(kāi)放，并于4月21日星期日太平洋標(biāo)準(zhǔn)時(shí)間晚上11:59關(guān)閉。玩家需要注冊(cè)，所有游戲的結(jié)果將自動(dòng)報(bào)告給競(jìng)技場(chǎng)公共排行榜。

官方揭秘OpenAI Five打敗人類：遷移學(xué)習(xí)10個(gè)月訓(xùn)練4.5萬(wàn)年

下一步干什么

一旦研究人員審查了OpenAI Five Arena的結(jié)果，研究人員將發(fā)布對(duì)OpenAI Five的更多技術(shù)分析，之后將繼續(xù)使用OpenAI中的Dota 2環(huán)境。

研究人員已經(jīng)看到過(guò)去兩年在監(jiān)督學(xué)習(xí)能力方面取得了快速進(jìn)展，并認(rèn)為Dota 2將在推進(jìn)無(wú)論是通過(guò)較少的數(shù)據(jù)還是真正的人工智能合作實(shí)現(xiàn)有能力的表現(xiàn)方面，持續(xù)提供幫助。

參考鏈接：How to Train Your OpenAI Five

注冊(cè)地址：OpenAI Five Arena

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：懶人葛優(yōu)癱 > 《人工智能》

舉報(bào)/認(rèn)領(lǐng)