Dota2團戰(zhàn)AI擊敗人類最全解析：能團又能gank，AI一日人間180年

長沙7喜 2018-06-28

展開全文

夏乙問耕發(fā)自凹非寺
量子位出品 | 公眾號 QbitAI

GG。

隨著人類喊出這兩個字母，一切都結束了。

OpenAI研發(fā)的人工智能戰(zhàn)隊，首次在5v5的Dota2開黑團戰(zhàn)對戰(zhàn)中，擊敗人類玩家戰(zhàn)隊。

這真是一個里程碑式的事件。

這個能打團戰(zhàn)的AI名叫OpenAI Five，是OpenAI最新的研發(fā)成果。

OpenAI Five完全通過自我對戰(zhàn)來學習打Dota2，每天的對戰(zhàn)量據說相當于人類的180年。而且驚人的硬件消耗量，應該也是創(chuàng)下紀錄：256塊GPU和12.8萬個CPU……

人類就這么又一次全面陷落了么？

顯然，Dota2團戰(zhàn)AI擊敗人類這件事，一點也不簡單。這次我們分三個部分，帶來一份從實力到技術的最全解析。

第一部分：OpenAI Five有多強？
第二部分：現在去TI打專業(yè)戰(zhàn)隊有戲嗎？
第三部分：AI一日，人間180年

開始。

Dota2團戰(zhàn)AI有多強？

可能真的出乎你的預料。一起看下。

團戰(zhàn)不虛

團戰(zhàn)，需要綜合使用技能、裝備和走位，最大化對敵方英雄的傷害，同時避免損失本方英雄。

來看實戰(zhàn)。

這是一波AI守高地的戰(zhàn)斗。當時人類團隊的裝備和等級都要更高。而且五位人類玩家全部集結在一路，準備強行拆塔。

雙方甫一接觸時，AI只有一位23級的英雄應戰(zhàn)，人類團隊24級的巫妖（Lich）首先發(fā)難，使出“阿托斯之棍”，將AI一方23級的巫妖定在原地。

隨后，AI巫妖對自己釋放“EUL的神圣法杖”，這個技能可以讓自己被卷入龍卷風中，并且暫時處于無敵狀態(tài)。通過這一招，AI的用意是拖住人類團隊，并且給自己的隊友趕來贏得時間。

隨后，AI巫妖繼續(xù)將人類團隊拖上高地，誘使人類玩家信心爆棚。而其他AI英雄則開始從后方包抄人類團隊。

繞后的AI冰女（Crystal Maiden），對人類團隊拖后的火槍（Sniper）率先使出“閃爍匕首”，緊接著用出“冰封禁制”把狙擊手凍住，接著再是一記“黑皇杖”，最后施法“極寒領域”召喚冰晶展開轟炸。

AI冰女釋放的“極寒領域”，和AI毒龍（Viper）釋放的“幽冥劇毒”，迫使人類團隊只能散開。于是，AI火槍可以從安全距離上展開遠程攻擊。

在高傷害和群控的攻擊下，人類火槍和冰女想要撤退，卻只能以被擊殺而告終。隨后，在沒有視野的情況下，AI冰女使用“冰霜新星”，擊殺了人類巫妖。

隨后，AI冰女還不肯罷休，閃現追擊人類僅剩的最后一個英雄死靈法師（Necrophos），然而在凍住對方后，AI冰女已經無技能可用，只得放棄追擊。

最終這波團戰(zhàn)，AI打了人類玩家一個2換4，而且守家成功。

詭計多端

遇到打不過的時候，人類英雄躲進樹林想要避一避，沒用的。AI英雄即便失去了視野，也會一路追進森林尋找，然后擊殺。

眼見AI殘血，人類玩家想要追擊，千萬小心，因為其他AI英雄正趕來捉人。人類玩家不單收不了人頭，而且還要送命。

特別強調一點，AI還學會了“擒賊先擒王”，不惜使用多重大招，只為確保能擊殺等級最高的那個敵方英雄。

而且AI英雄還會自我犧牲，把人類玩家引誘出高地，確保團隊其他成員能推塔成功。

總之，OpenAI Five又能團，又能gank，足智多謀，詭計多端。

下面這個視頻，更全面的講述了AI掌握的七大技能。

實際上，按照官方的說法，目前OpenAI Five在選擇攻擊目標這一項上，達到了專業(yè)水平，但補兵能力還有不足。

去TI打專業(yè)選手有戲嗎？

回答這個問題之前，先得明確一個事實：目前OpenAI Five戰(zhàn)勝的對手，并不是人類頂尖高手。

雙方的對戰(zhàn)，大約兩個月前已經開始。目前OpenAI Five已經先后與五支人類團隊有過交手：

1、最強OpenAI員工隊：MMR匹配分 2500
2、最強觀眾隊：MMR 4000-6000
3、Valve員工隊：MMR 2500-4000
4、業(yè)余隊：MMR 4200，有團隊訓練
5、半職業(yè)隊：MMR 5500，有團隊訓練

4月23日，OpenAI Five首次擊敗了腳本基線版本。5月15日，與第1隊打成1:1。6月6日，與第1、2、3隊的對戰(zhàn)中，均取得勝利。

可以看到OpenAI Five一直在進步。這個AI與第4、第5隊進行了非正式的比賽，雖然沒能取勝，但是在前三場中贏下兩場。

與人類玩家相比，OpenAI Five平均每分鐘可進行150-170次操作，平均反應時間為80毫秒，明顯比人類更快。

不過這些不是決定5v5勝利與否的關鍵因素。

OpenAI還總結了OpenAI Five的幾個特點：

屢次犧牲自己的優(yōu)勢路（夜魘軍團的上路，天輝軍團的下路），以壓制敵人的優(yōu)勢路，迫使戰(zhàn)斗轉移到對手更難防御的一邊。
比賽初期到中期的轉換比對手更快。方法：(1) 多次成功gank人類玩家 (2) 趕在對手集結之前，組隊推塔。

也有一些非主流打法。例如前期把錢和經驗讓給輔助英雄。OpenAI Five的優(yōu)先級使其傷害值能更快攀升，進而贏得團戰(zhàn)等。

這么厲害的隊伍，當然也不是陪業(yè)余人類玩玩就算了的。

OpenAI說，他們打算8月份去DotA 2頂級賽事TI上，找一支頂級專業(yè)隊伍PK一下，7月底還要搞一場對戰(zhàn)專業(yè)團隊的直播。

當然，全部英雄OpenAI Five暫時還搞不定，和專業(yè)選手對局，雙方也只能在有限的英雄里選。

到時候這個“有限的英雄”究竟有多少，現在還不知道，不過，這也說明了一個很重要的問題：現在OpenAI Five的能力，還不足以玩人類版的DotA 2。

那么，AI現在玩的DotA 2和人類版相比做了哪些簡化呢？

OpenAI在博客最后列出了AI版DotA的限制：

雙方英雄陣容是固定的：死靈法師、火槍、毒龍、冰女、巫妖（他們的學名叫瘟疫法師、矮人狙擊手、冥界亞龍、水晶室女、巫妖）；
不插眼；
沒有肉山；
沒有隱身裝備；
沒有召喚單位、沒有幻像；
少了一些物品：圣劍、瓶子、補刀斧、飛鞋、經驗書、凝魂之淚；
有5個無敵信使（雞），但是不能用來偵查或者防御；
沒有掃描。

這意味著什么？

有了這些限制，AI打的DotA就比人類版有了很多簡化，也說明了這個AI還有些沒掌握的技能。

比如英雄的選擇和陣容的搭配。雙方只有固定的5個英雄，就不需要掌握英雄之間的配合和克制情況，游戲也少了很多變化。

AI現在也還不懂得對視野的控制。AI玩的版本沒有隱身裝備、沒有插眼的操作、沒有掃描，于是雙方只能在游戲原本設定的視野中對戰(zhàn)，不能靠自己的能力改變視野，也不需要偵查。

游戲中，如果不考慮信使，AI控制的單位也只能是5個，這也就是為什么不能出現召喚單位和幻象。

另外，沒有游戲野區(qū)最強大的怪物肉山，也就沒有了打肉山能得到的復活盾。在職業(yè)比賽中，復活盾帶來的原地滿狀態(tài)復活能力，可以說是個翻盤利器。

讓人類職業(yè)選手來打一個這樣的DotA，并沒有什么優(yōu)勢；如果讓現在的OpenAI Five去打人類版DotA，這支沒學過選英雄、做視野、偷雞等等技能，還少學了很多裝備的隊伍，也會不知所措。

不過，OpenAI也說了，這些限制大都是因為游戲里有些部分還沒整合進來，像插眼、肉山這種職業(yè)比賽中的關鍵元素，他們會盡快加上。

AI一日，人間180年

雖然還有種種限制，但不可否認，AI的進步還是快得嚇人。

OpenAI的解釋是，這個AI通過自我對戰(zhàn)來提升，從隨機參數開始，不用人類玩家的方法引導，也不人類玩家方法中搜索。

他們還特別提到，在訓練1v1模型的時候，是專門針對卡兵這個操作設置了獎勵的。但是在OpenAI Five模型中并沒有這個獎勵，但這個新模型還是自己學會了卡兵。

AI每天的訓練量，相當于打180年游戲?？芍^真·勤學苦練，人類選手一輩子的訓練量也不及它半天。

這些每天訓練180年的選手，究竟是些什么怪物？

他們的長相是這樣的：

不要被結構圖嚇到，簡單來說，每個選手，也就是每個智能體（agent），都是一個單層LSTM（長短時記憶網絡），有1024個單元，能夠通過Valve的Bot API觀察當前游戲狀態(tài)，控制自己的英雄接下來選擇哪一種操作、釋放到XY坐標系中的哪一點。

智能體能夠觀察到的信息和人類差不多，包括自身、隊友和敵人的狀況，比如位置、血量、攻擊力、護甲、攜帶物品、能力等等?？赡軙幸稽c點區(qū)別的，就是智能體對過去12幀的血量、攻擊和被攻擊情況等歷史信息大概記得比人類清楚。

?這些信息，對于智能體來說是一個包含20000數值的列表，而它判斷之后發(fā)出的行動指令，是8個值的列表。

選手們的訓練，使用的是擴展版的近端策略優(yōu)化（PPO）方法，這也是OpenAI現在默認的強化學習訓練方法。這些智能體的目標是最大化未來獎勵的指數衰減和。

AI選手們在訓練中飯量驚人，承載它們需要256塊P100 GPU和12.8萬個CPU核心。

上面的5v5版本與1v1版本對比，有一個令人欣慰的結果：OpenAI Five需要的CPU和GPU計算力，與去年擊敗Dendi的1v1版相比，并沒有翻到5倍。

5個智能體訓練出來，它們之間又是怎樣配合的呢？總不能像我們人類開黑一樣互相喊話吧？

答案是，他們之間沒有那種人類可以理解的溝通渠道，而是由一個“團隊精神”超參數來統(tǒng)一控制。這個超參數的范圍在0到1之間，決定了選手對與自身獎勵函數和隊友平均獎勵函數的關注程度分配。

留給AI的時間還很多

OpenAI說，他們打算在7月28日和頂級選手對戰(zhàn)一番，留給他們的時間，還有整整1個月。8月，他們還要和頂級人類專業(yè)選手在TI上較量，如果這一場較量在AI結束時的話，留給AI的時間還有兩個月。

按照“人間一天，AI界180年的”算法，加上肉山、插眼等關鍵元素之后，只要能給AI留半個月時間和自己對戰(zhàn)，在它的世界里就可以說修煉了“數千年”。

這場對戰(zhàn)，還開設了直播，等著和人類觀眾相見。

傳送門

7月28日大戰(zhàn)的直播：
https://www./openai

OpenAI博客詳解（包含各種場景下AI觀察到的情形和可采取行動的交互圖解）：
https://blog./openai-five/

LSTM架構大圖：
https://d4mucfpksywv./research-covers/openai-five/network-architecture.pdf

PPO：
https:///abs/1707.06347

— 完 —

實習生招聘

量子位正在招募市場運營實習生，策劃執(zhí)行AI明星公司CEO、高管等參與的線上/線下活動，有機會與AI行業(yè)大牛直接交流。一份豐富的實習經歷等你解鎖~

工作地點在北京中關村。簡歷歡迎投遞到quxin@qbitai.com

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發(fā)現有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：長沙7喜 > 《智能技術》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

長沙7喜

關注對話

TA的最新館藏

為什么很多人在網絡上會變得刻薄、暴戾？
無標題
青春期孩子對父母的10大心理期望
典型的自毀型人格如何自救？為什么我總搞砸一段關系？
什么環(huán)境最容易導致「認知偏差」？
明明知道過度刷手機浪費時間，為什么還是忍不住「手機成癮」？

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

Dota2團戰(zhàn)AI擊敗人類最全解析：能團又能gank，AI一日人間180年

夏乙 問耕 發(fā)自 凹非寺量子位 出品 | 公眾號 QbitAI

Dota2團戰(zhàn)AI有多強？