夏乙 問耕 發(fā)自 凹非寺 量子位 出品 | 公眾號 QbitAI? ? GG。 隨著人類喊出這兩個字母,一切都結束了。 OpenAI研發(fā)的人工智能戰(zhàn)隊,首次在5v5的Dota2開黑團戰(zhàn)對戰(zhàn)中,擊敗人類玩家戰(zhàn)隊。 這真是一個里程碑式的事件。 這個能打團戰(zhàn)的AI名叫OpenAI Five,是OpenAI最新的研發(fā)成果。 OpenAI Five完全通過自我對戰(zhàn)來學習打Dota2,每天的對戰(zhàn)量據說相當于人類的180年。而且驚人的硬件消耗量,應該也是創(chuàng)下紀錄:256塊GPU和12.8萬個CPU…… 人類就這么又一次全面陷落了么? 顯然,Dota2團戰(zhàn)AI擊敗人類這件事,一點也不簡單。這次我們分三個部分,帶來一份從實力到技術的最全解析。 開始。 Dota2團戰(zhàn)AI有多強?可能真的出乎你的預料。一起看下。 團戰(zhàn)不虛 團戰(zhàn),需要綜合使用技能、裝備和走位,最大化對敵方英雄的傷害,同時避免損失本方英雄。 來看實戰(zhàn)。 這是一波AI守高地的戰(zhàn)斗。當時人類團隊的裝備和等級都要更高。而且五位人類玩家全部集結在一路,準備強行拆塔。 雙方甫一接觸時,AI只有一位23級的英雄應戰(zhàn),人類團隊24級的巫妖(Lich)首先發(fā)難,使出“阿托斯之棍”,將AI一方23級的巫妖定在原地。 隨后,AI巫妖對自己釋放“EUL的神圣法杖”,這個技能可以讓自己被卷入龍卷風中,并且暫時處于無敵狀態(tài)。通過這一招,AI的用意是拖住人類團隊,并且給自己的隊友趕來贏得時間。 ? ? 隨后,AI巫妖繼續(xù)將人類團隊拖上高地,誘使人類玩家信心爆棚。而其他AI英雄則開始從后方包抄人類團隊。 繞后的AI冰女(Crystal Maiden),對人類團隊拖后的火槍(Sniper)率先使出“閃爍匕首”,緊接著用出“冰封禁制”把狙擊手凍住,接著再是一記“黑皇杖”,最后施法“極寒領域”召喚冰晶展開轟炸。 ? ? AI冰女釋放的“極寒領域”,和AI毒龍(Viper)釋放的“幽冥劇毒”,迫使人類團隊只能散開。于是,AI火槍可以從安全距離上展開遠程攻擊。 在高傷害和群控的攻擊下,人類火槍和冰女想要撤退,卻只能以被擊殺而告終。隨后,在沒有視野的情況下,AI冰女使用“冰霜新星”,擊殺了人類巫妖。 ? ? 隨后,AI冰女還不肯罷休,閃現追擊人類僅剩的最后一個英雄死靈法師(Necrophos),然而在凍住對方后,AI冰女已經無技能可用,只得放棄追擊。 最終這波團戰(zhàn),AI打了人類玩家一個2換4,而且守家成功。 詭計多端 遇到打不過的時候,人類英雄躲進樹林想要避一避,沒用的。AI英雄即便失去了視野,也會一路追進森林尋找,然后擊殺。 ? ? ? ? 眼見AI殘血,人類玩家想要追擊,千萬小心,因為其他AI英雄正趕來捉人。人類玩家不單收不了人頭,而且還要送命。 特別強調一點,AI還學會了“擒賊先擒王”,不惜使用多重大招,只為確保能擊殺等級最高的那個敵方英雄。 而且AI英雄還會自我犧牲,把人類玩家引誘出高地,確保團隊其他成員能推塔成功。 ? ? 總之,OpenAI Five又能團,又能gank,足智多謀,詭計多端。 下面這個視頻,更全面的講述了AI掌握的七大技能。
實際上,按照官方的說法,目前OpenAI Five在選擇攻擊目標這一項上,達到了專業(yè)水平,但補兵能力還有不足。
去TI打專業(yè)選手有戲嗎?回答這個問題之前,先得明確一個事實:目前OpenAI Five戰(zhàn)勝的對手,并不是人類頂尖高手。 雙方的對戰(zhàn),大約兩個月前已經開始。目前OpenAI Five已經先后與五支人類團隊有過交手: 1、最強OpenAI員工隊:MMR匹配分 2500 2、最強觀眾隊:MMR 4000-6000 3、Valve員工隊:MMR 2500-4000 4、業(yè)余隊:MMR 4200,有團隊訓練 5、半職業(yè)隊:MMR 5500,有團隊訓練 4月23日,OpenAI Five首次擊敗了腳本基線版本。5月15日,與第1隊打成1:1。6月6日,與第1、2、3隊的對戰(zhàn)中,均取得勝利。 可以看到OpenAI Five一直在進步。這個AI與第4、第5隊進行了非正式的比賽,雖然沒能取勝,但是在前三場中贏下兩場。 
與人類玩家相比,OpenAI Five平均每分鐘可進行150-170次操作,平均反應時間為80毫秒,明顯比人類更快。 不過這些不是決定5v5勝利與否的關鍵因素。 OpenAI還總結了OpenAI Five的幾個特點: 
這么厲害的隊伍,當然也不是陪業(yè)余人類玩玩就算了的。 OpenAI說,他們打算8月份去DotA 2頂級賽事TI上,找一支頂級專業(yè)隊伍PK一下,7月底還要搞一場對戰(zhàn)專業(yè)團隊的直播。 當然,全部英雄OpenAI Five暫時還搞不定,和專業(yè)選手對局,雙方也只能在有限的英雄里選。 到時候這個“有限的英雄”究竟有多少,現在還不知道,不過,這也說明了一個很重要的問題:現在OpenAI Five的能力,還不足以玩人類版的DotA 2。 那么,AI現在玩的DotA 2和人類版相比做了哪些簡化呢? ? ? OpenAI在博客最后列出了AI版DotA的限制: 這意味著什么? 有了這些限制,AI打的DotA就比人類版有了很多簡化,也說明了這個AI還有些沒掌握的技能。 比如英雄的選擇和陣容的搭配。雙方只有固定的5個英雄,就不需要掌握英雄之間的配合和克制情況,游戲也少了很多變化。 AI現在也還不懂得對視野的控制。AI玩的版本沒有隱身裝備、沒有插眼的操作、沒有掃描,于是雙方只能在游戲原本設定的視野中對戰(zhàn),不能靠自己的能力改變視野,也不需要偵查。 游戲中,如果不考慮信使,AI控制的單位也只能是5個,這也就是為什么不能出現召喚單位和幻象。 另外,沒有游戲野區(qū)最強大的怪物肉山,也就沒有了打肉山能得到的復活盾。在職業(yè)比賽中,復活盾帶來的原地滿狀態(tài)復活能力,可以說是個翻盤利器。 讓人類職業(yè)選手來打一個這樣的DotA,并沒有什么優(yōu)勢;如果讓現在的OpenAI Five去打人類版DotA,這支沒學過選英雄、做視野、偷雞等等技能,還少學了很多裝備的隊伍,也會不知所措。 不過,OpenAI也說了,這些限制大都是因為游戲里有些部分還沒整合進來,像插眼、肉山這種職業(yè)比賽中的關鍵元素,他們會盡快加上。 AI一日,人間180年雖然還有種種限制,但不可否認,AI的進步還是快得嚇人。 OpenAI的解釋是,這個AI通過自我對戰(zhàn)來提升,從隨機參數開始,不用人類玩家的方法引導,也不人類玩家方法中搜索。 他們還特別提到,在訓練1v1模型的時候,是專門針對卡兵這個操作設置了獎勵的。但是在OpenAI Five模型中并沒有這個獎勵,但這個新模型還是自己學會了卡兵。 AI每天的訓練量,相當于打180年游戲??芍^真·勤學苦練,人類選手一輩子的訓練量也不及它半天。 這些每天訓練180年的選手,究竟是些什么怪物? 他們的長相是這樣的: ? ? 不要被結構圖嚇到,簡單來說,每個選手,也就是每個智能體(agent),都是一個單層LSTM(長短時記憶網絡),有1024個單元,能夠通過Valve的Bot API觀察當前游戲狀態(tài),控制自己的英雄接下來選擇哪一種操作、釋放到XY坐標系中的哪一點。 智能體能夠觀察到的信息和人類差不多,包括自身、隊友和敵人的狀況,比如位置、血量、攻擊力、護甲、攜帶物品、能力等等??赡軙幸稽c點區(qū)別的,就是智能體對過去12幀的血量、攻擊和被攻擊情況等歷史信息大概記得比人類清楚。 

?這些信息,對于智能體來說是一個包含20000數值的列表,而它判斷之后發(fā)出的行動指令,是8個值的列表。 選手們的訓練,使用的是擴展版的近端策略優(yōu)化(PPO)方法,這也是OpenAI現在默認的強化學習訓練方法。這些智能體的目標是最大化未來獎勵的指數衰減和。 AI選手們在訓練中飯量驚人,承載它們需要256塊P100 GPU和12.8萬個CPU核心。 ? ? 上面的5v5版本與1v1版本對比,有一個令人欣慰的結果:OpenAI Five需要的CPU和GPU計算力,與去年擊敗Dendi的1v1版相比,并沒有翻到5倍。 5個智能體訓練出來,它們之間又是怎樣配合的呢?總不能像我們人類開黑一樣互相喊話吧? 答案是,他們之間沒有那種人類可以理解的溝通渠道,而是由一個“團隊精神”超參數來統(tǒng)一控制。這個超參數的范圍在0到1之間,決定了選手對與自身獎勵函數和隊友平均獎勵函數的關注程度分配。 留給AI的時間還很多OpenAI說,他們打算在7月28日和頂級選手對戰(zhàn)一番,留給他們的時間,還有整整1個月。8月,他們還要和頂級人類專業(yè)選手在TI上較量,如果這一場較量在AI結束時的話,留給AI的時間還有兩個月。 按照“人間一天,AI界180年的”算法,加上肉山、插眼等關鍵元素之后,只要能給AI留半個月時間和自己對戰(zhàn),在它的世界里就可以說修煉了“數千年”。 這場對戰(zhàn),還開設了直播,等著和人類觀眾相見。 
傳送門7月28日大戰(zhàn)的直播: https://www./openai OpenAI博客詳解(包含各種場景下AI觀察到的情形和可采取行動的交互圖解): https://blog./openai-five/ LSTM架構大圖: https://d4mucfpksywv./research-covers/openai-five/network-architecture.pdf PPO: https:///abs/1707.06347 量子位正在招募市場運營實習生,策劃執(zhí)行AI明星公司CEO、高管等參與的線上/線下活動,有機會與AI行業(yè)大牛直接交流。一份豐富的實習經歷等你解鎖~
工作地點在北京中關村。簡歷歡迎投遞到quxin@qbitai.com
|