今年上半年,AlphaGo成功挑戰(zhàn)職業(yè)圍棋九段選手李世乭,讓人工智能大放光彩。但相比起十分需要運(yùn)算和推測(cè)的棋類游戲,人工智能一直在電子游戲中多次吃虧。之前AlphaGo也提出要在《星際爭(zhēng)霸2》中戰(zhàn)勝職業(yè)選手,但暴雪CEO表示不太可能。這是因?yàn)殡娮佑螒虻淖杂啥确浅8?,取得勝利的方式也有很多種,人工智能往往摸不著頭腦,甚至有時(shí)直接發(fā)呆。 (圖片來源于:Google) 為了扭轉(zhuǎn)這個(gè)劣勢(shì),DeepMind其實(shí)早在前年已經(jīng)開始著手研究,并且在頂級(jí)科研雜志Nature(自然)上發(fā)布了有關(guān)AI Deep Q-Network(人工智能深度網(wǎng)絡(luò),簡(jiǎn)稱DQN)的論文。這個(gè)名為DQN的人工智能,可以自主學(xué)習(xí)游戲規(guī)則,在事先沒有給予任何有關(guān)游戲的情報(bào)下,能夠通過不斷玩游戲來提高自己的成績(jī)。 DeepMind在YouTube上發(fā)布了相關(guān)的視頻介紹,其中也有我們小時(shí)候經(jīng)常玩的接球游戲。在剛開始接觸這款游戲的時(shí)候,DQN的成績(jī)十分糟糕,接幾次就繼續(xù)不下去了。 (圖片來源于:Google) 但是經(jīng)過600多次的“訓(xùn)練”后,奇跡發(fā)生了,DQN不僅可以流暢操作,而且還充分利用游戲的小技巧,進(jìn)行更加高級(jí)的游戲玩法,可謂進(jìn)步十分明顯。而這些進(jìn)步,都是DQN自己總結(jié)并加以運(yùn)用,期間沒有人類干涉過。 (圖片來源于:Google) 據(jù)DeepMind的官方說法,能讓DQN學(xué)會(huì)玩電子游戲的關(guān)鍵算法名為“異步評(píng)價(jià)器算法”(Asynchronous Advantage Actor-Critic)簡(jiǎn)稱A3C。簡(jiǎn)單點(diǎn)來說,這個(gè)算法可以讓DQN自行判斷游戲界面的情況,并通過“大型分布式深度強(qiáng)化學(xué)習(xí)系統(tǒng)”學(xué)習(xí)游戲的玩法和規(guī)則。最后就是通過不斷訓(xùn)練和學(xué)習(xí)來提高運(yùn)算水平,從而達(dá)到“玩好游戲”的地步。 (圖片來源于:Google) |
|