圖片來源網(wǎng)絡(luò) 按照人類的標(biāo)準來看,國際象棋并不是一項簡單的游戲。但對于一個由強大的、幾乎是外星人的思維所驅(qū)動的人工智能來說,它可以在幾小時內(nèi)就掌握這項瑣碎的消遣游戲。 在一篇新論文中,谷歌的研究人員詳細介紹了他們?nèi)斯ぶ悄艿淖钚掳l(fā)展——AlphaZero如何在國際象棋中發(fā)揮出“超人表現(xiàn)”,在打敗世界冠軍國際象棋程序stockfish之前,該人工智能只花了四個小時來學(xué)習(xí)規(guī)則。(維基百科注:stockfish是一個免費的開源UCI國際象棋引擎,可用于各種桌面和移動平臺。) stockfish網(wǎng)站 換句話說,只需從紐約到華盛頓特區(qū)的時間,人類的所有棋子知識甚至超出人類棋子認知部分的知識就被人工智能吸收和超越了。 在只了解國際象棋規(guī)則(沒有學(xué)習(xí)策略)的情況下,僅僅4個小時AlphaZero就已經(jīng)掌握了這個游戲。在某種程度上,它能夠使國際象棋程序stockfish得到最好優(yōu)化。 在對陣stockfish的100場比賽中,AlphaZero以白色(先發(fā)優(yōu)勢)贏得了25場比賽,并獲得了三場比賽的黑牌。剩下的比賽都是平局,stockfish沒有贏,阿爾法也沒有輸。 國際象棋科學(xué)網(wǎng)站Chessable的首席執(zhí)行官兼國際象棋研究員大衛(wèi)·克拉馬利(David Kramaley)說:“現(xiàn)在我們知道我們的新霸主是誰了。 “毫無疑問,這將徹底改變游戲規(guī)則,但也可以想想如何在國際象棋之外應(yīng)用該技術(shù)。這個算法可以應(yīng)用在城市,大陸,宇宙?!?/p> 圖片來源:Creative Commons / Pixabay Alpha Zero由谷歌的DeepMind人工智能實驗室開發(fā),它是一款經(jīng)過調(diào)整的、更通用的AlphaGo Zero版本,專攻中國的棋類游戲,圍棋。 多年來DeepMind一直在不斷完善這個AI,在這個過程中,它打敗了一系列的人類冠軍,在“神一樣”的神經(jīng)網(wǎng)絡(luò)面前這些人類冠軍像多米諾骨牌一樣倒下。 這一勝利在10月取得了驚人的成功,一個全新的完全自主的人工智能的版本誕生了——它通過玩游戲自主學(xué)習(xí),無需面對人類——勝過它以前所有的化身。 相比之下,AlphaGo Zero的前輩們在一定程度上學(xué)會了如何通過觀察人類玩家的動作來玩游戲。 這一努力旨在輔助剛剛起步的人工智能進行策略學(xué)習(xí),但似乎在實際中成了一個不利因素,因為AlphaGo Zero完全自主的學(xué)習(xí)能力在一對一的比賽中表現(xiàn)得很給力且被證明更加有效。 麻省理工學(xué)院的計算機科學(xué)家尼克·海因斯(Nick Hynes)在10月份對Gizmodo說:“這就好比一個外星文明發(fā)明了自己的數(shù)學(xué)。” “我們在這里看到的是一個沒有人類偏見和假設(shè)的模型。任何它認為最優(yōu)的東西它都可以進行學(xué)習(xí),面對相同的概念,它可能確實比我們?nèi)祟愃伎嫉母氈氯胛ⅰ!?/p> 不過,這一領(lǐng)域事情進展得非常之快,以至于10月份的成就可能已經(jīng)過時了。 在新論文中,該團隊概述了最新的AlphaZero AI如何利用這種自玩的依賴——也即所謂的“強化學(xué)習(xí)”并把它應(yīng)用到更廣泛的范圍中,使其更加關(guān)注解決問題的。 廣泛的關(guān)注意味著AlphaZero不僅僅會下象棋,它也玩Shogi(又名日本象棋)和圍棋。也許一點也不足為奇的是,分別只用了2個小時和8個小時,它就掌握這些游戲。 目前,谷歌和DeepMind的計算機科學(xué)家們并沒有就這項新研究發(fā)表公開評論,這一研究還沒有經(jīng)過同行評議。 但從我們目前所能掌握的情況來看,這個算法在通向人工智能頂峰的路途中令人目眩的表現(xiàn)還遠未結(jié)束,甚至連國際象棋大師也被眼前的景象所迷惑。 “我之前一直好奇,如果一個優(yōu)秀的物種降落在地球上并向我們展示他們是如何下棋的,那將會是怎樣的情形?!贝髱煴说谩ずDつ釥柹≒eter Heine Nielsen)對BBC說道。 “現(xiàn)在我知道了?!?/p> 原創(chuàng)編譯:梓色揚光 |
|