會,第四局棋局就遇到這個(gè)問題。
李世石很精妙的一步棋,AlphGo先是預(yù)判人會走這個(gè)棋的概率會大概是在千分之零點(diǎn)零零七,基本覺得人不會走這步棋,所以實(shí)際上AlphGo就沒有去研究這步棋往下之后可能會帶來的變化,就沒有找到后面的答案,就忽略了這步棋。
恰巧李世石走了一步它沒有想到的棋,這是AlphGo在深度學(xué)習(xí)剪枝的過程當(dāng)中,忽略掉的一件事情,變成了李世石的一個(gè)深擊。
但阿爾法狗(AlphGo)能贏其實(shí)不止這兩個(gè)算法,其實(shí)還有重要的第三個(gè)算法,我們稱之為“強(qiáng)化學(xué)習(xí)”。
這個(gè)開創(chuàng)性的做法是,我試圖讓機(jī)器很傻地走到底,就是兩個(gè)機(jī)器互相玩,玩到最后。然后我們只需要把規(guī)則告訴機(jī)器,說這個(gè)機(jī)器贏了,那個(gè)機(jī)器輸了。
然后機(jī)器它就開始倒著往回去計(jì)算,在贏的路徑里面,它會做一個(gè)參數(shù)的加權(quán),輸?shù)淖叻ㄉ献鼋禉?quán)。然后反復(fù)去做迭代,這樣機(jī)器它內(nèi)部的算法更接近去贏。
這樣就擺脫了我們需要告訴機(jī)器的每一步的答案,而是只需要給它一個(gè)目標(biāo),贏或者輸,我把這個(gè)學(xué)習(xí)稱之為“強(qiáng)化學(xué)習(xí)”。
所以阿爾法狗(AlphGo)是第一次把這三種算法引入到一個(gè)系統(tǒng)。
今天的主流是深度學(xué)習(xí);空間搜索是更老的算法,用進(jìn)去了;然后強(qiáng)化學(xué)習(xí)就是給了你最終的一個(gè)目標(biāo),但是不用人提供答案,而機(jī)器自己去通過目標(biāo)(輸了/贏了),去倒推回來我自己的每一步走棋走的好不好。把這樣的一個(gè)算法放進(jìn)去,構(gòu)成了阿爾法狗(AlphGo)完整的走法。