《生命·覺者》王小川：AlphaGo打敗李世石背后的三種算法 | 第一輯

kantuoga 2018-09-16

展開全文

嘉賓簡介

王小川

搜狗公司CEO

前搜狐高級副總裁

首席技術(shù)官

▲點(diǎn)擊視頻觀看《生命·覺者》

王小川第一輯

精彩對話

什么是“深度學(xué)習(xí)”？

梁同學(xué) :

大家好，歡迎收看《生命·覺者》系列，我是梁冬。

“生命”這個(gè)詞似乎一直以來和上蒼的意志有關(guān)，但是人是不是會創(chuàng)造某一種類生命的智慧呢？以前我們覺得這很遙遠(yuǎn)，現(xiàn)在發(fā)現(xiàn)這件事情變得越來越近，比如說前段時(shí)間阿爾法狗（AlphGo）和地球上最高級的圍棋選手之間的博弈。

在此之前，很多人不相信阿爾法狗（AlphGo）會贏，但是有一位在中國的年輕科學(xué)家，他透過一篇論文，認(rèn)為阿爾法狗（AlphGo）必贏。這個(gè)年輕人叫王小川。

在這件事情上來說，我們相信如果你理解了它背后的機(jī)制，你就能夠看到它的未來。

小川你好，你可不可以跟我講講，在你理解的什么叫做人工智能？

王小川：

“人工智能”這個(gè)詞天生就跟計(jì)算機(jī)連在一塊兒了，其實(shí)計(jì)算機(jī)在發(fā)明的時(shí)候，最早是用來做軍事用途。很快地就開始變成了人把自己的智慧交給機(jī)器，讓機(jī)器它能夠在里面做決策做判斷。所以在這種情況里面，但凡機(jī)器能去做判斷、做決策，我們就可以認(rèn)為它是一種很原始的人工智能。

人工智能從上個(gè)世紀(jì)60年代到現(xiàn)在經(jīng)歷了三個(gè)階段。第一個(gè)階段是我們?nèi)嗽噲D去寫規(guī)則，把自己對世界的理解翻譯成一種計(jì)算機(jī)語言，讓它學(xué)會“如果這樣就怎樣”，所以那時(shí)候我們稱它“專家系統(tǒng)”。

我覺得“專家系統(tǒng)”也是人工智能的一部分，但是這樣的做法最后失敗了。我們用二十年的時(shí)間，看到了人是沒有辦法通過寫程序，把自己的聰明才智、對世界的認(rèn)知告訴機(jī)器的，這個(gè)規(guī)則機(jī)器學(xué)不會。

隨后就開始走向了一種學(xué)習(xí)的方法，就是我們不要嘗試把自己的意志告訴機(jī)器，而是給它一個(gè)算法規(guī)則之后，讓它向真實(shí)的數(shù)據(jù)學(xué)習(xí)。

我告訴它這個(gè)是誰的聲音，這是誰的臉，讓機(jī)器在里面通過數(shù)據(jù)驅(qū)動得到這樣一種智慧，這就是人工智能的第二個(gè)階段，我們稱之為“學(xué)習(xí)算法”。

到今天我們發(fā)現(xiàn)，在這種統(tǒng)計(jì)規(guī)則里面找到了更先進(jìn)的做法，就是“深度學(xué)習(xí)”。可能行內(nèi)很多人都聽到這個(gè)詞，但是也不知道它是啥。

梁同學(xué) :

對，那什么是“深度學(xué)習(xí)”？我也聽過。

王小川：

第二個(gè)階段是我們?nèi)嗽O(shè)法把世界建模，把一個(gè)人臉，一個(gè)聲音，我們提取出中間有效的特征（人主動找到特征），然后把這個(gè)特征交給機(jī)器，并且告訴機(jī)器答案是什么。

這也遇到一個(gè)瓶頸——人去找特征的時(shí)候，也想不清楚最好的特征是什么。比如說做人臉識別，我們看梁冬兄，該怎么認(rèn)出你來呢？是用臉的輪廓去描述，還是鼻子的大小。但凡我們在里面描述特征的時(shí)候，其實(shí)我們丟掉了其它的信息，描述不準(zhǔn)確。

這就像圍棋的棋盤，圍棋里全是棋子，都長的一樣。而象棋不一樣，象棋很清晰描述里面的一個(gè)車一個(gè)馬在什么位置。所以這種情況下，我們發(fā)現(xiàn)用原來的學(xué)習(xí)方法很難去描述這個(gè)事物。

直到2000年后，我們用深度學(xué)習(xí)方法，采用更大的數(shù)據(jù)規(guī)模，更多計(jì)算。我們不要人去找特征，而是把原始數(shù)據(jù)給機(jī)器，告訴它就有這么多點(diǎn)，然后讓數(shù)據(jù)量變得更大，讓機(jī)器在里面去做計(jì)算。

所以它是在學(xué)習(xí)系統(tǒng)當(dāng)中，模擬人腦的神經(jīng)元的結(jié)構(gòu)。模擬，并不完全一樣。用這種方法——試圖像人的思維方法，讓機(jī)器來學(xué)習(xí)，以適應(yīng)不用靠人去描述這個(gè)世界的特征，讓它們自己在里面去找規(guī)律，這叫“深度學(xué)習(xí)”。

AlphGo打敗李世石的三種算法

梁同學(xué) :

那阿爾法狗（AlphGo），它是如何變成一個(gè)比專業(yè)的頂尖圍棋高手還要高的人工智能的呢？它是怎么進(jìn)化的呢？

王小川：

如果單從今天的監(jiān)督學(xué)習(xí)這個(gè)方法，AlphGo其實(shí)是沒法超過我們最頂尖的人的。

阿爾法狗（AlphGo）里面其實(shí)是很變通的，它有一個(gè)大的創(chuàng)新就是把三種不同的算法做了融合。

一種算法是我們今天最倡導(dǎo)的“深度學(xué)習(xí)”，就是把三千萬戶，六段選手以上的棋做了學(xué)習(xí)和記憶。就是人在這三千萬局棋局里面每一步怎么走的，就讓機(jī)器學(xué)會這個(gè)做法，而且能舉一反三。但是這樣做下來只能達(dá)到六段水平。

阿爾法狗（AlphGo）還配合了兩個(gè)其他的算法，其中一個(gè)算法是更經(jīng)典，原始的算法，我們稱為“空間的搜索”。

這個(gè)搜索的意思是說，如果拿不準(zhǔn)哪步的走法更好，我可能會做一種仿真、一種模擬，讓機(jī)器把每個(gè)走法都走下去，然后再模擬對手接下來會怎么走。之前的“深藍(lán)”就是完全用的空間搜索的方法去做的。

但是空間搜索最大的難點(diǎn)是，每一步棋可能有若干個(gè)走法，它像指數(shù)一樣的，當(dāng)你到了三步四步……十步之后，這個(gè)空間就太大了。所以阿爾法狗（AlphGo）結(jié)合了不同的算法。

可能人的一個(gè)走法只有一個(gè)結(jié)，但是機(jī)器在系統(tǒng)里面還有排名第二的走法怎么樣，排名第三的走法怎么樣。

當(dāng)AlphGo不確定的時(shí)候，它會把幾種走法按照某種概率都去實(shí)踐，所以除了每一步怎么走以外，它也帶來了一個(gè)對未來的推理。人其實(shí)也會做這種事情，但這件事情通常機(jī)器是比人更擅長的。

梁同學(xué) :

速度和數(shù)量級是人所不能想象的。

王小川：

對，會擴(kuò)大很多。

但是人的優(yōu)點(diǎn)在于能剪枝，就是我會認(rèn)為有些特別不靠譜的走法，我先天的判斷就不做了。

梁同學(xué) :

但是有沒有可能，好象覺得不靠譜的做法其實(shí)是有價(jià)值的？

王小川：

會，第四局棋局就遇到這個(gè)問題。

李世石很精妙的一步棋，AlphGo先是預(yù)判人會走這個(gè)棋的概率會大概是在千分之零點(diǎn)零零七，基本覺得人不會走這步棋，所以實(shí)際上AlphGo就沒有去研究這步棋往下之后可能會帶來的變化，就沒有找到后面的答案，就忽略了這步棋。

恰巧李世石走了一步它沒有想到的棋，這是AlphGo在深度學(xué)習(xí)剪枝的過程當(dāng)中，忽略掉的一件事情，變成了李世石的一個(gè)深擊。

但阿爾法狗（AlphGo）能贏其實(shí)不止這兩個(gè)算法，其實(shí)還有重要的第三個(gè)算法，我們稱之為“強(qiáng)化學(xué)習(xí)”。

這個(gè)開創(chuàng)性的做法是，我試圖讓機(jī)器很傻地走到底，就是兩個(gè)機(jī)器互相玩，玩到最后。然后我們只需要把規(guī)則告訴機(jī)器，說這個(gè)機(jī)器贏了，那個(gè)機(jī)器輸了。

然后機(jī)器它就開始倒著往回去計(jì)算，在贏的路徑里面，它會做一個(gè)參數(shù)的加權(quán)，輸?shù)淖叻ㄉ献鼋禉?quán)。然后反復(fù)去做迭代，這樣機(jī)器它內(nèi)部的算法更接近去贏。

這樣就擺脫了我們需要告訴機(jī)器的每一步的答案，而是只需要給它一個(gè)目標(biāo)，贏或者輸，我把這個(gè)學(xué)習(xí)稱之為“強(qiáng)化學(xué)習(xí)”。

所以阿爾法狗（AlphGo）是第一次把這三種算法引入到一個(gè)系統(tǒng)。

今天的主流是深度學(xué)習(xí)；空間搜索是更老的算法，用進(jìn)去了；然后強(qiáng)化學(xué)習(xí)就是給了你最終的一個(gè)目標(biāo)，但是不用人提供答案，而機(jī)器自己去通過目標(biāo)（輸了/贏了），去倒推回來我自己的每一步走棋走的好不好。把這樣的一個(gè)算法放進(jìn)去，構(gòu)成了阿爾法狗（AlphGo）完整的走法。

梁同學(xué) :

這很高級呀，反身求成。

就是說我先有這個(gè)結(jié)果，然后倒推出來所有的步驟，然后去看倒推過來的步驟哪一條路是最合適的，然后不斷地調(diào)權(quán)重，調(diào)比例。

王小川：

其實(shí)我們教小孩子也是類似的，我們的一種教法首先是告訴孩子規(guī)則：這個(gè)東西不讓碰，紅色的東西不讓碰，有個(gè)火的東西不讓碰。這就好比我們把規(guī)則教給機(jī)器。

而且告訴他火是什么東西，溫度有多高，火苗的顏色是怎樣的，告訴它怎么描述個(gè)火這套規(guī)則。所以這個(gè)時(shí)候小孩子其實(shí)是不會超過你的，你只是把你經(jīng)驗(yàn)傳遞給他了。

但是如果我們再往下走一步，我們是說這個(gè)東西不能碰，也不告訴他這個(gè)火是什么東西，要他自己去琢磨怎么描述這個(gè)火，讓他和事物中間產(chǎn)生他自己完整的一種特征的理解學(xué)習(xí)，這就是我們今天講的“深度學(xué)習(xí)”。

但是從最高的地方的話，你就不告訴他，碰完之后他被燙傷了，這時(shí)告訴他，碰這個(gè)東西是不對的，會受傷的。

這種情況我們稱之為“強(qiáng)化學(xué)習(xí)”，就是告訴你一個(gè)目標(biāo)，你的體驗(yàn)完了，你做了一堆的動作，最后發(fā)現(xiàn)你受傷了。

梁同學(xué) :

對，在這件事情上機(jī)器比人有優(yōu)勢，機(jī)器可以一晚上幾百萬次試錯(cuò)。

意識的上傳下載有可能嗎？

梁同學(xué) :

Black Mirror 《黑鏡》里面，講到瑪莎老公死了，然后瑪莎把她老公以前在網(wǎng)絡(luò)上發(fā)的文章、郵件全部導(dǎo)到一個(gè)數(shù)據(jù)庫里面去，生成一套靈魂系統(tǒng)裝到一個(gè)機(jī)器里人里面。你覺得這件事情靠譜嗎？

這是否意味著就理論上來說，也許有一天我們雖然肉體死了，但是我們所有的記憶、我們的社會關(guān)系、我們的情緒反應(yīng)模式，我們的音容相貌都可以還原。這樣的話裝回任何一個(gè)3D打印的肉身里面，我們就輪回轉(zhuǎn)世了？

王小川：

這其實(shí)是兩個(gè)技術(shù)，《黑鏡》里面的做法還只是模擬最后的結(jié)果，因?yàn)樗艿玫降臄?shù)據(jù)，不是你大腦真正的活動和你原始的思維結(jié)構(gòu)。它只是在什么情況下，你說了什么話，它叫“其然不知其所以然”。

你剛才講的這種東西，更多是真正地要把人的大腦的意識上傳。最近其實(shí)我們都知道有兩個(gè)人在干這個(gè)事：一個(gè)是埃隆·馬斯克，建立了一家公司，試圖把人的大腦中間的神經(jīng)元活動上傳上去。還有一個(gè)是新加坡的陳天橋，之前他說是要投十億美金，來做這樣的事情。

但是意識上傳這件事，我認(rèn)為現(xiàn)在還只停留在科幻層面。這個(gè)科幻的原因，不僅是技術(shù)不成熟，而且我們對人腦的思維方法是缺乏了解的。

今天我們認(rèn)為的人工智能，說是在模仿人，其實(shí)也是被人的神經(jīng)元結(jié)構(gòu)所激勵(lì)我們找到一個(gè)方法，就是鳥的飛法和飛機(jī)是不一樣的?，F(xiàn)在我們所謂機(jī)器的神經(jīng)元模型，跟人的神經(jīng)元是不一樣的。

人的神經(jīng)元自己是帶有生長能力的，遇到新事物學(xué)習(xí)之后人的神經(jīng)元會生長，而且人的神經(jīng)元是帶有一種循環(huán)的。

我原來覺得是這個(gè)結(jié)果，但是今天變了，人會在這個(gè)誤差里面馬上去做一個(gè)反省。而機(jī)器學(xué)習(xí)的這樣一個(gè)神經(jīng)元系統(tǒng)是單向的，在內(nèi)部它沒有一個(gè)數(shù)據(jù)的循環(huán)。所以到目前為止，我們認(rèn)為只停留在科幻里面。

人工智能還不足以產(chǎn)生威脅

王小川：

我們現(xiàn)在在這一步里面大家還認(rèn)為，挺難有一個(gè)真正像人一樣的，具有生命力，具有推理能力，甚至對人的生命產(chǎn)生威脅的人工智能。

梁同學(xué) :

現(xiàn)在還看不到？

王小川：

看不到。

我們舉個(gè)簡單的例子，像阿爾法狗（AlphGo）大家覺得它很厲害了，搜狗也做了一個(gè)回答問題的機(jī)器人，有人問我們說你們回答問題的機(jī)器人跟阿爾法狗（AlphGo）哪個(gè)厲害呀？

梁同學(xué) :

對，你們在《一站到底》里面做了這個(gè)是吧？

王小川：

對，我們在《一站到底》做的，我們是靠視覺聽覺去把一個(gè)問題得到，甚至能搶答，把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)數(shù)據(jù)庫，去搜索這個(gè)答案。但是我剛才說的這個(gè)不可比較，兩個(gè)系統(tǒng)都屬于專用系統(tǒng)。

阿爾法狗（AlphGo）它沒法回答問題，甚至于如果你把這棋盤從19乘于19變成20乘20，那機(jī)器就什么都做不了了，但是我們?nèi)耸强梢缘?。一個(gè)優(yōu)秀的圍棋選手，這個(gè)棋盤大一點(diǎn)，甚至小一點(diǎn)，他的水平是會接近的。那機(jī)器就會變成白癡，什么都不會。

所以今天的人工智能，只是在原有的數(shù)據(jù)和訓(xùn)練樣本當(dāng)中，找到了這個(gè)領(lǐng)域中間的一個(gè)規(guī)律。這是今天人工智能遇到的很大的瓶頸。

梁同學(xué) :

所以從你的角度來看，似乎我們對未來過度悲觀了。

很多人都覺得可能十五年二十年之后整個(gè)世界基本上就變了，大部分的人都沒什么用了，現(xiàn)在的教育也是沒有意義的了。

王小川：

我會覺得科技的發(fā)展可能會超出我們這樣的一個(gè)預(yù)期，很難說二十年后的機(jī)器就沒有大的突破。

但是我認(rèn)為，人作為在地球上進(jìn)化了幾千萬年，這樣智慧的一種生命，人類本身具有的能力，不只是具有一點(diǎn)點(diǎn)智慧這件事情，他還具有對于環(huán)境適應(yīng)的能力，甚至具有生育能力，具有情感。

所以這個(gè)智是建立在生命體基礎(chǔ)之上的。我們認(rèn)為，離開這個(gè)生命體，單獨(dú)考慮這樣一點(diǎn)智能，是非常局限的。

我不認(rèn)為脫離生命體的這樣一個(gè)局部智慧，能夠?qū)θ祟惖纳?、繁衍帶來大的沖擊。

梁同學(xué) :

剛才我跟小川聊天的時(shí)候，真的給我莫大的安慰。

因?yàn)樵谶^往的兩三年的時(shí)間里面，投資圈的朋友都在講人工智能對未來的影響和改變，所以讓我隱隱約約地產(chǎn)生一種強(qiáng)烈的恐懼。

但是現(xiàn)在我發(fā)現(xiàn)，其實(shí)人的能力遠(yuǎn)不只在知識上，人的價(jià)值很可能是在知識以外。

《生命·覺者》王小川

總共 2 輯

關(guān)注自在睡覺

每周六晚九點(diǎn) 準(zhǔn)時(shí)收看

點(diǎn)擊圖片，回顧《生命·覺者》

吳巖老師第二輯

任曉光老師親授

鐘繇小小進(jìn) 階班

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： kantuoga > 《科學(xué)》

舉報(bào)/認(rèn)領(lǐng)