日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

走出人機(jī)大戰(zhàn)五個(gè)誤區(qū):人類沒那么差,阿爾法狗不會(huì)故意輸棋

 祝冀館藏 2017-05-24

  曾在線上快棋中取得對(duì)人類圍棋職業(yè)高手60:0戰(zhàn)績的新版“阿爾法狗”,昨天又在慢棋比賽中戰(zhàn)勝了當(dāng)今世界圍棋“第一人”柯潔。人工智能到底有多強(qiáng)大?圍棋已經(jīng)被“攻克”了嗎?人類還有希望嗎?

5月24日,特約撰稿人、人工智能和大數(shù)據(jù)專家鄭宇就上述問題展開講解:

原標(biāo)題:走出人機(jī)大戰(zhàn)五個(gè)誤區(qū):人類沒那么差,阿爾法狗不會(huì)故意輸棋


行至這一局面,柯潔連續(xù)抓頭發(fā)25秒,引現(xiàn)場(chǎng)講解一陣吐槽

5月23日,AlphaGo2.0版本在人機(jī)圍棋比賽中以四分之一子的微弱優(yōu)勢(shì)戰(zhàn)勝了柯潔,一方面繼續(xù)彰顯了人工智能的強(qiáng)大,但也讓人們對(duì)AlphaGo和人工智能有了新的認(rèn)識(shí)。

先說出結(jié)論,再看分析:

1.在圍棋這個(gè)項(xiàng)目上AlphaGo目前走在了人類的前面,但并沒有完全攻克圍棋這項(xiàng)運(yùn)動(dòng)。它只是通過深度學(xué)習(xí)找到了一個(gè)比人類認(rèn)識(shí)更優(yōu)的解,但不是最優(yōu)解。最優(yōu)解無法找到,即便用盡地球上所有的資源。從專業(yè)的角度來講,就是用深度學(xué)習(xí)去逼近了一個(gè)強(qiáng)化學(xué)習(xí)中的價(jià)值判斷函數(shù),然后再跟蒙特卡洛搜索樹結(jié)合的方法(具體詳解可參看《鄭宇:一張圖解ALphaGo原理及弱點(diǎn)》,不再重復(fù))。既然人工智能和人類都不能找到最優(yōu)解,現(xiàn)在說哪一方已經(jīng)完全徹底的失敗還早。

2. 人類也是在進(jìn)步的,我們也不要低估了人類后天的快速(小樣本)學(xué)習(xí)能力,這點(diǎn)AlphaGo基于現(xiàn)在的學(xué)習(xí)方法還做不到。短期來看人獲勝概率小,但長遠(yuǎn)來看(未來5-10年)人還有機(jī)會(huì),因?yàn)槿艘灿泻軓?qiáng)的學(xué)習(xí)能力,可以從少量跟AlphaGo的對(duì)弈的棋局中快速學(xué)習(xí)。而即便再給AlphaGo1億副棋譜,再添加一萬塊GPU,如果還是基于現(xiàn)有的學(xué)習(xí)體系,它進(jìn)步的速度也終將放緩,因?yàn)樾略龅钠遄V和計(jì)算資源相對(duì)于2x10171這個(gè)搜索空間來說只是滄海一粟。我們對(duì)人腦的了解還遠(yuǎn)不如對(duì)圍棋的認(rèn)識(shí),這里面還有很大的未知數(shù)。

柯潔開局下出兩手“三·3”,已然顛覆至少二十年來的圍棋棋理(截自圍棋社交App“弈客”)

(但實(shí)際上,柯潔這樣下并不是心血來潮,他在各種職業(yè)比賽中已多次用這樣的招數(shù)與其他職業(yè)高手“過招”。最近的中國“圍甲”職業(yè)比賽中,各種“狗招”<阿爾法狗的招數(shù)>也已層出不窮,大家都在以自己的理解嘗試人工智能下出的招數(shù)。而柯潔等職業(yè)棋手的“喂招拆招”,也是中國自己的圍棋人工智能“絕藝”快速成長的重要因素。)

事實(shí)上,這一招柯潔已在對(duì)人類的對(duì)局中嘗試多次(截自圍棋社交App“弈客”)

現(xiàn)就讀北大哲學(xué)系的“學(xué)者型棋手”李喆,也嘗試多種新招(截自圍棋社交App“弈客”)

3. 目前人類職業(yè)棋手跟AlphaGo的差距也就在一個(gè)貼目的水平,沒有大家想象的那么大。其實(shí)這個(gè)貼目的差距(按中國標(biāo)準(zhǔn)7目半),在職業(yè)棋手看來,已經(jīng)是非常大的差距了。很多職業(yè)高手,進(jìn)入官子階段后發(fā)現(xiàn)自己還落后對(duì)方7-8目,就會(huì)主動(dòng)投子認(rèn)輸了。很多通過數(shù)子來決定勝負(fù)的比賽,輸贏往往都在1-2目之間(比如柯潔就輸給AlphaGo半目)。否則會(huì)被其他專業(yè)棋手笑話,自己落后那么多都不知道,點(diǎn)空能力太弱了。

要能真正客觀、準(zhǔn)確的看待這個(gè)問題急需要較強(qiáng)的人工智能專業(yè)知識(shí),也需要一定的圍棋功底。下面先糾正網(wǎng)上認(rèn)知的一些誤區(qū):

誤區(qū)一:AlphaGo可以讓人類頂尖棋手4個(gè)子,AlphaGo2.0可以讓上一個(gè)版本4-5個(gè)子。

要消除這個(gè)誤解,首先要跟大家普及一下圍棋知識(shí):在圍棋里“讓對(duì)方兩個(gè)子”和“贏對(duì)方2個(gè)子”有著天壤之別。這點(diǎn)對(duì)于下圍棋的人不用多說,但我今天才意識(shí)到,很多吃瓜群眾一直以為這就是一回事。難怪網(wǎng)上會(huì)流傳以上的錯(cuò)誤言論。

讓對(duì)方兩個(gè)子: 在圍棋里讓2子是說讓一方先在棋盤上放上2個(gè)棋子(棋子只能放在星位),然后對(duì)方才開始走。這兩個(gè)子在對(duì)弈之初的價(jià)值巨大,對(duì)于專業(yè)棋手來講,每個(gè)棋子價(jià)值至少在10目以上(這是最保守估計(jì)了)。讓兩子相當(dāng)于至少先讓出去對(duì)方20多目的地盤。由于棋盤是有限的,如果不能在后面的比賽中,在有限的空間里贏回這20多目,那就是讓子失敗了。而且讓子數(shù)越多,被讓方獲得的價(jià)值不單是線性增長的,因?yàn)樽恿χg會(huì)形成配合,獲取更大的利益。比如說,讓子,其價(jià)值就可能遠(yuǎn)不止40目了。

贏對(duì)方2個(gè)子:是指雙方下完后,贏的一方比輸?shù)囊环蕉喑?個(gè)子。如果按照吃住對(duì)方一個(gè)子算兩目的方法來算,那2個(gè)子只相當(dāng)于4目。AlphaGo贏了柯潔1/4子,就相當(dāng)于半目棋子而已。

所以“讓對(duì)方兩個(gè)子”和“贏對(duì)方2個(gè)子”不可同年而語。如果真的有圍棋之神存在(既他一定能找到最優(yōu)解,我們?nèi)耸菦]有希望下過他的),一般頂尖專業(yè)棋手認(rèn)為他們跟這個(gè)神的差距在讓2-3子之間。由于AlphaGo可以被證明不能保證找到最優(yōu)解,所以他離神還有一定的距離。因此,說AlphaGo可以讓人類頂尖棋手4個(gè)子,這簡直就是天方夜談。

誤區(qū)二:AlphaGo也會(huì)下出一些明顯不好的招數(shù),是因?yàn)樗晕遗袛嘈问秸純?yōu),而放松了自身的要求。

AlphaGo的搜索策略就是優(yōu)先對(duì)獲勝概率比較大的分支進(jìn)行更多的深度搜索,這個(gè)策略在任何時(shí)候都不會(huì)改變,也不能改變。他不會(huì)覺得自己優(yōu)勢(shì)了就下出緩手。下得不好的時(shí)候是因?yàn)槠鋬r(jià)值判斷本來就是一個(gè)近似,而且搜索空間也不能窮盡,得不到最優(yōu)解,因此,有時(shí)估計(jì)還不錯(cuò)的棋,其實(shí)不一定是真的最好的下法,AlphaGo出現(xiàn)這種不穩(wěn)定狀況是正常的。這也是人類善存的希望所在。當(dāng)然人類也有自身的弱點(diǎn),如疲勞、情緒波動(dòng)等,人也會(huì)判斷失誤。而且棋局很長,有些之前不太好的棋,經(jīng)過后面的變化(包括不是預(yù)料中的變化)有可能會(huì)變成好棋。所以,不是所有的錯(cuò)誤,都會(huì)直接影響到比賽的結(jié)果。而且現(xiàn)在大家似乎有點(diǎn)怕AlphaGo了,即便是AlphaGo下出一招不好的棋,大家更多的是懷疑自己的水平(是不是我們沒看懂?。浚?,而選擇相信AlphaGo的“深謀遠(yuǎn)慮“。

誤區(qū)三:AlphaGo可以不斷自學(xué)習(xí),從新的棋局里獲取經(jīng)驗(yàn),快速提升自己。

AlphaGo的系統(tǒng)由于參數(shù)非常多,需要大量的數(shù)據(jù)來訓(xùn)練,新增的幾幅棋譜對(duì)提高它的棋力起不到任何作用。而且AlphaGo在做參數(shù)調(diào)整時(shí)是針對(duì)一大批數(shù)據(jù)的整體優(yōu)化,也必須對(duì)很多棋譜做批量處理,訓(xùn)練時(shí)間非常長,不可能在很短時(shí)間內(nèi)大幅提升自身的水平。即便是同一組訓(xùn)練棋譜,參數(shù)調(diào)整方法不一樣也會(huì)訓(xùn)練出棋力水平差異較大的系統(tǒng)。其實(shí)AlphaGo是通過自我對(duì)弈來生成很多棋譜,然后利用棋譜中的(兩個(gè)連續(xù)的)盤面跟最后的勝負(fù)對(duì)應(yīng)關(guān)系訓(xùn)練出價(jià)值網(wǎng)絡(luò)來。這里只是借用了一下強(qiáng)化學(xué)習(xí)的框架來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的參數(shù)而已,主要貢獻(xiàn)還是深度學(xué)習(xí)的近似能力帶來的(解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)針對(duì)復(fù)雜環(huán)境和動(dòng)作狀態(tài)無法求解的難題)。因此,AlphaGo并沒有大家想象的那種自我博弈就能自己不斷進(jìn)步的能力。

誤區(qū)四:AlphaGo會(huì)故意放水輸?shù)粢痪直荣悺?

這個(gè)沒有可能。要想輸還不能輸?shù)哪敲措y看和明顯,是一件非常難辦的事情,可能比贏棋還要難。在模型訓(xùn)練好之后,AlphaGo能夠臨時(shí)改動(dòng)的只有在搜索部分投入的資源多少(搜索多大的空間)可以改動(dòng)。縮減的太小,幾乎不會(huì)有太大變化,但如果縮減太多,就會(huì)下出一些非常低級(jí)的棋來。這點(diǎn)從技術(shù)角度來講很難把握。

誤區(qū)五:計(jì)算機(jī)的計(jì)算能力一定比人強(qiáng),所以不要去跟AlphaGo比計(jì)算,應(yīng)該把局面簡單化,避免復(fù)雜的戰(zhàn)斗。

AlphaGo依靠的是一種基于樹的搜索算法,遇到復(fù)雜局面搜索空間變大,對(duì)未來輸贏的價(jià)值判斷也會(huì)變難。因此,人算不過來的復(fù)雜局面,對(duì)AlphaGo來說也很困難。如果局面太簡單,機(jī)器可以非常好的計(jì)算出比較優(yōu)的解,人類棋手更加沒有希望。因此,把局面弄復(fù)雜,人類棋手才有希望獲勝,雖然這個(gè)對(duì)人類也提出了更大的挑戰(zhàn)。

總結(jié)

基于人類目前對(duì)圍棋的認(rèn)識(shí)和理解,現(xiàn)階段仍然會(huì)輸給人工智能。我并不是覺得柯潔有希望能夠贏得后面的比賽,但人類也在進(jìn)步,通過跟AlphaGo的對(duì)弈,人類也在重新認(rèn)識(shí)圍棋。只要人類的思想和文明在不斷進(jìn)步,人就有可能在未來5-10年里通過不斷的學(xué)習(xí)趕上當(dāng)前的AlphaGo。當(dāng)然,AlphaGo也會(huì)進(jìn)步,但它還不是圍棋之神,也沒有攻克圍棋這個(gè)難題。如果現(xiàn)有的學(xué)習(xí)方法沒有全面的革新,其進(jìn)步的速度也會(huì)慢慢放緩?;诖丝紤],人類還會(huì)有機(jī)會(huì)。當(dāng)人們對(duì)圍棋有了更深入的了解之后,又會(huì)設(shè)計(jì)出更好的人工智能算法。兩者其實(shí)并不矛盾,相輔相成,互相促進(jìn),不管誰輸誰贏都是人類文明進(jìn)步的體現(xiàn)。人類的智能也將始終走在機(jī)器的前面,而不會(huì)被機(jī)器取代。


看到阿爾法狗下出這手極富創(chuàng)造力的“大飛”,柯潔一邊不住撓頭,一邊不停微笑。真正熱愛圍棋的人,看到這種“天才”的招式,都是既興奮又好奇的吧。

(作者:鄭宇,CCF杰出會(huì)員、CCCF編委、CCF ADL工作組組長,微軟亞洲研究院資深研究員、“城市計(jì)算”領(lǐng)域負(fù)責(zé)人、上海交通大學(xué)講座教授、香港科技大學(xué)客座教授;擔(dān)任人工智能國際權(quán)威期刊(SCI一區(qū)刊物)ACM TIST主編、ACM數(shù)據(jù)挖掘中國分會(huì)(KDD China)秘書長;擔(dān)任國際知名會(huì)議ICDE2014和CIKM2017程序委員會(huì)主席(Industrial Track);在頂尖國際會(huì)議和期刊上發(fā)表論文百余篇(其中以主作者身份發(fā)表論文50余篇),論文被引用13000余次,Google Scholar H-Index 53(截至2017-5-23), 2016年論文單年被引用3400余次。他主持開發(fā)了多個(gè)城市大數(shù)據(jù)系統(tǒng),其中Urban Air首次利用大數(shù)據(jù)來監(jiān)測(cè)和預(yù)報(bào)細(xì)粒度空氣質(zhì)量,該服務(wù)覆蓋了中國的300多個(gè)城市,并被中國環(huán)境保護(hù)部采用。他主持了城市大數(shù)據(jù)平臺(tái)的設(shè)計(jì)和實(shí)施,并成功在中國大數(shù)據(jù)示范基地貴陽市部署。2013年他被MIT科技評(píng)論評(píng)為“全球杰出青年創(chuàng)新者”(TR35),并作為現(xiàn)代創(chuàng)新者代表登上了美國《時(shí)代》周刊。2014年,由于他主導(dǎo)的城市計(jì)算具有巨大的商業(yè)前景和改變行業(yè)格局的潛力,他被美國《財(cái)富》評(píng)選為中國40位40歲以下商界精英。2016年他被評(píng)為美國計(jì)算機(jī)學(xué)會(huì)杰出科學(xué)家。)

 http://www.guancha.cn/industry-science/2017_05_24_409891.shtml

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多