日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

One

 timtxu 2017-05-24

雷鋒網(wǎng)按:本文作者夏飛,清華大學(xué)與卡內(nèi)基梅隆大學(xué)畢業(yè),現(xiàn)于谷歌從事技術(shù)研發(fā)工作。本文是對(duì)《自然》上發(fā)表的知名論文“Mastering the game of Go with deep neural networks and tree search”進(jìn)行的總結(jié),對(duì) AlphaGo 的算法結(jié)構(gòu)進(jìn)行了概括。原總結(jié)文用英語(yǔ)寫就,經(jīng)雷鋒網(wǎng)編譯,閱讀原文請(qǐng)點(diǎn)此。

下文概括了圍棋借助人工智能在 2016 年實(shí)現(xiàn)的突破。

圍棋是一個(gè)完全信息博弈問(wèn)題。而完全信息博弈,通常能被簡(jiǎn)化為尋找最優(yōu)值的樹搜索問(wèn)題。它含有 b 的 d 次方個(gè)可能分支,在國(guó)際象棋中 b≈35,d≈80;而在圍棋中 b≈250,d≈150。很顯然,對(duì)于圍棋,用窮舉法或簡(jiǎn)單的尋路算法(heuristics)是行不通的。但有效的方法是存在的:

  • 從策略(policy) P(a|s) 中取樣 action,降低搜索廣度

  • 通過(guò)位置評(píng)估降低搜索深度

  • 把策略和值用蒙特卡洛樹搜索(MCTS)結(jié)合起來(lái)。

用一個(gè) 13 層的 CNN,直接從人類棋步中訓(xùn)練一個(gè)監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò) Pσ。輸入為 48 x 19 x 19 的圖像(比方說(shuō),它的組成棋子顏色 是 3 x 19 x 19),輸出是使用 softmax 層預(yù)測(cè)的全部落子的概率。精確度是 55.7%。

訓(xùn)練一個(gè)能在運(yùn)行時(shí)快速取樣 action 的快速策略 Pπ。這會(huì)用一個(gè)基于小型模式特征的線性 softmax。精確度是 24.2%,但它計(jì)算一次落子只用 2 微秒,而不像 Pσ 需要 3 毫秒。

訓(xùn)練一個(gè)增強(qiáng)學(xué)習(xí)策略網(wǎng)絡(luò) Pρ ,通過(guò)優(yōu)化博弈結(jié)果來(lái)進(jìn)一步提升監(jiān)督策略網(wǎng)絡(luò)。這把策略網(wǎng)絡(luò)向贏棋優(yōu)化,而不是優(yōu)化預(yù)測(cè)精確度。本質(zhì)上,Pρ 與 Pσ 的結(jié)構(gòu)是一樣的。它們的權(quán)重使用相同值 ρ=σ 初始化。對(duì)弈的兩個(gè)選手,是當(dāng)前策略網(wǎng)絡(luò) Pρ 和隨機(jī)(防止過(guò)擬合)選擇的此前的策略網(wǎng)絡(luò)迭代。

訓(xùn)練一個(gè)價(jià)值網(wǎng)絡(luò)(value network)Vθ,來(lái)預(yù)測(cè)強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)自己和自己下棋的贏家。該網(wǎng)絡(luò)的架構(gòu)和策略網(wǎng)絡(luò)類似,但多出一個(gè)特征平面(當(dāng)前玩家的顏色),并且輸出變成了單一預(yù)測(cè)(回歸,均方差損失)。根據(jù)完整棋局來(lái)預(yù)測(cè)對(duì)弈結(jié)果,很容易導(dǎo)致過(guò)擬合。這是由于連續(xù)落子位置之間高度相關(guān),只有一子之差。因此,這里使用了強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)自己與自己對(duì)弈新生成的數(shù)據(jù)。該數(shù)據(jù)從包含 3000 萬(wàn)個(gè)不同位置的獨(dú)立棋局中抽取。

把策略網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)、快速策略和蒙特卡洛樹搜索結(jié)合起來(lái)。一個(gè)標(biāo)準(zhǔn)的蒙特卡洛樹搜索過(guò)程包含四步:選擇、擴(kuò)展、評(píng)估、備份。為了讓大家更容易理解,我們只粗略講了講它如何在模擬中選擇狀態(tài)的部分(如對(duì)數(shù)學(xué)感興趣,請(qǐng)到原始論文中找公式)。

狀態(tài)分?jǐn)?shù)=價(jià)值網(wǎng)絡(luò)輸出+快速運(yùn)行(fast rollout)的策略結(jié)果+監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)輸出

高狀態(tài)得分(或者說(shuō)落子)會(huì)被選擇。價(jià)值網(wǎng)絡(luò)輸出和快速運(yùn)行策略結(jié)果是評(píng)估函數(shù),在葉子節(jié)點(diǎn)進(jìn)行評(píng)估(注意,為了評(píng)估快速運(yùn)行,需要一直到最后一步)。監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)輸出是一個(gè)當(dāng)前階段的 action 概率,充作選取分?jǐn)?shù)的獎(jiǎng)勵(lì)分。該分?jǐn)?shù)會(huì)隨訪問(wèn)次數(shù)而退化,以鼓勵(lì)探索。注意強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)只被用于輔助,來(lái)生成價(jià)值網(wǎng)絡(luò),并沒有直接在蒙特卡洛樹搜索中使用。

到這就結(jié)束了,以上就是戰(zhàn)勝了人類的 AlphaGo 算法!

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多