強(qiáng)化學(xué)習(xí)

飛揚(yáng)czqht0vrjl 2019-01-21

展開全文

<1>

這篇文章與大家分享“強(qiáng)化學(xué)習(xí)”，英文名叫做“Reinforcement Learning”。這是一個(gè)有趣的機(jī)器學(xué)習(xí)算法，去年在國(guó)際圍棋界大顯身手、戰(zhàn)勝世界冠軍的AlphaGo以及其進(jìn)化版AlphaGo zero的關(guān)鍵技術(shù)就是強(qiáng)化學(xué)習(xí)。它還被用于玩電腦游戲，比如Dota2、英雄聯(lián)盟、Flappy bird，還有各種小游戲。

AlphaGo VS 柯潔

AI玩Pingpong游戲

<2>

正式介紹強(qiáng)化學(xué)習(xí)前我們先科普一下人工智能和智能算法的關(guān)系，看圖

AI知識(shí)圖譜

人工智能是一個(gè)非常大的概念，機(jī)器學(xué)習(xí)（Machine Learning）算法是人工智能的主要技術(shù)之一，而且是現(xiàn)在應(yīng)用最廣泛的也是機(jī)器學(xué)習(xí)算法, 深度學(xué)習(xí)(Deep Learning)或深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks)屬于機(jī)器學(xué)習(xí)，所以現(xiàn)在人們一般有下面的認(rèn)識(shí)：

AI-ML-DL

傳統(tǒng)上，機(jī)器學(xué)習(xí)算法一般可以分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)，二者各有長(zhǎng)短。監(jiān)督學(xué)習(xí)認(rèn)為人要把自己的經(jīng)驗(yàn)教給機(jī)器。拿分辨貓貓和狗狗的 AI 來(lái)說(shuō)，你需要準(zhǔn)備幾千張照片，然后手把手教機(jī)器——哪張照片是貓，哪張照片是狗。機(jī)器會(huì)從中學(xué)習(xí)到分辨貓狗的細(xì)節(jié)，從毛發(fā)到眼睛到耳朵，然后舉一反三得去判斷一張它從沒見過的照片是貓貓還是狗狗。

而無(wú)監(jiān)督學(xué)習(xí)認(rèn)為機(jī)器要去自己摸索，自己發(fā)現(xiàn)規(guī)律。人的經(jīng)驗(yàn)或許能幫助機(jī)器掌握智能，但或許人的經(jīng)驗(yàn)是有缺陷的，不如讓機(jī)器自己發(fā)現(xiàn)新的，更好的規(guī)律。人的經(jīng)驗(yàn)就放一邊吧。

<3>

強(qiáng)化學(xué)習(xí)是無(wú)監(jiān)督學(xué)習(xí)的一種。強(qiáng)化學(xué)習(xí)是一種模仿人類學(xué)習(xí)方式的模型，它的基本想法是：要是機(jī)器得到了好的結(jié)果就能得到獎(jiǎng)勵(lì)，要是得到差的結(jié)果就得到懲罰。

舉個(gè)例子，訓(xùn)練一只汪星人聽懂人的命令。開始主人對(duì)小汪下了“坐下”的指令，可小汪不知道什么意思，搖了搖尾巴；然后主人又下了一次“坐下”的指令，小汪還是聽不懂啊，又搖了搖尾巴，主人生氣了，踢了小汪一腳；第三次，主人又對(duì)小汪下了“坐下”的命令，小汪也著急了，急得一屁股坐在了地上。哈哈，然而主人很高興，小汪能聽懂了，于是賞了小汪一根骨頭。小汪啃著骨頭也恍然大悟了，主人說(shuō)“坐下”的時(shí)候，自己坐下就會(huì)有骨頭吃，于是小汪就聽懂這個(gè)命令了。

我們來(lái)抽象一下上邊的例子就是強(qiáng)化學(xué)習(xí)了。強(qiáng)化學(xué)習(xí)有四個(gè)要素：

狀態(tài)（States）：例如小汪目前的狀態(tài)，是坐著，趴著，或是站著
動(dòng)作（Actions）：在每個(gè)狀態(tài)下，有什么行動(dòng)是容許的。例如小狗目前是趴著的，現(xiàn)在能采取的動(dòng)作有：站起來(lái)，坐起來(lái)或繼續(xù)趴著。
獎(jiǎng)勵(lì)（Rewards）：采取某個(gè)動(dòng)作后，能帶來(lái)的正面或負(fù)面的價(jià)值，也就是獎(jiǎng)勵(lì)或懲罰。例如小汪聽到“坐下”的命令，坐下了，主人就獎(jiǎng)勵(lì)它一跟骨頭，否則懲罰它踢一腳。
方案（Policy）：每個(gè)狀態(tài)下，該采取什么樣的行動(dòng)。比如小汪聽到“坐下”命令后，該怎么行動(dòng)。

實(shí)際的應(yīng)用場(chǎng)景中，并不像訓(xùn)練小汪那么容易，有如下的難點(diǎn)：

狀態(tài)很多，比如游戲中角色在的每一個(gè)位置都是一個(gè)狀態(tài)，同一位置因其周圍的環(huán)境變化也是多個(gè)狀態(tài)。
動(dòng)作多樣，比如游戲中的角色，可以向前后左右各個(gè)方向移動(dòng)，也可以釋放各種技能。
獎(jiǎng)勵(lì)延遲，當(dāng)角色采取一個(gè)行動(dòng)后，并不能馬上給它反饋—獎(jiǎng)勵(lì)或懲罰，往往需要很久之后，角色死亡或勝利了，才能反過頭來(lái)給它反饋。

強(qiáng)化學(xué)習(xí)概括起來(lái)就是，計(jì)算機(jī)在很多次的嘗試中，根據(jù)每次嘗試的獎(jiǎng)勵(lì)或懲罰反饋，逐漸的找到了一系列最好的動(dòng)作（Action）策略。歡迎同學(xué)們來(lái)跟我們一起學(xué)習(xí)具體的算法和程序?qū)崿F(xiàn)。同學(xué)們可以思考一下，如果是貪吃蛇游戲，狀態(tài)和動(dòng)作都有哪些？

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：飛揚(yáng)czqht0vrjl > 《人工智能》

舉報(bào)/認(rèn)領(lǐng)