日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

強(qiáng)化學(xué)習(xí)之旅,AI最熱門(mén)的話題

 taotao_2016 2020-05-05

強(qiáng)化學(xué)習(xí)之旅,AI最熱門(mén)的話題

> Images from Unsplash.

以及如何擊敗監(jiān)督學(xué)習(xí)

人工智能AlphaGo成為全球頂級(jí)圍棋選手。

Google的搜索引擎每天處理54億次搜索,并且經(jīng)過(guò)優(yōu)化,可以為搜索創(chuàng)造最佳結(jié)果。

YouTube根據(jù)您當(dāng)前的興趣查找推薦視頻的最佳字符串,以吸引您。

以下是什么共同點(diǎn)?

它們都是通過(guò)強(qiáng)化學(xué)習(xí)來(lái)完成的,強(qiáng)化學(xué)習(xí)是AI中最熱門(mén)的話題。

本文將介紹強(qiáng)化學(xué)習(xí)-適用于機(jī)器學(xué)習(xí),強(qiáng)化學(xué)習(xí)術(shù)語(yǔ)和類比,多帶問(wèn)題和解決方案,企業(yè)為何偏愛(ài)監(jiān)督學(xué)習(xí)以及其在商業(yè)中的應(yīng)用。

機(jī)器學(xué)習(xí)曾經(jīng)分為兩類-有監(jiān)督的學(xué)習(xí)和無(wú)監(jiān)督的學(xué)習(xí)。

監(jiān)督學(xué)習(xí)是具有一組特征或預(yù)測(cè)變量x?,x?,…,x?和目標(biāo)變量y的數(shù)據(jù)。 通常,監(jiān)督學(xué)習(xí)的目標(biāo)是找到特征與目標(biāo)之間的關(guān)系,也許是預(yù)測(cè)目標(biāo)。 這可用于諸如圖像識(shí)別(圖像像素為x且圖像標(biāo)簽為y)或房屋價(jià)值估算(如浴室數(shù)量,床位為x且房屋價(jià)格為y)之類的任務(wù)中。

強(qiáng)化學(xué)習(xí)之旅,AI最熱門(mén)的話題

無(wú)監(jiān)督學(xué)習(xí)是僅具有一組特征x而沒(méi)有目標(biāo)變量y的數(shù)據(jù)。 此數(shù)據(jù)通常用于諸如聚類(在多維空間內(nèi)找到一組數(shù)據(jù)點(diǎn))或異常檢測(cè)(這是從數(shù)據(jù)中尋找異常值的過(guò)程)之類的任務(wù)。 無(wú)監(jiān)督學(xué)習(xí)可用于客戶細(xì)分,用于為特定類型的客戶量身定制內(nèi)容或營(yíng)銷策略的業(yè)務(wù)策略,或用于欺詐檢測(cè)(例如用于檢測(cè)欺詐性信用卡交易)的應(yīng)用。

強(qiáng)化學(xué)習(xí)之旅,AI最熱門(mén)的話題

最近,第三個(gè)兄弟姐妹進(jìn)入了機(jī)器學(xué)習(xí)社區(qū):強(qiáng)化學(xué)習(xí)。 機(jī)器學(xué)習(xí)的這一領(lǐng)域可以說(shuō)是該領(lǐng)域三個(gè)領(lǐng)域中最適合企業(yè)應(yīng)用的領(lǐng)域。 由于商業(yè)和公司利益推動(dòng)研究的速度比任何學(xué)術(shù)機(jī)構(gòu)都快,因此強(qiáng)化學(xué)習(xí)的發(fā)展正在非常迅速地加速。

強(qiáng)化學(xué)習(xí)可以被視為訓(xùn)練狗的人的特技。 由于狗不了解我們?nèi)祟愊M麄冏鍪裁?,因此我們讓他們嘗試幾種技巧,并在狗的反應(yīng)正確的前提下給他們一種獎(jiǎng)勵(lì)。 通過(guò)重復(fù)重復(fù)此過(guò)程,狗會(huì)學(xué)會(huì)以最大程度獲得治療機(jī)會(huì)的方式做出反應(yīng)。 這完全類似于人類教計(jì)算機(jī)執(zhí)行某項(xiàng)操作(例如玩游戲)。 這就是'強(qiáng)化'這個(gè)名字的來(lái)歷—該模型具有反復(fù)強(qiáng)化的積極作用,因此最終幾乎總是以某種方式獲得回報(bào)。

用強(qiáng)化學(xué)習(xí)術(shù)語(yǔ)重新解釋人與狗的類比:

· 狗是暴露于環(huán)境的媒介。

· 狗選擇要進(jìn)入的狀態(tài),可能是玩死,奔跑,跳躍等。

· 代理通過(guò)執(zhí)行從一種狀態(tài)變?yōu)榱硪环N狀態(tài)的動(dòng)作來(lái)做出反應(yīng)。

· 在采取行動(dòng)上的改變之后,對(duì)坐席給予獎(jiǎng)勵(lì)或懲罰。

· 該策略是模型用來(lái)選擇動(dòng)作的策略,以尋找可優(yōu)化獎(jiǎng)勵(lì)機(jī)會(huì)的反應(yīng)。

換句話說(shuō),代理通過(guò)輸入動(dòng)作并接收新的狀態(tài)和潛在的回報(bào)來(lái)與其環(huán)境進(jìn)行交互。

強(qiáng)化學(xué)習(xí)之旅,AI最熱門(mén)的話題

主體和環(huán)境在強(qiáng)化學(xué)習(xí)算法中起著核心作用。 環(huán)境是代理人賴以生存并試圖生存的世界。以下是我們正在創(chuàng)建的虛擬世界的正式定義:

· 狀態(tài)。 國(guó)家是對(duì)世界的完整描述。 世界上沒(méi)有任何信息被隱藏。 它可以是位置,常數(shù)或動(dòng)態(tài)值。 這些狀態(tài)記錄在數(shù)組,矩陣或高階張量中。

· 行動(dòng)。 動(dòng)作基于環(huán)境-不同的環(huán)境導(dǎo)致基于代理的動(dòng)作也不同。 代理的一組有效動(dòng)作記錄在一個(gè)稱為動(dòng)作空間的空間中,通常數(shù)量有限。

· 環(huán)境。 這是代理人生活和互動(dòng)的地方。 不同類型的環(huán)境具有不同的獎(jiǎng)勵(lì)和政策。

· 獎(jiǎng)勵(lì)和回報(bào)。 獎(jiǎng)勵(lì)函數(shù)r(x)的連續(xù)跟蹤可指導(dǎo)強(qiáng)化學(xué)習(xí),優(yōu)化算法。 它的輸出取決于當(dāng)前的世界狀態(tài),最近的動(dòng)作以及下一個(gè)世界狀態(tài)。

· 策略:策略也稱為代理的'頭腦'或'思想',是代理用來(lái)選擇下一個(gè)操作的規(guī)則。

這五個(gè)概念構(gòu)成了一個(gè)世界和個(gè)人對(duì)其的探索。 在數(shù)學(xué)上,它用馬爾可夫決策過(guò)程(MDP)表示,該過(guò)程由元組組成:

強(qiáng)化學(xué)習(xí)之旅,AI最熱門(mén)的話題

· S是一組有限的狀態(tài)。

· A是一組有限的動(dòng)作。

· P是狀態(tài)轉(zhuǎn)移概率矩陣,它表示轉(zhuǎn)移到另一個(gè)特定狀態(tài)的概率。

· R是獎(jiǎng)勵(lì)函數(shù)。

· γ是折現(xiàn)因子γ∈[0,1],它確定代理'計(jì)劃'的數(shù)量,或者關(guān)心將來(lái)的獎(jiǎng)勵(lì)是否也與前面的獎(jiǎng)勵(lì)相對(duì)。

強(qiáng)化學(xué)習(xí)之旅,AI最熱門(mén)的話題

> Example MDP. Source: StackAbuse

從簡(jiǎn)單的國(guó)際象棋游戲到壓倒性的高級(jí)視頻游戲,幾乎每個(gè)現(xiàn)實(shí)世界都可以用馬爾可夫決策過(guò)程來(lái)表示。

強(qiáng)化學(xué)習(xí)中最著名的問(wèn)題之一是多臂匪,有時(shí)也稱為N臂匪或K臂匪。 在此問(wèn)題中,一個(gè)人必須在多項(xiàng)行動(dòng)之間做出選擇-老虎機(jī),'單臂匪徒'-每項(xiàng)行動(dòng)的支出都是未知的。 問(wèn)題的目標(biāo)是確定通過(guò)一系列選擇實(shí)現(xiàn)的最佳或最有利可圖的結(jié)果。 在實(shí)驗(yàn)開(kāi)始時(shí),當(dāng)賠率和賠付額未知時(shí),賭徒必須確定要拉的機(jī)器,順序和次數(shù)。

強(qiáng)化學(xué)習(xí)之旅,AI最熱門(mén)的話題

這個(gè)問(wèn)題是一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題,因?yàn)橥婕冶仨毑粩嗟嘏c其環(huán)境互動(dòng),并在探索環(huán)境時(shí)改變其策略以優(yōu)化獎(jiǎng)勵(lì)功能。

有很多算法可以接近多臂匪。

Epsilon-Greedy算法在探索與開(kāi)發(fā)之間取得了平衡-'貪婪'實(shí)驗(yàn)總是會(huì)以已知的最高支出拉動(dòng)杠桿,除非采取隨機(jī)行動(dòng)。 隨機(jī)選擇的手臂被拉出時(shí)間的一部分ε,而其他1-ε的時(shí)間被拉出已知支出最高的手臂。

最高可信度邊界策略基于面對(duì)不確定性原則的樂(lè)觀主義,并基于可觀察的數(shù)據(jù),假設(shè)每個(gè)分支的未知平均收益將盡可能高。

湯普森采樣(Thompson Sampling)是另一種策略,它根據(jù)給定杠桿成為最佳杠桿的實(shí)際概率來(lái)拉多次。

強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合已顯示出巨大的潛力,可以將深度學(xué)習(xí)的神經(jīng)直覺(jué)和力量與強(qiáng)化學(xué)習(xí)的指導(dǎo)框架聯(lián)系起來(lái)。 例如,本文介紹了AlphaGo算法如何成為世界上最好的Go播放器,它被認(rèn)為是人類最復(fù)雜的游戲。

除了RL參與游戲之外,強(qiáng)化學(xué)習(xí)在行業(yè)中的應(yīng)用還遠(yuǎn)遠(yuǎn)不夠。 它的適應(yīng)性和不斷發(fā)展的系統(tǒng)使其處于有監(jiān)督和無(wú)監(jiān)督的學(xué)習(xí)方法之上,其結(jié)果在企業(yè)使用大數(shù)據(jù)時(shí)產(chǎn)生的成本很高,并且只能給出一個(gè)靜態(tài)輸出,這意味著隨著新數(shù)據(jù)的傳入,該算法需要全部進(jìn)行訓(xùn)練。 再次。

RL在機(jī)器人技術(shù)和自動(dòng)化領(lǐng)域(尤其是在自動(dòng)駕駛汽車(chē)中)具有極大的希望。 這些是在工作中進(jìn)行強(qiáng)化學(xué)習(xí)的特別出色的例子,因?yàn)樵撥浖踔量梢栽谕度肷a(chǎn)之前就在數(shù)百萬(wàn)英里的模擬道路上進(jìn)行培訓(xùn)。 在這種情況下,由于道路法規(guī)和情況不斷更新,強(qiáng)化學(xué)習(xí)模型的效果要比單純的監(jiān)督學(xué)習(xí)模型更好,以預(yù)測(cè)下一步該怎么做。 有監(jiān)督的學(xué)習(xí)模型將需要完全更新,而強(qiáng)化學(xué)習(xí)將輕松采用新法則。

其他應(yīng)用程序包括:

· 相機(jī)調(diào)整。 最佳相機(jī)拍攝是什么? RL模型需要根據(jù)用戶的喜好進(jìn)行調(diào)整,并可以根據(jù)傳入的信息進(jìn)行更新(如果用戶使用了自動(dòng)調(diào)整的設(shè)置,則可獲得獎(jiǎng)勵(lì);如果調(diào)整了自動(dòng)調(diào)整的設(shè)置,則可獲得罰款)。

· 倉(cāng)庫(kù)運(yùn)營(yíng)優(yōu)化。 由于倉(cāng)庫(kù)庫(kù)存根據(jù)需求,庫(kù)存,法規(guī)和其他因素而不斷變化,因此,適應(yīng)性強(qiáng)的學(xué)習(xí)算法可以更好地操作倉(cāng)庫(kù)操作。

強(qiáng)化學(xué)習(xí)之旅,AI最熱門(mén)的話題

> Amazon Warehouse robots finding the most optimal path. Source

· 推薦系統(tǒng)。 當(dāng)用戶輸入有關(guān)歌曲或電影的更多信息時(shí),系統(tǒng)會(huì)獲得有關(guān)用戶偏好的更多反饋。 在這種情況下,使用強(qiáng)化學(xué)習(xí)比監(jiān)督學(xué)習(xí)系統(tǒng)更好,因?yàn)橛脩舻钠肺犊偸窃谧兓?監(jiān)督學(xué)習(xí)系統(tǒng)假定您去年評(píng)價(jià)很高的電影仍然會(huì)吸引您,但強(qiáng)化學(xué)習(xí)系統(tǒng)會(huì)證明這一點(diǎn)。

關(guān)鍵點(diǎn)

· 強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的三個(gè)子集之一,其他子集是監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。

· 強(qiáng)化學(xué)習(xí)系統(tǒng)由環(huán)境和代理組成,代理可以根據(jù)策略在特定狀態(tài)之間進(jìn)行某些轉(zhuǎn)換。 每個(gè)動(dòng)作都可能得到獎(jiǎng)勵(lì)或懲罰。

· 強(qiáng)化學(xué)習(xí)系統(tǒng)是有益的,因?yàn)樗鼈儽壤缬斜O(jiān)督的學(xué)習(xí)更具適應(yīng)性。

謝謝閱讀! 如果喜歡,請(qǐng)隨時(shí)投票。

(本文翻譯自Andre Ye的文章《A Tour of Reinforcement Learning, the Hottest Topic in AI》,參考:https:///dataseries/a-tour-of-reinforcement-learning-the-hottest-topic-in-ai-3822de3a0936)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多