日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

AutoML技術現(xiàn)狀與未來展望

 xxycskrp 2019-04-17

以下內(nèi)容是對AutoML技術現(xiàn)狀與未來展望講座的總結(jié)。

1.機器學習定義

  • 《西瓜書》中的直觀定義是:利用經(jīng)驗來改善系統(tǒng)的性能。(這里的經(jīng)驗一般是指數(shù)據(jù))

  • Mitchell在《Machine Learning》一書中的較為形式化的定義是一個程序通過給它一些數(shù)據(jù),它能夠提升在某個任務上的某種度量。(如下圖示)

下圖很清楚明了的展示了機器學習所做的事情,不再贅述。



2.AutoML技術回顧

很多時候在某一領域使用機器學習得到了效果很好的模型,但是若要在另一個領域使用該模型則不一定適用,而且通常需要大量的專業(yè)知識。正是由于受到這樣的限制,所以才有了AutoML技術的發(fā)展。

2.1 AutoML研究的主要場景

2.1.1 靜態(tài)閉環(huán)AutoML

a. 介紹

第一個場景是靜態(tài)閉環(huán)AutoML,該場景是目前用的最多的場景。該場景是給定數(shù)據(jù)和度量標準之后,通過AutoML選擇出效果最好的模型。該過程沒有任何的人工干預,都是算法自動選擇的。

下圖展示了機器學習的基本流程圖,可以看到主要有數(shù)據(jù)預處理、特征處理、模型訓練等過程,并且每個過程都包含多種方法。

b. 存在的問題

而AutoML的本質(zhì)工作是將各個過程的方法進行選擇、組合、優(yōu)化。

但是AutoML存在如下問題:

  • 由于我們通常并不知道所優(yōu)化的參數(shù)和預期效果之間是什么樣的顯示表達,所以 目標函數(shù)形式未知。
  • 由于可能的組合方式太多,所以 搜索空間巨大
  • 正是由于組合方式太多,而且每一個組合都需要從頭做數(shù)據(jù)預處理,特征處理,模型訓練等操作,所以 函數(shù)計算代價巨大

c. 解決辦法

  • 1.基礎搜索方法

該方法其實就是網(wǎng)格搜索,即將各種參數(shù)排列成矩陣的形式,然后使用 笛卡爾積(A×B=(x,y)|xAyB) 將所有的組合可能遍歷一遍。

該方法有兩個缺陷:

  • 隨著超參數(shù)的規(guī)模越來越大,組合的可能性會指數(shù)增加,從而導致計算量大大增加。
  • 有的參數(shù)重要,但是有的并不重要,但是網(wǎng)格搜索會無差別組合,所以在不重要參數(shù)上浪費大量時間和計算資源。所以通常會采用隨機搜索的方法來增加搜索效率,并且不會存在指數(shù)爆炸,組合爆炸的問題。
  • 2.基于采樣的方法

上面介紹的網(wǎng)格搜索和隨機搜索實現(xiàn)起來簡單,而且使用比較多,但是它們搜索起來比較盲目。
所以有了基于采樣的方法以期望避免搜索盲目。

該方法是基于某種策略去產(chǎn)生一組可能的參數(shù)候選組合,然后對候選組合進行評估。評估之后我們可以得到反饋,基于這個反饋我們會進一步優(yōu)化搜索策略,以此迭代去解決優(yōu)化問題。

這樣的一個優(yōu)化過程是一個黑盒函數(shù),學術界也叫做“零階優(yōu)化”,因為在這一過程中我們只能獲取函數(shù)值,無法獲取到它的導數(shù)信息。

具體的實現(xiàn)方法有如下四種:

  • 1) 基于模型的零階優(yōu)化

如圖示,該方法也是通過采樣,評估,反饋等迭代操作來得到優(yōu)化結(jié)果,包含兩個重要部件:一是用什么樣的模型,而是采用什么樣的采樣策略。

而常用的優(yōu)化方法有兩種:貝葉斯優(yōu)化隨機坐標收縮。

貝葉斯優(yōu)化是被研究的最多的一種方法之一,而最常見的是采用高斯過程來建模。但是高斯過程在求解的時候需要一個三次方操作,所以當數(shù)據(jù)點特別多的時候計算效率是非常低下的。所以就有貝葉斯神經(jīng)網(wǎng)絡來解決復雜度問題。

另外,高斯過程要求參數(shù)必須是連續(xù)空間的,而且還有一些其他的限制,所以需要用到隨機森林來解決參數(shù)類型受限問題。

對應的參數(shù)選擇策略標準有:

  • 選擇概率提升較大的點
  • 選擇提升幅度大的點
  • 通過交叉熵選擇
  • GP_UCB(不了解。。。)

貝葉斯模型存在一個致命的錯誤,那就是它依賴于很強的模型假設(表示我們對函數(shù)空間的認知)。

為了解決貝葉斯的缺點,有人提出可以通過分類的方式來解決,即將好的點和壞的點區(qū)分開來,而不是對模型進行假設,該方法就是隨機坐標收縮(RACOS, RAndomized Coordinate Shrinking)。

該方法采用的模型是使用框?qū)⒑玫狞c選中,壞的點在框外。而框需要滿足兩個條件:一是盡可能的隨機,而是框要盡可能的“瘦”,最瘦就是瘦成一條垂直于坐標軸的直線。

  • 2) 局部搜索

該方法是指從一個點出發(fā),在它的鄰域內(nèi)進行搜索。

最常見的局部搜索方法是 爬山法。即尋找可能性最大的一個方向后,往該方向前進。該方法能夠收斂,但是可能會陷在局部最優(yōu)解或者停在比較平的地方。

為了解決陷在局部最優(yōu)問題,迭代式局部搜索應運而生。它的思想是在找到局部最優(yōu)點后,對局部最優(yōu)點有一些擾動,然后重新開始一輪局部搜索。



  • 3) 啟發(fā)式算法

該類方法相較于前兩種缺乏堅實的理論支撐,主要是根據(jù)對生物,自然界的觀察,去模擬一些生物或者自然現(xiàn)象,從而進行優(yōu)化。

  • 4) 強化學習

該方法是有一種殺雞用牛刀的感覺,因為強化學習自身的優(yōu)化就是一個比較大的問題。

  • 3.基于梯度的方法

2.1.2 外部知識輔助AutoML

該場景其實也是靜態(tài)場景,只不過該場景會從其他任務遷移一些已經(jīng)做過的知識來作為輔助。

2.1.3 動態(tài)環(huán)境AutoML

上面兩種場景都是靜態(tài)場景,而現(xiàn)實應用中每天的數(shù)據(jù)都是不斷產(chǎn)生的,任務度量也是不斷變化的,所以就有了動態(tài)環(huán)境AutoML。

例如常見的推薦系統(tǒng),每天有新用戶注冊,又有老用戶離開。并且用戶的喜好也不斷發(fā)生變化,這就是典型的動態(tài)場景。



2.2 AutoML熱點研究方向

AutoML熱點研究方向主要有兩個:效率泛化性

2.2.1 效率

常見的提高效率的方法有如下:

  • 將串行的計算方式改成 同步并行或者 異步串行
  • 提前停止模型訓練,避免模型過擬合等現(xiàn)象的產(chǎn)生
  • 使用預訓練模型進行熱啟動
  • 混合優(yōu)化目標,即將計算代價和損失函數(shù)結(jié)合起來作為優(yōu)化目標

2.2.2 泛化性

還有一個研究熱點是訓練模型的泛化性。因為機器學習的本質(zhì)是希望所訓練得到的模型能夠?qū)Χ鄠€任務都有效,即在從未見過的樣本上也能表現(xiàn)優(yōu)秀。

  • 評估

以基于采樣的優(yōu)化為例,假設我們通過采樣得到了一些數(shù)據(jù)點,然后進行超參數(shù)評估。這個評估是怎么做的呢?

一般我們會從原數(shù)據(jù)集中選擇一部分數(shù)據(jù)作為驗證集,然后查看驗證集的效果如何。但是這個驗證集是否能代表未來的數(shù)據(jù)集呢?答案是不確定的。

所以有些工作就需要去研究怎么做更合理的評估。


我們知道AutoML是從眾多模型中選擇出在某一數(shù)據(jù)集上表現(xiàn)最好的一個作為最終的輸出模型,那么這就意味著其他的模型都浪費掉了。那些模型雖然表現(xiàn)不是最好的,但是可能也不差,而且可能在其他數(shù)據(jù)集上表現(xiàn)會更好。所以我們可以試著做集成學習,以此來提高泛化性。

2.3 從理論角度看AutoML

世上沒有免費的午餐。

有很多理論都證明不存在一種通用的算法能解決所有問題。

2.4 AutoML應用

視頻中主講人打了下廣告,介紹了由第四范式主辦的AutoML比賽。

3. AutoML未來展望

  • 算法效率的提升

未來展望一個大方向是算法效率的提升。而算法效率又分為時間復雜度和樣本復雜度。

時間復雜度很好理解,它主要是希望能夠?qū)θ鞒踢M行優(yōu)化,如下圖示,不再贅述。

樣本復雜度則是指降低收集樣本的成本等。因為收集高質(zhì)量的有標簽的樣本是很昂貴而且很困難的,所以可行的辦法是才用遷移學習來解決。周志華老師也提出了 學件的概念,即將以往訓練的 模型和對該模型的 歸約組合成學件,以供后續(xù)任務的使用。

  • 算法
  • AutoML理論


MARSGGBO?原創(chuàng)





2018-7-14



    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多