以下內(nèi)容是對AutoML技術現(xiàn)狀與未來展望講座的總結(jié)。 1.機器學習定義
![]() 下圖很清楚明了的展示了機器學習所做的事情,不再贅述。 ![]() 2.AutoML技術回顧很多時候在某一領域使用機器學習得到了效果很好的模型,但是若要在另一個領域使用該模型則不一定適用,而且通常需要大量的專業(yè)知識。正是由于受到這樣的限制,所以才有了AutoML技術的發(fā)展。 2.1 AutoML研究的主要場景2.1.1 靜態(tài)閉環(huán)AutoMLa. 介紹第一個場景是靜態(tài)閉環(huán)AutoML,該場景是目前用的最多的場景。該場景是給定數(shù)據(jù)和度量標準之后,通過AutoML選擇出效果最好的模型。該過程沒有任何的人工干預,都是算法自動選擇的。 ![]() 下圖展示了機器學習的基本流程圖,可以看到主要有數(shù)據(jù)預處理、特征處理、模型訓練等過程,并且每個過程都包含多種方法。 ![]() b. 存在的問題而AutoML的本質(zhì)工作是將各個過程的方法進行選擇、組合、優(yōu)化。 但是AutoML存在如下問題:
![]() c. 解決辦法
該方法其實就是網(wǎng)格搜索,即將各種參數(shù)排列成矩陣的形式,然后使用 笛卡爾積() 將所有的組合可能遍歷一遍。 ![]() 該方法有兩個缺陷:
![]()
上面介紹的網(wǎng)格搜索和隨機搜索實現(xiàn)起來簡單,而且使用比較多,但是它們搜索起來比較盲目。 該方法是基于某種策略去產(chǎn)生一組可能的參數(shù)候選組合,然后對候選組合進行評估。評估之后我們可以得到反饋,基于這個反饋我們會進一步優(yōu)化搜索策略,以此迭代去解決優(yōu)化問題。 ![]() 這樣的一個優(yōu)化過程是一個黑盒函數(shù),學術界也叫做“零階優(yōu)化”,因為在這一過程中我們只能獲取函數(shù)值,無法獲取到它的導數(shù)信息。 具體的實現(xiàn)方法有如下四種:
![]() 如圖示,該方法也是通過采樣,評估,反饋等迭代操作來得到優(yōu)化結(jié)果,包含兩個重要部件:一是用什么樣的模型,而是采用什么樣的采樣策略。 而常用的優(yōu)化方法有兩種:貝葉斯優(yōu)化和 隨機坐標收縮。 貝葉斯優(yōu)化是被研究的最多的一種方法之一,而最常見的是采用高斯過程來建模。但是高斯過程在求解的時候需要一個三次方操作,所以當數(shù)據(jù)點特別多的時候計算效率是非常低下的。所以就有貝葉斯神經(jīng)網(wǎng)絡來解決復雜度問題。 另外,高斯過程要求參數(shù)必須是連續(xù)空間的,而且還有一些其他的限制,所以需要用到隨機森林來解決參數(shù)類型受限問題。 對應的參數(shù)選擇策略標準有:
![]() 貝葉斯模型存在一個致命的錯誤,那就是它依賴于很強的模型假設(表示我們對函數(shù)空間的認知)。 為了解決貝葉斯的缺點,有人提出可以通過分類的方式來解決,即將好的點和壞的點區(qū)分開來,而不是對模型進行假設,該方法就是隨機坐標收縮(RACOS, RAndomized Coordinate Shrinking)。 該方法采用的模型是使用框?qū)⒑玫狞c選中,壞的點在框外。而框需要滿足兩個條件:一是盡可能的隨機,而是框要盡可能的“瘦”,最瘦就是瘦成一條垂直于坐標軸的直線。 ![]()
該方法是指從一個點出發(fā),在它的鄰域內(nèi)進行搜索。 最常見的局部搜索方法是 爬山法。即尋找可能性最大的一個方向后,往該方向前進。該方法能夠收斂,但是可能會陷在局部最優(yōu)解或者停在比較平的地方。 為了解決陷在局部最優(yōu)問題,迭代式局部搜索應運而生。它的思想是在找到局部最優(yōu)點后,對局部最優(yōu)點有一些擾動,然后重新開始一輪局部搜索。 ![]()
該類方法相較于前兩種缺乏堅實的理論支撐,主要是根據(jù)對生物,自然界的觀察,去模擬一些生物或者自然現(xiàn)象,從而進行優(yōu)化。 ![]()
該方法是有一種殺雞用牛刀的感覺,因為強化學習自身的優(yōu)化就是一個比較大的問題。 ![]()
2.1.2 外部知識輔助AutoML該場景其實也是靜態(tài)場景,只不過該場景會從其他任務遷移一些已經(jīng)做過的知識來作為輔助。 ![]() ![]() ![]() 2.1.3 動態(tài)環(huán)境AutoML上面兩種場景都是靜態(tài)場景,而現(xiàn)實應用中每天的數(shù)據(jù)都是不斷產(chǎn)生的,任務度量也是不斷變化的,所以就有了動態(tài)環(huán)境AutoML。 例如常見的推薦系統(tǒng),每天有新用戶注冊,又有老用戶離開。并且用戶的喜好也不斷發(fā)生變化,這就是典型的動態(tài)場景。 ![]() 2.2 AutoML熱點研究方向AutoML熱點研究方向主要有兩個:效率和 泛化性 2.2.1 效率常見的提高效率的方法有如下:
![]() 2.2.2 泛化性還有一個研究熱點是訓練模型的泛化性。因為機器學習的本質(zhì)是希望所訓練得到的模型能夠?qū)Χ鄠€任務都有效,即在從未見過的樣本上也能表現(xiàn)優(yōu)秀。
以基于采樣的優(yōu)化為例,假設我們通過采樣得到了一些數(shù)據(jù)點,然后進行超參數(shù)評估。這個評估是怎么做的呢? 一般我們會從原數(shù)據(jù)集中選擇一部分數(shù)據(jù)作為驗證集,然后查看驗證集的效果如何。但是這個驗證集是否能代表未來的數(shù)據(jù)集呢?答案是不確定的。 所以有些工作就需要去研究怎么做更合理的評估。 我們知道AutoML是從眾多模型中選擇出在某一數(shù)據(jù)集上表現(xiàn)最好的一個作為最終的輸出模型,那么這就意味著其他的模型都浪費掉了。那些模型雖然表現(xiàn)不是最好的,但是可能也不差,而且可能在其他數(shù)據(jù)集上表現(xiàn)會更好。所以我們可以試著做集成學習,以此來提高泛化性。 ![]() 2.3 從理論角度看AutoML世上沒有免費的午餐。 有很多理論都證明不存在一種通用的算法能解決所有問題。 ![]() 2.4 AutoML應用視頻中主講人打了下廣告,介紹了由第四范式主辦的AutoML比賽。 ![]() 3. AutoML未來展望
未來展望一個大方向是算法效率的提升。而算法效率又分為時間復雜度和樣本復雜度。 時間復雜度很好理解,它主要是希望能夠?qū)θ鞒踢M行優(yōu)化,如下圖示,不再贅述。 樣本復雜度則是指降低收集樣本的成本等。因為收集高質(zhì)量的有標簽的樣本是很昂貴而且很困難的,所以可行的辦法是才用遷移學習來解決。周志華老師也提出了 學件的概念,即將以往訓練的 模型和對該模型的 歸約組合成學件,以供后續(xù)任務的使用。 ![]()
![]()
![]() |
|