行業(yè)前沿：AutoML會成為機器學(xué)習(xí)世界的主流嗎？

flyk0tcfb46p9f 2019-02-24

展開全文

自動化機器學(xué)習(xí)（AutoML）如今已經(jīng)成為一個相當有趣且重要的話題。本文將對AutoML做一個簡要的解釋，論證它的合理性和可用性，介紹幾個關(guān)于AutoML的現(xiàn)代工具，并討論AutoML的未來和方向。

什么是自動化機器學(xué)習(xí)？

自動化機器學(xué)習(xí)并不是自動化數(shù)據(jù)科學(xué)。雖然兩者存在重疊，但是機器學(xué)習(xí)只是數(shù)據(jù)科學(xué)工具包中眾多工具之一，它的使用實際上并沒有考慮到所有數(shù)據(jù)科學(xué)任務(wù)。例如，如果預(yù)測是數(shù)據(jù)科學(xué)任務(wù)的一部分，那么機器學(xué)習(xí)將是一個有用的組件；但是，機器學(xué)習(xí)可能根本不適用于描述性分析任務(wù)。

即使對于預(yù)測性任務(wù)，數(shù)據(jù)科學(xué)也比實際的預(yù)測性建模包含更多的內(nèi)容。數(shù)據(jù)科學(xué)家Sandro Saita在討論AutoML和自動化數(shù)據(jù)科學(xué)之間的潛在混淆時，曾說過：

這種誤解來自于整個數(shù)據(jù)科學(xué)過程（例如CRISP-DM）與數(shù)據(jù)準備（特征提取等）子任務(wù)以及建模（算法選擇、超參數(shù)調(diào)整等）之間的混淆，我稱之為機器學(xué)習(xí)…以及我稱之為機器學(xué)習(xí)的建模（算法選擇、超參數(shù)調(diào)整等）之間的混淆。當你閱讀有關(guān)自動化數(shù)據(jù)科學(xué)和數(shù)據(jù)科學(xué)競賽工具的新聞時，沒有行業(yè)經(jīng)驗的人可能會感到困惑，認為數(shù)據(jù)科學(xué)只是建模，可以完全自動化。

此外，數(shù)據(jù)科學(xué)家和自動化機器學(xué)習(xí)的領(lǐng)先擁護者Randy Olson指出，有效的機器學(xué)習(xí)設(shè)計要求我們：

· 不斷地調(diào)整模型的超參數(shù)

· 不斷地嘗試多種模型

· 不斷地為數(shù)據(jù)探索特征表示法

考慮到以上所有因素，如果我們把AutoML看作是算法選擇、超參數(shù)調(diào)整、迭代建模和模型評估的任務(wù)，我們就可以定義AutoML是什么，但不會有完全一致的意見，不過，這足以讓我們順利地開始進行下一步工作了。

為什么需要它？

雖然我們已經(jīng)完成了定義概念的工作，但AutoML有什么作用呢？讓我們來看看為什么機器學(xué)習(xí)很困難。

人工智能研究員和斯坦福大學(xué)在讀博士S.ZaydEnam在一篇題為“為什么機器學(xué)習(xí)很難”的博客文章中寫道：

機器學(xué)習(xí)仍然比較難。毫無疑問，通過研究推進機器學(xué)習(xí)算法的科學(xué)是困難的。它需要創(chuàng)造性、實驗性和韌性。即便為新的應(yīng)用程序良好運行實現(xiàn)了現(xiàn)有的算法和模型，機器學(xué)習(xí)仍然是一個難題。

注意，雖然Enam主要指的是機器學(xué)習(xí)研究，但也涉及到用例中現(xiàn)有算法的實現(xiàn)。

Enam繼續(xù)闡述機器學(xué)習(xí)的困難，并重點介紹算法的性質(zhì)：這個困難的一個方面涉及到建立一種直覺，能夠正確選擇優(yōu)先使用哪種工具來解決問題。這需要了解可用的算法和模型，以及每個算法和模型的權(quán)衡和約束。……困難在于機器學(xué)習(xí)是一個基本上很難調(diào)試的問題。在兩種情況下會進行機器調(diào)試：1）算法不起作用，2）算法工作得不好?！苌儆幸凰惴ㄒ淮尉推鹱饔玫?，因此大多數(shù)時間都花在構(gòu)建算法上。

然后，Enam從算法研究的角度對這個框架問題進行了詳細的闡述。如果一個算法不起作用，或者做得不夠好，并且選擇和重新編譯的過程是迭代的，這就可以使用自動化，因此可以使用自動化機器學(xué)習(xí)。

之前曾有人試圖捕捉AutoML的本質(zhì)，如下所示：

如果，正如Sebastian Raschka所描述的那樣，計算機編程是關(guān)于自動化的，而機器學(xué)習(xí)是關(guān)于自動化的，那么自動化機器學(xué)習(xí)就是“自動化自動化自動化的自動化”。這里：編程通過管理死記硬背的任務(wù)來減輕我們的負擔；機器學(xué)習(xí)允許計算機學(xué)習(xí)如何最好地執(zhí)行任務(wù)。自動化機器學(xué)習(xí)允許計算機學(xué)習(xí)如何優(yōu)化學(xué)習(xí)如何執(zhí)行這些死記硬背的操作結(jié)果。這是一個非常強大的想法；雖然我們以前需要擔心參數(shù)和超參數(shù)的調(diào)整，但是自動化機器學(xué)習(xí)系統(tǒng)可以通過多種不同的可能方法來學(xué)習(xí)優(yōu)化這些參數(shù)和超參數(shù)的最佳方法。

AutoML的基本原理源于這樣一個想法：如果必須使用各種算法和許多不同的超參數(shù)配置來構(gòu)建機器學(xué)習(xí)模型，那么這個模型構(gòu)建可以自動化，模型性能和精度的比較也可以自動化。

很簡單，對吧？

比較不同的自動化機器學(xué)習(xí)工具

既然我們了解了什么是AutoML，以及它的作用，我們?nèi)绾螌崿F(xiàn)呢？下面是一些當代Python AutoML工具的概述和比較，這些工具采用不同的方法，試圖實現(xiàn)與機器學(xué)習(xí)過程自動化相同的目標。

Auto-sklearn

Auto sklearn是“一個自動化機器學(xué)習(xí)工具包和一個scikit-learn評估工具的替代品”，它也恰好是kdruggets最近的自動化數(shù)據(jù)科學(xué)和機器學(xué)習(xí)博客競賽的贏家。

auto-sklearn使機器學(xué)習(xí)用戶從算法選擇和超參數(shù)調(diào)整中解放出來。它利用了貝葉斯優(yōu)化、元學(xué)習(xí)和集成構(gòu)造的最新優(yōu)勢。

正如上述，auto-sklearn通過貝葉斯優(yōu)化來執(zhí)行超參數(shù)優(yōu)化，然后重復(fù)以下步驟：

· 建立概率模型，以捕捉超參數(shù)設(shè)置與其性能之間的關(guān)系。

· 使用該模型選擇有用的超參數(shù)設(shè)置，然后通過權(quán)衡勘探（在模型不確定的部分空間中搜索）和開發(fā)（聚焦于預(yù)計性能良好的部分空間）來嘗試下一步。

· 使用這些超參數(shù)設(shè)置運行機器學(xué)習(xí)算法。

對該過程的進一步解釋如下：

這一過程可以概括為聯(lián)合選擇算法、預(yù)處理方法及其超參數(shù)：分類器/回歸器和預(yù)處理方法的選擇是頂級的、分類的超參數(shù)，并且根據(jù)它們的設(shè)置，所選方法的超參數(shù)變靈活。然后，可以使用處理這種高維條件空間的貝葉斯優(yōu)化方法搜索組合空間；使用基于隨機森林的SMAC，這已被證明對這種情況最有效。

就實用性而言，由于Auto-sklearn是scikit-learn估算器的替代品，因此需要使用scikit learn的功能性安裝。Auto-sklearn還支持通過共享文件系統(tǒng)上的數(shù)據(jù)共享來并行執(zhí)行，并且可以利用Scikit-Learn的模型持久性。根據(jù)作者的觀點，有效地使用Auto-sklearn替換估計量需要以下4行代碼，以便獲得機器學(xué)習(xí)pipeline：

import autosklearn.classification

cls = autosklearn.classification.AutoSklearnClassifier()

cls.fit(X_train, y_train)

y_hat = cls.predict(X_test)

使用mnist數(shù)據(jù)集的auto sklearn的更穩(wěn)定示例如下：

import autosklearn.classificationimport sklearn.cross_validationimport sklearn.datasetsimport sklearn.metrics

digits = sklearn.datasets.load_digits()

X = digits.data

y = digits.target

X_train, X_test, y_train, y_test = sklearn.cross_validation.train_test_split(X, y, random_state=1)

automl = autosklearn.classification.AutoSklearnClassifier()

automl.fit(X_train, y_train)

y_hat = automl.predict(X_test)

print('Accuracy score', sklearn.metrics.accuracy_score(y_test, y_hat))

另外值得注意的是，Auto Sklearn贏得了Chalearn AutoML挑戰(zhàn)賽的Auto和Tweakaton賽道。Auto-sklearn可在其官方Github存儲庫（https://github.com/automl/auto-sklearn）中獲得。

TPOT

TPOT被“推銷”為“你的數(shù)據(jù)科學(xué)助手”（請注意，它不是“你的數(shù)據(jù)科學(xué)替代品”）。它是一個python工具，“使用基因編程自動創(chuàng)建和優(yōu)化機器學(xué)習(xí)pipeline”。TPOT和auto-sklearn一樣，與scikit-learn一起工作，將自己描述為scikit-learn包裝器。

正如本文前面所提到的，2個突出顯示的項目使用不同的方法來實現(xiàn)類似的目標。雖然這兩個項目都是開源的，用python編寫，旨在通過AutoML簡化機器學(xué)習(xí)過程，但與使用貝葉斯優(yōu)化的auto-sklearn相比，TPOT的方法是基于遺傳編程的。

然而，雖然方法不同，但結(jié)果是相同的：自動超參數(shù)選擇，用各種算法建模，以及探索許多特征表示，都會實現(xiàn)迭代模型構(gòu)建和模型評估。

TPOT的一個好處是，它以scikit學(xué)習(xí)pipeline的形式，為性能最佳的模型生成可運行的獨立python代碼。然后，可以修改或檢查該代碼，以獲得更多的洞察力，從而有效地充當起點，而不是僅僅作為最終產(chǎn)品。

TPOT在MNIST數(shù)據(jù)上運行的示例如下：

from tpot import TPOTClassifierfrom sklearn.datasets import load_digitsfrom sklearn.model_selection import train_test_split

digits = load_digits()

X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, train_size=0.75, test_size=0.25)

tpot = TPOTClassifier(generations=5, population_size=20, verbosity=2)

tpot.fit(X_train, y_train)

print(tpot.score(X_test, y_test))

tpot.export('tpot-mnist-pipeline.py')

本次運行的結(jié)果是一條達到98%測試精度的pipeline，同時將所述pipeline的python代碼導(dǎo)出到tpot-mnist-pipeline.py文件，如下所示：

import numpy as np

from sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.pipeline import make_pipeline

# NOTE: Make sure that the class is labeled 'class' in the data file

tpot_data = np.recfromcsv('PATH/TO/DATA/FILE', delimiter='COLUMN_SEPARATOR')

features = tpot_data.view((np.float64, len(tpot_data.dtype.names)))

features = np.delete(features, tpot_data.dtype.names.index('class'), axis=1)

training_features, testing_features, training_classes, testing_classes = train_test_split(features, tpot_data['class'], random_state=42)

exported_pipeline = make_pipeline(

KNeighborsClassifier(n_neighbors=3, weights='uniform'))

exported_pipeline.fit(training_features, training_classes)

results = exported_pipeline.predict(testing_features)

TPOT可以通過其官方Github報告獲得。

當然，以上不是唯一可用的AutoML工具。還有Hyperopt（Hyperopt- sklearn）、Auto-WEKA和Spearmint?？梢灶A(yù)計的是，在接下來的幾年里，會有許多其他的項目產(chǎn)生，包括研究和專于工業(yè)的項目。

自動化機器學(xué)習(xí)的未來

AutoML從此去向何方？

自動化機器學(xué)習(xí)就其本身而言將會漸漸地變得十分重要。對局外人來說，自動化機器學(xué)習(xí)可能不像深度神經(jīng)網(wǎng)絡(luò)那么性感，它將開始在ML、AI和數(shù)據(jù)科學(xué)領(lǐng)域產(chǎn)生深遠的影響。

Randy Olson在最近的一次采訪中詳細地提到了以下幾點：

在不久的將來，自動機器學(xué)習(xí)（automl）會替代機器學(xué)習(xí)模型構(gòu)建過程：一旦數(shù)據(jù)集采用（相對）干凈的格式，AutoMlL系統(tǒng)將能夠設(shè)計和優(yōu)化機器學(xué)習(xí)pipeline，速度超過99%的人?！欢?，我可以自信地預(yù)測AutoML系統(tǒng)將成為機器學(xué)習(xí)世界的主流……

但是AutoML能否取代數(shù)據(jù)庫科學(xué)家？Randy繼續(xù)說到：

我不認為AutoML的目的是取代數(shù)據(jù)科學(xué)家，就像智能代碼自動完成工具而不會取代計算機程序員一樣。相反，對我來說，automl的目的是讓數(shù)據(jù)科學(xué)家從重復(fù)和耗時的任務(wù)（例如，機器學(xué)習(xí)ppipeline設(shè)計和超參數(shù)優(yōu)化）中解脫出來，這樣他們就可以更好地將時間花在更難自動化的任務(wù)上。

他的觀點得到了Auto-sklearn開發(fā)者的認同：

自動化機器學(xué)習(xí)的所有方法都是為了支持數(shù)據(jù)科學(xué)家而不是代替他們。這樣的方法可以使數(shù)據(jù)科學(xué)家擺脫那些機器更好地解決棘手而復(fù)雜的任務(wù)（如超參數(shù)優(yōu)化）。但是分析和得出結(jié)論仍然需要由人類專家來完成——特別是那些了解應(yīng)用領(lǐng)域的數(shù)據(jù)科學(xué)家仍然非常重要。

所以這聽起來很令人鼓舞：數(shù)據(jù)科學(xué)家不會被取代，且AutoML可以幫助完成工作。這并不是說AutoML已經(jīng)完善了。當被問及是否可以做出任何改進時，Auto-sklearn小組說：

雖然有幾種方法可以調(diào)整機器學(xué)習(xí)pipeline的超參數(shù)，但到目前為止，關(guān)于新的pipeline構(gòu)建塊方面的工作很少。自動sklearn以固定順序使用一組預(yù)定義的預(yù)處理器和分類器。用有效的方法來設(shè)計新的pipeline是有益的。當然，我們可以繼續(xù)這一思路，并嘗試像最近幾篇論文中所做的那樣自動發(fā)現(xiàn)新算法，例如通過梯度下降來學(xué)習(xí)梯度下降。

AutoML的未來究竟是什么？很難確定。然而，毫無疑問，它正在走向某個地方，而且速度可能很快。雖然自動化機器學(xué)習(xí)的概念可能不是所有數(shù)據(jù)科學(xué)家目前都熟悉，但現(xiàn)在似乎是深入了解的好時機。畢竟，如果你能更早就開始了解AutoML的好處，并在技術(shù)浪潮中乘風破浪，你不僅要在不確定的未來努力確保你的工作，你還要學(xué)習(xí)如何利用同樣的技術(shù)來幫助你現(xiàn)在更好地完成工作。