機(jī)器學(xué)習(xí)-第八章集成學(xué)習(xí)

落日下旳余暉 2018-05-02

展開全文

8.1 個體與集成

集成學(xué)習(xí)通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成任務(wù)，有時也被稱為多分類系統(tǒng)、基于委員會的學(xué)習(xí)等。

圖8.1顯示出集成學(xué)習(xí)的一般結(jié)構(gòu)：先產(chǎn)生一組“個體學(xué)習(xí)器”，再用某種策略將它們結(jié)合起來，個體學(xué)習(xí)器通常有一個現(xiàn)有的學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)產(chǎn)生，例如決策樹實驗法、BP神經(jīng)網(wǎng)絡(luò)算法等，此時集成中只包含同種類型的個體學(xué)習(xí)器，例如“決策樹集成”中全是決策樹，“神經(jīng)網(wǎng)絡(luò)集成”中全是神經(jīng)網(wǎng)絡(luò)，這樣的集成是“同質(zhì)”的。同質(zhì)集成中的個體學(xué)習(xí)器亦稱“基學(xué)習(xí)器”，相應(yīng)的學(xué)習(xí)算法稱為“基學(xué)習(xí)算法”。集成也可包含不同類型的個體學(xué)習(xí)器，例如同時包含決策樹和神經(jīng)網(wǎng)絡(luò)，這樣的集成是“異質(zhì)”的。異質(zhì)集成中的個體學(xué)習(xí)器由不同的學(xué)習(xí)算法生成，這時就不再是基學(xué)習(xí)算法；相應(yīng)的，個體學(xué)習(xí)器一般不稱為基學(xué)習(xí)器，常稱為“組件學(xué)習(xí)器”或直接稱為個體學(xué)習(xí)器。

圖8.1 集成學(xué)習(xí)示意圖

集成學(xué)期通過將多個學(xué)習(xí)器進(jìn)行結(jié)合，?？色@得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能，這對““弱學(xué)習(xí)器”尤為明顯，因此集成學(xué)習(xí)的很多理論研究都是針對弱學(xué)習(xí)器進(jìn)行的，而基學(xué)習(xí)器有時也被直接稱為弱學(xué)習(xí)器。但需要注意的是，雖然從理論上來說使用弱學(xué)習(xí)器集成足以獲得好的性能，但在實踐中出于種種考慮，例如希望使用較少的個體學(xué)習(xí)器，或是重用關(guān)于常見學(xué)習(xí)器的一些經(jīng)驗等，人們往往會使用比較強(qiáng)的學(xué)習(xí)器。

在一般經(jīng)驗中，如果把好壞不等的東西摻到一起，那么通常結(jié)果會是比最壞的要好一些，比最好的要壞一些。集成學(xué)習(xí)把多個學(xué)習(xí)器結(jié)合起來，如何能獲得比最好的單一學(xué)習(xí)器更好的性能呢？

要獲得好的集成個體學(xué)習(xí)器應(yīng)該“好而不同”，即個體學(xué)習(xí)器要有一定的“準(zhǔn)確性”、即學(xué)習(xí)器不能太壞，并且要有“多樣性”，即學(xué)習(xí)器間具有差異。

我們來做個簡單的分析，考慮二分類問題和真實函數(shù)f，假定基分類器的錯誤率為，即對每個基分類器有

假設(shè)集成通過簡單投票法結(jié)合T個基分類器，若有超過半數(shù)的基分類器正確，則集成分類就正確：

假設(shè)基分類器的錯誤率相互獨(dú)立，則由Hoeffding不等式可知，集成的錯誤率為

（Hoeffding不等式（https://www./articles/yyu2AnM））

上式顯示出，隨著集成中個體分類器數(shù)目T的增大，集成的錯誤率將指數(shù)級下降，最終趨向于零。

然而我們必須注意到，上面的分析有一個關(guān)鍵假設(shè)：基學(xué)習(xí)器的誤差相互獨(dú)立，在現(xiàn)實任務(wù)中，個體學(xué)習(xí)器是為解決同一個問題訓(xùn)練出來的，它們顯然不可能獨(dú)立，事實上，個體學(xué)習(xí)器的“準(zhǔn)確性”和“多樣性”本身就存在沖突。一般的，準(zhǔn)確性很高之后，要增加多樣性就需要犧牲準(zhǔn)確性。事實上，如何產(chǎn)生并結(jié)合“好而不同”的個體學(xué)習(xí)器，恰是集成學(xué)習(xí)研究的核心。

根據(jù)個體學(xué)習(xí)器的生成方式，目前的集成學(xué)習(xí)方法大致可分為兩大類，即個體學(xué)習(xí)器間存在強(qiáng)依賴關(guān)系、必須串行生成的序列化方法，以及學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系、可同時生成的并行化方法；前者的代表是Boosting，后者的代表是Bagging和“隨機(jī)森林”（Random Forest）

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：落日下旳余暉 > 《神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)》

舉報/認(rèn)領(lǐng)