8.1 個體與集成 集成學(xué)習(xí)通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成任務(wù),有時也被稱為多分類系統(tǒng)、基于委員會的學(xué)習(xí)等。 圖8.1顯示出集成學(xué)習(xí)的一般結(jié)構(gòu):先產(chǎn)生一組“個體學(xué)習(xí)器”,再用某種策略將它們結(jié)合起來,個體學(xué)習(xí)器通常有一個現(xiàn)有的學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)產(chǎn)生,例如決策樹實驗法、BP神經(jīng)網(wǎng)絡(luò)算法等,此時集成中只包含同種類型的個體學(xué)習(xí)器,例如“決策樹集成”中全是決策樹,“神經(jīng)網(wǎng)絡(luò)集成”中全是神經(jīng)網(wǎng)絡(luò),這樣的集成是“同質(zhì)”的。同質(zhì)集成中的個體學(xué)習(xí)器亦稱“基學(xué)習(xí)器”,相應(yīng)的學(xué)習(xí)算法稱為“基學(xué)習(xí)算法”。集成也可包含不同類型的個體學(xué)習(xí)器,例如同時包含決策樹和神經(jīng)網(wǎng)絡(luò),這樣的集成是“異質(zhì)”的。異質(zhì)集成中的個體學(xué)習(xí)器由不同的學(xué)習(xí)算法生成,這時就不再是基學(xué)習(xí)算法;相應(yīng)的,個體學(xué)習(xí)器一般不稱為基學(xué)習(xí)器,常稱為“組件學(xué)習(xí)器”或直接稱為個體學(xué)習(xí)器。 圖8.1 集成學(xué)習(xí)示意圖 集成學(xué)期通過將多個學(xué)習(xí)器進(jìn)行結(jié)合,??色@得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能,這對““弱學(xué)習(xí)器”尤為明顯,因此集成學(xué)習(xí)的很多理論研究都是針對弱學(xué)習(xí)器進(jìn)行的,而基學(xué)習(xí)器有時也被直接稱為弱學(xué)習(xí)器。但需要注意的是,雖然從理論上來說使用弱學(xué)習(xí)器集成足以獲得好的性能,但在實踐中出于種種考慮,例如希望使用較少的個體學(xué)習(xí)器,或是重用關(guān)于常見學(xué)習(xí)器的一些經(jīng)驗等,人們往往會使用比較強(qiáng)的學(xué)習(xí)器。 在一般經(jīng)驗中,如果把好壞不等的東西摻到一起,那么通常結(jié)果會是比最壞的要好一些,比最好的要壞一些。集成學(xué)習(xí)把多個學(xué)習(xí)器結(jié)合起來,如何能獲得比最好的單一學(xué)習(xí)器更好的性能呢? 要獲得好的集成個體學(xué)習(xí)器應(yīng)該“好而不同”,即個體學(xué)習(xí)器要有一定的“準(zhǔn)確性”、即學(xué)習(xí)器不能太壞,并且要有“多樣性”,即學(xué)習(xí)器間具有差異。 我們來做個簡單的分析,考慮二分類問題 假設(shè)集成通過簡單投票法結(jié)合T個基分類器,若有超過半數(shù)的基分類器正確,則集成分類就正確: 假設(shè)基分類器的錯誤率相互獨(dú)立,則由Hoeffding不等式可知,集成的錯誤率為 (Hoeffding不等式(https://www./articles/yyu2AnM))上式顯示出,隨著集成中個體分類器數(shù)目T的增大,集成的錯誤率將指數(shù)級下降,最終趨向于零。 然而我們必須注意到,上面的分析有一個關(guān)鍵假設(shè):基學(xué)習(xí)器的誤差相互獨(dú)立,在現(xiàn)實任務(wù)中,個體學(xué)習(xí)器是為解決同一個問題訓(xùn)練出來的,它們顯然不可能獨(dú)立,事實上,個體學(xué)習(xí)器的“準(zhǔn)確性”和“多樣性”本身就存在沖突。一般的,準(zhǔn)確性很高之后,要增加多樣性就需要犧牲準(zhǔn)確性。事實上,如何產(chǎn)生并結(jié)合“好而不同”的個體學(xué)習(xí)器,恰是集成學(xué)習(xí)研究的核心。 根據(jù)個體學(xué)習(xí)器的生成方式,目前的集成學(xué)習(xí)方法大致可分為兩大類,即個體學(xué)習(xí)器間存在強(qiáng)依賴關(guān)系、必須串行生成的序列化方法,以及學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系、可同時生成的并行化方法;前者的代表是Boosting,后者的代表是Bagging和“隨機(jī)森林”(Random Forest) |
|