日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

機(jī)器學(xué)習(xí)-第八章集成學(xué)習(xí)

 落日下旳余暉 2018-05-02
8.1 個體與集成
   集成學(xué)習(xí)通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成任務(wù),有時也被稱為多分類系統(tǒng)、基于委員會的學(xué)習(xí)等。
 圖8.1顯示出集成學(xué)習(xí)的一般結(jié)構(gòu):先產(chǎn)生一組“個體學(xué)習(xí)器”,再用某種策略將它們結(jié)合起來,個體學(xué)習(xí)器通常有一個現(xiàn)有的學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)產(chǎn)生,例如決策樹實驗法、BP神經(jīng)網(wǎng)絡(luò)算法等,此時集成中只包含同種類型的個體學(xué)習(xí)器,例如“決策樹集成”中全是決策樹,“神經(jīng)網(wǎng)絡(luò)集成”中全是神經(jīng)網(wǎng)絡(luò),這樣的集成是“同質(zhì)”的。同質(zhì)集成中的個體學(xué)習(xí)器亦稱“基學(xué)習(xí)器”,相應(yīng)的學(xué)習(xí)算法稱為“基學(xué)習(xí)算法”。集成也可包含不同類型的個體學(xué)習(xí)器,例如同時包含決策樹和神經(jīng)網(wǎng)絡(luò),這樣的集成是“異質(zhì)”的。異質(zhì)集成中的個體學(xué)習(xí)器由不同的學(xué)習(xí)算法生成,這時就不再是基學(xué)習(xí)算法;相應(yīng)的,個體學(xué)習(xí)器一般不稱為基學(xué)習(xí)器,常稱為“組件學(xué)習(xí)器”或直接稱為個體學(xué)習(xí)器。

圖8.1 集成學(xué)習(xí)示意圖


  集成學(xué)期通過將多個學(xué)習(xí)器進(jìn)行結(jié)合,??色@得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能,這對““弱學(xué)習(xí)器”尤為明顯,因此集成學(xué)習(xí)的很多理論研究都是針對弱學(xué)習(xí)器進(jìn)行的,而基學(xué)習(xí)器有時也被直接稱為弱學(xué)習(xí)器。但需要注意的是,雖然從理論上來說使用弱學(xué)習(xí)器集成足以獲得好的性能,但在實踐中出于種種考慮,例如希望使用較少的個體學(xué)習(xí)器,或是重用關(guān)于常見學(xué)習(xí)器的一些經(jīng)驗等,人們往往會使用比較強(qiáng)的學(xué)習(xí)器。

  在一般經(jīng)驗中,如果把好壞不等的東西摻到一起,那么通常結(jié)果會是比最壞的要好一些,比最好的要壞一些。集成學(xué)習(xí)把多個學(xué)習(xí)器結(jié)合起來,如何能獲得比最好的單一學(xué)習(xí)器更好的性能呢?

  要獲得好的集成個體學(xué)習(xí)器應(yīng)該“好而不同”,即個體學(xué)習(xí)器要有一定的“準(zhǔn)確性”、即學(xué)習(xí)器不能太壞,并且要有“多樣性”,即學(xué)習(xí)器間具有差異。

  我們來做個簡單的分析,考慮二分類問題 和真實函數(shù)f,假定基分類器的錯誤率為 ,即對每個基分類器 

假設(shè)集成通過簡單投票法結(jié)合T個基分類器,若有超過半數(shù)的基分類器正確,則集成分類就正確: 

  假設(shè)基分類器的錯誤率相互獨(dú)立,則由Hoeffding不等式可知,集成的錯誤率為

 

(Hoeffding不等式(https://www./articles/yyu2AnM))

上式顯示出,隨著集成中個體分類器數(shù)目T的增大,集成的錯誤率將指數(shù)級下降,最終趨向于零。

   然而我們必須注意到,上面的分析有一個關(guān)鍵假設(shè):基學(xué)習(xí)器的誤差相互獨(dú)立,在現(xiàn)實任務(wù)中,個體學(xué)習(xí)器是為解決同一個問題訓(xùn)練出來的,它們顯然不可能獨(dú)立,事實上,個體學(xué)習(xí)器的“準(zhǔn)確性”和“多樣性”本身就存在沖突。一般的,準(zhǔn)確性很高之后,要增加多樣性就需要犧牲準(zhǔn)確性。事實上,如何產(chǎn)生并結(jié)合“好而不同”的個體學(xué)習(xí)器,恰是集成學(xué)習(xí)研究的核心。

 根據(jù)個體學(xué)習(xí)器的生成方式,目前的集成學(xué)習(xí)方法大致可分為兩大類,即個體學(xué)習(xí)器間存在強(qiáng)依賴關(guān)系、必須串行生成的序列化方法,以及學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系、可同時生成的并行化方法;前者的代表是Boosting,后者的代表是Bagging和“隨機(jī)森林”(Random Forest)



    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多