1.1 機(jī)器學(xué)習(xí)和人工智能、深度學(xué)習(xí)的關(guān)系 機(jī)器學(xué)習(xí)是人工智能的一個(gè)子集,深度學(xué)習(xí)又是機(jī)器學(xué)習(xí)的一個(gè)子集。機(jī)器學(xué)習(xí)與深度學(xué)習(xí)都是需要大量數(shù)據(jù)來“喂”的,是大數(shù)據(jù)技術(shù)上的一個(gè)應(yīng)用,同時(shí)深度學(xué)習(xí)還需要更高的運(yùn)算能力支撐,如 GPU。作為目前最熱的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)在計(jì)算機(jī)視覺、自然語言處理領(lǐng)域已經(jīng)取得了非凡的成就。但小伙伴們也應(yīng)注意到,深度學(xué)習(xí)模型需要大量的訓(xùn)練數(shù)據(jù)才能展現(xiàn)出神奇的效果,對(duì)于現(xiàn)實(shí)生活中常常遇到的小樣本問題,傳統(tǒng)的機(jī)器學(xué)習(xí)方法就已經(jīng)可以很好地解決了,沒必要“殺雞用牛刀”,且由于數(shù)據(jù)量小,深度學(xué)習(xí)方法的精度不一定比傳統(tǒng)的機(jī)器學(xué)習(xí)方法高。 傳統(tǒng)的機(jī)器學(xué)習(xí)算法有很多,如普通最小二乘法、Lasso 回歸、嶺回歸、K-最近鄰、支持向量機(jī)、決策樹、隨機(jī)森林、AdaBoost、XGBoost 等。在機(jī)器學(xué)習(xí)領(lǐng)域,有種說法叫“世上沒有免費(fèi)的午餐”,就是說,沒有任何一種算法能在每個(gè)問題上都取得最好的效果。針對(duì)這個(gè)問題,學(xué)習(xí)算法 a 可能更好,而針對(duì)那個(gè)問題,學(xué)習(xí)算法 b 可能更好。在脫離實(shí)際問題的情況下,空泛地談?wù)撃姆N算法好毫無意義,要談?wù)撍惴▋?yōu)劣必須針對(duì)具體學(xué)習(xí)問題。 ![]() 1.2 機(jī)器學(xué)習(xí)建模流程 閑話少敘,進(jìn)入正題! ![]() ![]() 圖 3 機(jī)器學(xué)習(xí)模型建模流程 4. 選擇合適的機(jī)器學(xué)習(xí)方法,在訓(xùn)練集上訓(xùn)練模型。 5. 采用網(wǎng)格搜索和十折交叉驗(yàn)證方法優(yōu)化機(jī)器學(xué)習(xí)模型的超參數(shù)。在機(jī)器學(xué)習(xí)模型中,有兩類參數(shù):1)模型參數(shù),需要從數(shù)據(jù)中學(xué)習(xí)得到,如線性回歸的加權(quán)系數(shù);2)調(diào)優(yōu)參數(shù),需要在訓(xùn)練機(jī)器學(xué)習(xí)模型之前人為設(shè)定,稱為超參數(shù)(hyper-parameter)。為達(dá)到最優(yōu)的模型性能,通常情況下需要對(duì)超參數(shù)進(jìn)行調(diào)優(yōu)。 7. 解釋機(jī)器學(xué)習(xí)模型的預(yù)測(cè)結(jié)果,驗(yàn)證機(jī)器學(xué)習(xí)模型的可靠性。機(jī)器學(xué)習(xí)這類非參數(shù)模型是一個(gè)“黑箱”,不能對(duì)潛在的物理或力學(xué)機(jī)制給出明確的解釋,如果機(jī)器學(xué)習(xí)模型解釋的規(guī)律與力學(xué)規(guī)律不符,即使性能再好,也不能用于生產(chǎn)實(shí)踐。機(jī)器學(xué)習(xí)模型解釋的方法很多,如 SHAP 方法、部分依賴圖(PDP)等。
![]() 喬保娟 工學(xué)博士 高級(jí)工程師 SAUSAGE 軟件計(jì)算核心負(fù)責(zé)人,從事建筑結(jié)構(gòu)非線性分析及軟件開發(fā)研究 肖從真工作室 |
|