日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

轉(zhuǎn)發(fā) | 如何采用機(jī)器學(xué)習(xí)方法提升數(shù)據(jù)擬合精度?(一)

 nplaiyanfang 2023-08-30 發(fā)布于福建
身為常跟混凝土打交道的土木人,根據(jù)試驗(yàn)數(shù)據(jù)擬合經(jīng)驗(yàn)公式簡(jiǎn)直就是必修課,沒辦法,混凝土太復(fù)雜啦!大概的做法是這樣的,先假設(shè)公式的形式,再通過試驗(yàn)數(shù)據(jù)回歸分析來確定公式中的未知系數(shù)。由于所假設(shè)的公式形式可能無法充分反映參數(shù)間復(fù)雜的非線性關(guān)系,試驗(yàn)參數(shù)范圍受限,樣本多樣性有限,經(jīng)驗(yàn)公式計(jì)算結(jié)果往往準(zhǔn)確性差、離散性大。相比于經(jīng)驗(yàn)?zāi)P?,機(jī)器學(xué)習(xí)模型具有以下優(yōu)點(diǎn):

1. 具有強(qiáng)大的捕捉輸入和輸出變量之間復(fù)雜非線性關(guān)系的能力;

2. 可以處理大量輸入變量,避免忽略潛在的重要變量;

3. 可以考慮試驗(yàn)樣本的多樣性,從海量數(shù)據(jù)中深入挖掘信息。

近年來,機(jī)器學(xué)習(xí)這類非參數(shù)模型在數(shù)據(jù)充分、現(xiàn)象復(fù)雜的領(lǐng)域受到了廣泛的認(rèn)可。


1.1

機(jī)器學(xué)習(xí)和人工智能、深度學(xué)習(xí)的關(guān)系

圖片

圖 1 機(jī)器學(xué)習(xí)和人工智能、深度學(xué)習(xí)的關(guān)系

機(jī)器學(xué)習(xí)是人工智能的一個(gè)子集,深度學(xué)習(xí)又是機(jī)器學(xué)習(xí)的一個(gè)子集。機(jī)器學(xué)習(xí)與深度學(xué)習(xí)都是需要大量數(shù)據(jù)來“喂”的,是大數(shù)據(jù)技術(shù)上的一個(gè)應(yīng)用,同時(shí)深度學(xué)習(xí)還需要更高的運(yùn)算能力支撐,如 GPU。作為目前最熱的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)在計(jì)算機(jī)視覺、自然語言處理領(lǐng)域已經(jīng)取得了非凡的成就。但小伙伴們也應(yīng)注意到,深度學(xué)習(xí)模型需要大量的訓(xùn)練數(shù)據(jù)才能展現(xiàn)出神奇的效果,對(duì)于現(xiàn)實(shí)生活中常常遇到的小樣本問題,傳統(tǒng)的機(jī)器學(xué)習(xí)方法就已經(jīng)可以很好地解決了,沒必要“殺雞用牛刀”,且由于數(shù)據(jù)量小,深度學(xué)習(xí)方法的精度不一定比傳統(tǒng)的機(jī)器學(xué)習(xí)方法高。

傳統(tǒng)的機(jī)器學(xué)習(xí)算法有很多,如普通最小二乘法、Lasso 回歸、嶺回歸、K-最近鄰、支持向量機(jī)、決策樹、隨機(jī)森林、AdaBoost、XGBoost 等。在機(jī)器學(xué)習(xí)領(lǐng)域,有種說法叫“世上沒有免費(fèi)的午餐”,就是說,沒有任何一種算法能在每個(gè)問題上都取得最好的效果。針對(duì)這個(gè)問題,學(xué)習(xí)算法 a 可能更好,而針對(duì)那個(gè)問題,學(xué)習(xí)算法 b 可能更好。在脫離實(shí)際問題的情況下,空泛地談?wù)撃姆N算法好毫無意義,要談?wù)撍惴▋?yōu)劣必須針對(duì)具體學(xué)習(xí)問題。


圖片
圖 2 “世上沒有免費(fèi)的午餐”

1.2

機(jī)器學(xué)習(xí)建模流程

閑話少敘,進(jìn)入正題!

圖片
一般來說,機(jī)器學(xué)習(xí)方法的建模流程如下:
圖片

圖 3 機(jī)器學(xué)習(xí)模型建模流程

1. 廣泛收集試驗(yàn)數(shù)據(jù)??梢允亲约鹤龅脑囼?yàn),也可以是其他學(xué)者做的試驗(yàn),總之,試驗(yàn)數(shù)據(jù)越多越好、數(shù)據(jù)質(zhì)量越高越好。
2. 進(jìn)行特征工程,為機(jī)器學(xué)習(xí)模型選取合適的輸入特征。據(jù)統(tǒng)計(jì),大部分的數(shù)據(jù)挖掘/算法工程師80%的時(shí)間在做特征工程,20%的時(shí)間在做算法設(shè)計(jì)和模型優(yōu)化,可見特征工程的重要性。
3. 將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集(80%)和測(cè)試集(20%)(當(dāng)然也可以采用其它比例),訓(xùn)練集用于訓(xùn)練機(jī)器學(xué)習(xí)模型,測(cè)試集用于評(píng)估所訓(xùn)練的機(jī)器學(xué)習(xí)模型的精度。

4. 選擇合適的機(jī)器學(xué)習(xí)方法,在訓(xùn)練集上訓(xùn)練模型。

5. 采用網(wǎng)格搜索和十折交叉驗(yàn)證方法優(yōu)化機(jī)器學(xué)習(xí)模型的超參數(shù)。在機(jī)器學(xué)習(xí)模型中,有兩類參數(shù):1)模型參數(shù),需要從數(shù)據(jù)中學(xué)習(xí)得到,如線性回歸的加權(quán)系數(shù);2)調(diào)優(yōu)參數(shù),需要在訓(xùn)練機(jī)器學(xué)習(xí)模型之前人為設(shè)定,稱為超參數(shù)(hyper-parameter)。為達(dá)到最優(yōu)的模型性能,通常情況下需要對(duì)超參數(shù)進(jìn)行調(diào)優(yōu)。

6. 在訓(xùn)練集上使用最優(yōu)超參數(shù)訓(xùn)練機(jī)器學(xué)習(xí)模型,并通過量化指標(biāo)(如決定系數(shù) R2、均方根誤差RMSE、平均絕對(duì)誤差 MAE 等)評(píng)估模型在測(cè)試集上的性能。

7. 解釋機(jī)器學(xué)習(xí)模型的預(yù)測(cè)結(jié)果,驗(yàn)證機(jī)器學(xué)習(xí)模型的可靠性。機(jī)器學(xué)習(xí)這類非參數(shù)模型是一個(gè)“黑箱”,不能對(duì)潛在的物理或力學(xué)機(jī)制給出明確的解釋,如果機(jī)器學(xué)習(xí)模型解釋的規(guī)律與力學(xué)規(guī)律不符,即使性能再好,也不能用于生產(chǎn)實(shí)踐。機(jī)器學(xué)習(xí)模型解釋的方法很多,如 SHAP 方法、部分依賴圖(PDP)等。

看,機(jī)器學(xué)習(xí)建模流程是不是挺簡(jiǎn)單?小伙伴們是不是躍躍欲試了呢,下期我們將以基于試驗(yàn)數(shù)據(jù)建立鋼筋混凝土柱箍筋計(jì)算模型為例來介紹機(jī)器學(xué)習(xí)的實(shí)戰(zhàn),歡迎繼續(xù)關(guān)注!





圖片

喬保娟

工學(xué)博士

高級(jí)工程師

SAUSAGE 軟件計(jì)算核心負(fù)責(zé)人,從事建筑結(jié)構(gòu)非線性分析及軟件開發(fā)研究

肖從真工作室

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多