固體地球科學(xué)(sEg)既是數(shù)據(jù)驅(qū)動的又是模型驅(qū)動的領(lǐng)域。地球科學(xué)家面臨的最大挑戰(zhàn)之一是如何盡可能多地提取有用的信息,以及如何從數(shù)據(jù)和模擬以及兩者之間的相互作用中獲得新的見解。機器學(xué)習(xí)(ML) 將在這項工作中發(fā)揮關(guān)鍵作用。ML 提供了一套工具來提取知識并從數(shù)據(jù)中得出推論,其算法旨在從經(jīng)驗中學(xué)習(xí)并識別數(shù)據(jù)中的復(fù)雜模式和關(guān)系。 ML算法的兩個主要類別是有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。在有監(jiān)督學(xué)習(xí)中,ML算法“學(xué)習(xí)”識別模式使用已知示例進行一般預(yù)測,無監(jiān)督學(xué)習(xí)方法學(xué)習(xí)數(shù)據(jù)集中的模式或結(jié)構(gòu),而不依賴于標簽特征。無監(jiān)督學(xué)習(xí)通常用于數(shù)據(jù)集中的探索性數(shù)據(jù)分析或可視化,其中沒有或很少有標簽可用,涉及降維和聚類兩種途徑。用于監(jiān)督和無監(jiān)督學(xué)習(xí)的許多不同算法各自具有相對的優(yōu)點和缺點。算法選擇取決于許多因素。雖然在高度精確的圖像識別系統(tǒng)中可能不需要可解釋性,但是當(dāng)目標是獲得對系統(tǒng)的物理洞察時,可解釋性是至關(guān)重要的。 1. 固體地球科學(xué)中的機器學(xué)習(xí) 幾十年來,科學(xué)家們一直在將技術(shù)應(yīng)用于固體地球科學(xué)中的問題。在研究中,研究人員已經(jīng)利用了ML處理各種各樣的任務(wù),數(shù)據(jù)驅(qū)動的發(fā)現(xiàn),即從數(shù)據(jù)中提取新信息的能力,是ML用于科學(xué)應(yīng)用的最令人興奮的能力 之一。ML 為科學(xué)家們提供了一套工具,用于發(fā)現(xiàn)科學(xué)數(shù)據(jù)集中不易發(fā)現(xiàn) 的新模式、結(jié)構(gòu)和關(guān)系。建模和反演也可以提供自動預(yù)測的能力,而ML 用于自動化,建模或反演可能會產(chǎn)生新的見解和基本發(fā)現(xiàn)。 2. 監(jiān)督學(xué)習(xí)的方法和趨勢 監(jiān)督學(xué)習(xí)是一組功能強大的工具,已經(jīng)成功地應(yīng)用于自動化、建模、 反演和發(fā)現(xiàn)等主題的應(yīng)用中。研究者用ML算法組織了最近在固體地球科學(xué)中的監(jiān)督學(xué)習(xí)應(yīng)用,大致按照模型復(fù)雜度排序。 2.1 邏輯回歸 目前固體地球科學(xué)在邏輯回歸的相關(guān)研究有: (1)區(qū)分地震信號和爆炸信號。 (2)地震注入井和抗震井區(qū)分。 (3)誘發(fā)地震風(fēng)險較高的相關(guān)地質(zhì)因素識別。 2.2 圖形模型 地球科學(xué)中的許多數(shù)據(jù)集具有時間分量,例如地震儀記錄的地面運動時間序列數(shù)據(jù)。盡管大多數(shù) ML算法可以適用于時態(tài)數(shù)據(jù),但某些方法(如 圖形模型)可以直接模擬時間依賴性,例如隱馬爾可夫模型(HMM)和動態(tài)貝葉斯網(wǎng)絡(luò)(DBN)。隱馬爾可夫模型(HMM)已應(yīng)用于高山滑坡、 火山信號、區(qū)域地震和誘發(fā)地震的探測和分類。動態(tài)貝葉斯網(wǎng)絡(luò)(DBN) 是另一種推廣 HMM 的圖形模型,也被用于地震檢測。 2.3 支持向量機 支持向量機(SVM)是一種二元分類算法,用于識別來自兩個類的訓(xùn)練數(shù)據(jù)之間的最佳邊界。運用支持向量機的案例有: (1)求解溫度場,研究地幔對流過程 (2)預(yù)測地幔流動停滯的程度 (3)地震事件中地震強度的快速估計 (4)區(qū)分地震和爆炸以及連續(xù)地震數(shù)據(jù)中的地震檢測 2.4 集成學(xué)習(xí) 決策樹是一種學(xué)習(xí)分段常量函數(shù)的分類和回歸的監(jiān)督方法,相當(dāng)于一系列可以由二叉樹結(jié)構(gòu)可視化的if-then規(guī)則。隨機森林(RF)是一種集成 學(xué)習(xí)算法,可以通過在隨機決策樹的集合(“森林”)中以投票來學(xué)習(xí)復(fù)雜的關(guān)系。在這方面的案例有: (1)地質(zhì)測繪 (2)改進使用遙感地球物理數(shù)據(jù)反演的三維地質(zhì)模型 (3)識別應(yīng)力降和峰值地面加速度之間的預(yù)測關(guān)系 (4)學(xué)習(xí)非線性、非參數(shù)地面運動預(yù)測方程(GMPES) (5)描述地下裂縫模式的拓撲結(jié)構(gòu) 2.5 神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)(ANNS)是一種松散地模擬大腦中生物神經(jīng)元相互連接網(wǎng)絡(luò)的算法。人工神經(jīng)網(wǎng)絡(luò)模型表示為一組由權(quán)重連接的節(jié)點(神經(jīng)元)。每個節(jié)點從上一層獲取加權(quán)線性組合的值,并應(yīng)用非線性函數(shù)生成傳遞到下一層的單個值?!皽\”網(wǎng)絡(luò)包含一個輸入層(數(shù)據(jù))、一個隱藏層和一個輸 出層(預(yù)測響應(yīng))。ANNS 可以用于回歸和分類。相關(guān)案例包括: (1)縱波傳播時間數(shù)據(jù)中估計一維縱波速度結(jié)構(gòu)和模型不確定性 (2)根據(jù)強運動數(shù)據(jù)估計震源參數(shù) (3)用來估計短周期反應(yīng)譜 (4)模擬地面運動預(yù)測方程 (5)評估震源機制和震源位置的數(shù)據(jù)質(zhì)量 (6)執(zhí)行噪聲層析成像 (7)區(qū)分地震運動和用戶活動引起的運動 2.6 深度學(xué)習(xí)網(wǎng)絡(luò) 深度神經(jīng)網(wǎng)絡(luò)(DNN)或深度學(xué)習(xí)是經(jīng)典人工神經(jīng)網(wǎng)絡(luò)的擴展,它包含多個隱藏層。深度學(xué)習(xí)并不代表單一算法,而是具有多種網(wǎng)絡(luò)架構(gòu)的廣 泛方法,包括有監(jiān)督和無監(jiān)督方法。深層架構(gòu)包括多個處理層和非線性轉(zhuǎn)換,每層的輸出作為輸入傳遞給下一層。受監(jiān)督的DNN 同時學(xué)習(xí)特征表 示和從特征到目標的映射,從而實現(xiàn)良好的模型性能,而無需精心選擇的特征作為輸入。然而,訓(xùn)練深度網(wǎng)絡(luò)還需要擬合大量參數(shù),這需要大的訓(xùn) 練數(shù)據(jù)集和技術(shù)來防止過度擬合模型。除了DNN,常用的還有卷積神經(jīng)網(wǎng) 絡(luò)(CNN),遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。 圖1 領(lǐng)域?qū)<液蜋C器學(xué)習(xí)使用的函數(shù)空間 3. 無監(jiān)督學(xué)習(xí)的方法和趨勢 3.1 聚類和自組織映射 目前有許多不同的聚類算法,包括 k-均值、層次聚類和自組織映射(SOMs)。SOM是一種無監(jiān)督神經(jīng)網(wǎng)絡(luò),可用于降維或聚類。相關(guān)案例有: (1)運用 SOM 識別關(guān)鍵的地球物理特征 (2)對地震屬性進行降維后采用 SOM 進行聚類,從地震屬性中識別地質(zhì)特征 (3)地震波形數(shù)據(jù)的特征選擇 (4)識別巖性 (5)在半監(jiān)督方法中,運用 SOM 檢測巖崩和火山構(gòu)造事件 (6)地震事件分類 3.2 特征學(xué)習(xí) 無監(jiān)督特征學(xué)習(xí)可用于學(xué)習(xí)數(shù)據(jù)集的低維或稀疏特征。相關(guān)研究案例有: (1)用自動編碼網(wǎng)絡(luò)學(xué)習(xí)地震波形的緊湊特征 (2)學(xué)習(xí)可用于相填圖的聚類算法的特征 (3)將非負矩陣分解和 HMMS 結(jié)合起來學(xué)習(xí)地震波形的特征 3.3 字典學(xué)習(xí) 稀疏字典學(xué)習(xí)是一種表示學(xué)習(xí)方法,它以基本元素或原子以及這些基本元素本身的線性組合的形式構(gòu)造一個稀疏表示。 3.4 深度生成模型 生成模型是一類 ML方法,用于學(xué)習(xí)數(shù)據(jù)集上的聯(lián)合概率分布。生成 模型可以應(yīng)用于無監(jiān)督和監(jiān)督學(xué)習(xí)任務(wù)。最近的工作探索了深層生成模型的應(yīng)用,特別是生成性對抗網(wǎng)絡(luò)(GAN)。深度生成模型,如深度渲染模 型、變分自動編碼器(VAE)和GAN 是分層概率模型,具有抽象能力, 能加快學(xué)習(xí)進度。深度生成模型的無監(jiān)督學(xué)習(xí)能力對地球物理學(xué)中的許多 反演問題特別有吸引力。 4. 其他技術(shù) 其他常見的還有強化學(xué)習(xí)、快速近鄰搜索技術(shù)、網(wǎng)絡(luò)分析技術(shù)、圖形聚類技術(shù)、PageRank(一種流行的鏈路分析算法)等。 圖2 機器學(xué)習(xí)方法及其應(yīng)用 5. 建議和機會 (1)創(chuàng)建基準數(shù)據(jù)集。在理想情況下給定的問題域內(nèi),研究團體可 以使用幾種不同的基準數(shù)據(jù)集,以避免過于狹隘地關(guān)注算法開發(fā)。 (2)開放科學(xué)。采用開放科學(xué)原則將更好地定位固體地球科學(xué)社區(qū),以利用人工智能的快速發(fā)展。 (3)機器學(xué)習(xí)解決方案,新模型和架構(gòu)。最近,可解釋的DNN 架構(gòu)基于對地球科學(xué)中反問題的分析構(gòu)建,有可能減輕不適定性,加速重建(訓(xùn)練后)并適應(yīng)稀疏(約束)的數(shù)據(jù)采集。 (4)地球科學(xué)課程設(shè)置??梢哉衅甘苓^數(shù)據(jù)科學(xué)培訓(xùn)的學(xué)生從事地球科學(xué)研究,通過確定共同利益和互補能力,可以利用跨學(xué)科研究會議來促進合作。 成果來源 Bgn K. J., osn P. , Maren etal. Mahne larig r daa-rvn sovy in sld ath gosince. cince, 09, 3363:eaau33. |
|
來自: LibraryPKU > 《EEW》