Top前沿: 農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)中的機器學(xué)習(xí), 其與計量經(jīng)濟(jì)學(xué)的比較, 不讀不懂你就out了！

liyu_sun 2020-05-11

展開全文

機器學(xué)習(xí)方法逐漸在經(jīng)濟(jì)管理等社科類頂刊，如AER，JPE，QJE，JOF等期刊上出現(xiàn)了。為了進(jìn)一步了解機器學(xué)習(xí)在國外最新應(yīng)用動向，我們?yōu)楦魑粚W(xué)者奉上“農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)中的機器學(xué)習(xí)”。對機器學(xué)習(xí)方法感興趣的學(xué)者，建議認(rèn)真研讀這篇非常重要、全面的文章。

正文

關(guān)于下方文字內(nèi)容，作者：王樂，東北財經(jīng)大學(xué)金融學(xué)院，通信郵箱：wl614335@163.com

《農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)中的機器學(xué)習(xí)》
Machine learning in agricultural and applied economics, European Review of Agricultural Economics

這篇文章從應(yīng)用經(jīng)濟(jì)學(xué)的角度介紹了機器學(xué)習(xí)方法。作者首先介紹了與經(jīng)濟(jì)學(xué)實踐相關(guān)的主要計量經(jīng)濟(jì)學(xué)方法。然后，確定了當(dāng)前計量經(jīng)濟(jì)學(xué)和模擬模型工具箱在應(yīng)用經(jīng)濟(jì)學(xué)方面的局限性，并探索了機器學(xué)習(xí)法提供的潛在解決方案。在預(yù)測和因果分析中，深入研究了不靈活的函數(shù)形式、非結(jié)構(gòu)化數(shù)據(jù)源和大量解釋性變量等情況，并強調(diào)了復(fù)雜模擬模型的挑戰(zhàn)。最后，作者認(rèn)為，當(dāng)用于定量經(jīng)濟(jì)分析時，經(jīng)濟(jì)學(xué)家在解決機器學(xué)習(xí)法的缺點方面有著至關(guān)重要的作用。

一、引言

（一）什么是ML？

機器學(xué)習(xí)(ML)、人工智能（AI）和深度學(xué)習(xí)(DL)經(jīng)?；Q使用。ML是AI的一部分，而AI又是計算機科學(xué)的一門學(xué)科。DL是機器學(xué)習(xí)ML的一個特定子集，它使用分層方法，每一步都將前一步的信息轉(zhuǎn)換成更復(fù)雜的數(shù)據(jù)表示。

（二）為什么要把機器學(xué)習(xí)引入農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)？

1.在許多不同領(lǐng)域，包括農(nóng)業(yè)、環(huán)境和發(fā)展領(lǐng)域，數(shù)據(jù)的可獲得性都有了顯著提高。除了幫助處理來自這些新來源的數(shù)據(jù)，ML方法比傳統(tǒng)的統(tǒng)計方法更能有效地利用大量數(shù)據(jù)。

2.自21世紀(jì)初以來，多處理器圖形卡(Multi-Processor Graphic Cards) ,或稱圖形處理單元（Graphic Processing Unit，GPU）的使用極大地加速了計算機學(xué)習(xí)，許多機器學(xué)習(xí)方法可以并行化并利用圖形處理器的潛力。

3.機器學(xué)習(xí)研究團(tuán)體正在迅速開發(fā)用戶應(yīng)用這些方法所需的工具。研究人員已經(jīng)開發(fā)并改進(jìn)了能夠突破ML/DL邊界的算法。這個團(tuán)體有著強大的開源傳統(tǒng)，包括強大的DL庫 (如tensorflow.org、pytorch.org)和預(yù)處理模型(如VVGNet、ResNet)，增加了采用的可能性。

4.最后，經(jīng)濟(jì)學(xué)家已經(jīng)開始意識到，機器學(xué)習(xí)的預(yù)測能力不僅可以如此使用，而且還可以改善因果識別(Athey，2019)。

（三）機器學(xué)習(xí)如何有助于農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)？

傳統(tǒng)經(jīng)濟(jì)學(xué)模型通常包含很少的關(guān)于函數(shù)形式的先驗信息，在不同的觀察單元之間有很大的潛在異質(zhì)性，并且經(jīng)常有多個輸出。例如，一個人想要估計化肥對農(nóng)作物產(chǎn)量的影響。產(chǎn)量由土壤質(zhì)量、天氣、投放、投放時機和其他管理選擇的復(fù)雜組合決定，充滿非線性和相互作用。雖然傳統(tǒng)方法允許我們處理這些問題，但是機器學(xué)習(xí)方法增加了數(shù)據(jù)和函數(shù)形式的靈活性，以及處理效率，開辟了其他分析途徑。

（四）本文創(chuàng)新處

1.已有文獻(xiàn)還沒有關(guān)于機器學(xué)習(xí)在農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)分析中的現(xiàn)有和潛在應(yīng)用的概述。而機器學(xué)習(xí)方法對上述領(lǐng)域有著特別的前景，因為它們與復(fù)雜的生物或物理過程有著頻繁的聯(lián)系，使用了非傳統(tǒng)的數(shù)據(jù)源，并且經(jīng)常使用模擬方法。

2.本文從標(biāo)準(zhǔn)的計量經(jīng)濟(jì)學(xué)和模擬工具的角度來幫助對于機器學(xué)習(xí)的理解和應(yīng)用。本文強調(diào)了ML工具如何填補我們現(xiàn)有方法工具箱中的空白，重點是它們能解決哪些長期存在的挑戰(zhàn)。作者特別強調(diào)神經(jīng)網(wǎng)絡(luò)NN，因為盡管神經(jīng)網(wǎng)絡(luò)在捕捉復(fù)雜的空間和時間關(guān)系方面具有巨大的潛力，但它們在經(jīng)濟(jì)分析中仍未得到廣泛應(yīng)用。

3.回顧了機器學(xué)習(xí)在政策模擬中的應(yīng)用，它還沒有被廣泛覆蓋。

二、應(yīng)用計量經(jīng)濟(jì)學(xué)視角下的機器學(xué)習(xí)

（一）與計量經(jīng)濟(jì)學(xué)的區(qū)別

1.目標(biāo)：

（1）計量經(jīng)濟(jì)學(xué)：目的是獲得邊際效應(yīng)的可靠估計，如獲得系數(shù)的無偏/一致估計。

（2）機器學(xué)習(xí)：目的是獲得準(zhǔn)確的預(yù)測，當(dāng)涉及偏差、方差或均方誤差(MSE)時，它們是根據(jù)預(yù)測來定義的。就預(yù)測而言一個在預(yù)測方面是無偏的模型不一定在系數(shù)方面是無偏的。

2.不確定性估計量

（1）計量經(jīng)濟(jì)學(xué)：能夠得出估計系數(shù)的不確定性估計量，因此可以將估計量用于假設(shè)檢驗。

（2）機器學(xué)習(xí)：通常不能獲得不確定性估計量，這是該方法的一個實質(zhì)性限制，也是一個活躍的研究領(lǐng)域。

（二）機器學(xué)習(xí)方法

1.訓(xùn)練集-驗證集-測試集（Training Set-Validation Set-Test Set）方法—避免過度擬合

在傳統(tǒng)的計量經(jīng)濟(jì)學(xué)中，我們關(guān)心的是“足夠”的自由度，更多的自由度可以減少任何單一估計系數(shù)的標(biāo)準(zhǔn)誤差。這種方法限制了協(xié)變量的數(shù)量(給定一個有限的“N”)，從而限制了模型的靈活性。而機器學(xué)習(xí)通常包含大量參數(shù)和潛在的負(fù)自由度，因此避免了過度擬合。

機器學(xué)習(xí)方法將可用的數(shù)據(jù)集分成訓(xùn)練集（Training Set）、驗證集（Validation Set）和測試集（Test Set）：訓(xùn)練集用于估計模型；驗證集(也稱為開發(fā)或保持集， Development or Hold-Out Set)用于監(jiān)控樣本外預(yù)測誤差，然后選擇驗證集中樣本外預(yù)測誤差最小的模型；測試集最終用于評估所選模型的樣本外預(yù)測誤差，既不能用于訓(xùn)練也不能用于模型選擇。

當(dāng)數(shù)據(jù)集較大時，訓(xùn)練/驗證/測試方法可以很容易地應(yīng)用。而當(dāng)數(shù)據(jù)集較小時，訓(xùn)練/驗證/測試分割方法的一個常見變化是k-fold交叉驗證。即將樣本分成k個部分，每個部分有相同數(shù)量的觀察值。然后估計我們選擇的模型k倍；每次使用除了遺漏的k部分外的所有數(shù)據(jù)。這個遺漏部分然后被用于得出樣本外預(yù)測誤差。通過對k個估計量的樣本外預(yù)測誤差進(jìn)行平均，我們獲得了樣本外預(yù)測誤差期望值的估計。

2.監(jiān)督方法

（1）特征縮減方法（Shrinkage Methods）

諸如嶺回歸或lasso之類的特征縮減方法是把線性回歸模型根據(jù)系數(shù)的大小上增加一個懲罰項，將系數(shù)推向零。它們可用于預(yù)測連續(xù)結(jié)果或分類，并可有效地用于具有大量解釋變量的數(shù)據(jù)集。對于偏離零的系數(shù)，變量必須對預(yù)測能力有很大貢獻(xiàn)。縮減或正則化的程度可以調(diào)整，其中最佳水平通常使用交叉驗證來確定。

（2）樹狀模型方法（Tree-Based Methods）

①決策樹

決策樹可以用于分類和回歸，這種方法使用線性分割來劃分特征空間(即解釋變量所跨越的空間)，以最大化每個分割所創(chuàng)建的分割內(nèi)的同質(zhì)性，順序分割的結(jié)尾稱為“葉”。一旦樹“生長”，人們可以用它來預(yù)測一個結(jié)果，基于觀察的協(xié)變量落在每個連續(xù)分裂的哪一側(cè)，即它填充哪片“葉子”。樹的深度描述了分割或節(jié)點的數(shù)量。每個分割都是根據(jù)其對損失函數(shù)的貢獻(xiàn)順序選擇的。

優(yōu)點：容易解釋，并且非常適合捕捉高度非線性的關(guān)系。

缺點：可能不穩(wěn)定并且容易過度擬合，數(shù)據(jù)的微小變化會導(dǎo)致分裂的實質(zhì)性變化。在捕捉真正的線性或光滑函數(shù)方面受到限制，因為根據(jù)構(gòu)造，得到的模型是階躍函數(shù)（Step Function）。然而，有了足夠的數(shù)據(jù)，他們可以任意很好地逼近任何線性或光滑函數(shù)。

②集成方法——提高預(yù)測精度、減少方差

A.隨機森林：對許多生長在隨機觀測子樣本和變量子集上的深樹的結(jié)果進(jìn)行平均。隨機森林可以被認(rèn)為與具有自適應(yīng)加權(quán)的kNN方法相關(guān)，其中樣本外觀測的預(yù)測結(jié)果由其特征的加權(quán)定義的鄰域給出。

B.梯度增強樹（Gradient boosted trees）是由通過在殘差上重復(fù)擬合淺樹而訓(xùn)練的樹的總和組成的加性模型。給定它們的加法結(jié)構(gòu)，與傳統(tǒng)計量經(jīng)濟(jì)學(xué)中的廣義相加模型(Generalised Additive Models,GAMs)密切相關(guān)。然而，當(dāng)使用大量的解釋變量時，GAMs的估計不如梯度提升有效。

這些方法可以檢測高度非線性關(guān)系、處理定量和分類數(shù)據(jù)、處理高度非正常數(shù)據(jù)或異常值、提供缺失數(shù)據(jù)、提供不相關(guān)變量的算法處理，因此需要相對較少的輸入數(shù)據(jù)預(yù)處理和相對較少的訓(xùn)練期間調(diào)整的優(yōu)勢。此外，它們還提供了每個解釋變量重要性的排名。

（3）神經(jīng)網(wǎng)絡(luò)（Neural Networks）

①卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks ，CNN)

適合處理類似網(wǎng)格的數(shù)據(jù)，如1D時間序列數(shù)據(jù)或2D圖像數(shù)據(jù)。CNN至少在一層中使用卷積算子，這就是所謂的卷積層。在完全連接(密集)的神經(jīng)網(wǎng)絡(luò)中，隱藏層或輸出層中的每個單元通過矩陣乘法w h()?)k k連接到前一層中的每個單元(神經(jīng)元)。相比之下，在卷積層中，每個單元僅查看前一層中的一小部分單元(因此是稀疏互連),并在不同位置使用相同的參數(shù)(參數(shù)共享),從而顯著減少了需要估計的參數(shù)數(shù)量。

與經(jīng)典時間序列模型的區(qū)別：CNN學(xué)習(xí)濾波器的參數(shù)，提取有用的特征。例如，在圖像處理應(yīng)用中，濾波器可以學(xué)習(xí)檢測圖像的小位置中的垂直邊緣，而另一個濾波器檢測水平邊緣、角和曲線。然后在圖像上移動每個過濾器，創(chuàng)建一個特征圖(每個過濾器一個)，指定特征在圖像中的位置。下一個卷積層然后組合特征(邊緣、角等)。)轉(zhuǎn)化為更復(fù)雜的結(jié)構(gòu)(例如眼睛、嘴巴或鼻子)，繪制這些特征的地圖。

②遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Net-Works ，RNN)

在處理順序數(shù)據(jù)、處理動態(tài)關(guān)系和長期依賴關(guān)系方面，RNN是CNN的替代。RNN，特別是使用長短期記憶(Long Short Term Memory ，LSTM)細(xì)胞的RNN，越來越受歡迎。RNN-LSTM模型的關(guān)鍵特征是，過去的信息是通過細(xì)胞狀態(tài)向量跨時間傳遞的。在每個時間步驟中，新引入的解釋變量被編碼并與單元狀態(tài)向量中的過去信息相結(jié)合,模型本身學(xué)習(xí)信息編碼的方式和哪些編碼的信息可以被遺忘(即對于后續(xù)步驟的預(yù)測并不重要)。

與傳統(tǒng)的自回歸區(qū)別：不需要指定滯后結(jié)構(gòu)，并且可以捕捉更復(fù)雜的關(guān)系。CNN和RNN都利用了參數(shù)共享的思想，這使得它們能夠檢測特定的模式，而不管模式在序列或圖像中的位置。兩者都可以應(yīng)用于非常長的時間序列或具有許多短時間序列的面板數(shù)據(jù)。

3.無監(jiān)督方法（Unsupervised Approaches）——基于觀測特征的數(shù)據(jù)分組或聚類

無監(jiān)督方法旨在發(fā)現(xiàn)(x)的聯(lián)合概率，而不是E(y|x)，可以應(yīng)用于只有解釋性變量(特征)而沒有因變量(結(jié)果或標(biāo)簽)的情況，通常用于降低數(shù)據(jù)的維數(shù)。

①線性劃分——主成分分析（Principal Component Analysis，PCA）

l 應(yīng)用于對數(shù)據(jù)的邏輯分組，類似于聚類分析，例如定義新聞文章的“主題”。

l 應(yīng)用于預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)（Pre-Train Neural Networks）。在這些設(shè)置中，主要目標(biāo)是學(xué)習(xí)未標(biāo)記數(shù)據(jù)中的相關(guān)關(guān)系，然后可以在第二步中用于監(jiān)督學(xué)習(xí)任務(wù)。

②非線性劃分——自動編碼器（Autoencoders）（PCA的非線性推廣）

（三）模型復(fù)雜性與可解釋性

反對使用機器學(xué)習(xí)工具的一個常見理由是，它們是“黑箱”，在這里，模型學(xué)習(xí)到的關(guān)系不容易解釋。盡管許多機器學(xué)習(xí)方法比線性回歸方法更復(fù)雜，但這不是機器學(xué)習(xí)工具的固有問題，而是反映了任何方法面臨的靈活性和可解釋性之間不可避免的權(quán)衡。一旦我們的目標(biāo)是反映非線性、交互作用或異質(zhì)性，模型解釋就變得更加困難?？赏ㄟ^一下幾種方法解釋：

1.繪制一個或多個特定特征的隱含邊際效應(yīng)。

部分依賴圖（Partial Dependence Plots）和累積局部效應(yīng)圖(Accumulated Local Effects Plots)都將一個或兩個變量的結(jié)果與其預(yù)測結(jié)果進(jìn)行比較，而個體條件期望圖(Individual Conditional Expectation Plots)生成它們用于個人觀察。

2.確定解釋變量的相對重要性

預(yù)測變量的相對重要性可以通過對不同預(yù)測變量的重要性進(jìn)行排序來評估機器學(xué)習(xí)法中的一個常見方法是確定導(dǎo)致某個模型預(yù)測變化的解釋變量的最小變化。其他的方法發(fā)展出所謂的“對抗樣本（Adversarial Examples）”，識別一個觀察的特征需要產(chǎn)生一個錯誤的預(yù)測。

3.原型和批評（Prototypes Versus Criticisms）

通過集群算法識別一些有代表性的數(shù)據(jù)點—原型（Prototypes）和一些偶然事件—批評（Criticisms）來探索模型捕獲的異類影響，然后將模型對這些原型和批評的預(yù)測與它們的實際結(jié)果進(jìn)行比較。

三、機器學(xué)習(xí)法能給農(nóng)業(yè)經(jīng)濟(jì)學(xué)帶來什么

（一）豐富函數(shù)形式

1. 問題提出

（1）農(nóng)業(yè)和環(huán)境經(jīng)濟(jì)學(xué)中的許多現(xiàn)象本質(zhì)上是非線性的，是潛在的生物、物理、社會或經(jīng)濟(jì)過程的結(jié)果。例如，氣候變量對產(chǎn)量的影響、地下水開采對抽水成本的影響或污染對健康的影響都可能包含非線性。

（2）對于時間，空間或社會網(wǎng)絡(luò)，我們目前的方法也通常強加一些限制性的結(jié)構(gòu)，如空間計量經(jīng)濟(jì)學(xué)中預(yù)先確定的鄰域和相互作用的結(jié)構(gòu)。

（3）通常，我們對異質(zhì)性的特定方面感興趣。而在大多數(shù)當(dāng)前的方法中，應(yīng)用經(jīng)濟(jì)學(xué)家估計平均效應(yīng)，或者允許效應(yīng)在不同的維度上或者在預(yù)先定義的有限數(shù)量的組之間有所不同，或者事后選擇組，誘惑著去挑選那些符合研究者的先驗或者那些產(chǎn)生顯著結(jié)果的組。

（4）經(jīng)濟(jì)理論很少對人們試圖估計的對象的具體形式給出明確的指導(dǎo)。它只提供有關(guān)形狀限制的信息，如曲率或單調(diào)性。選擇一個不能捕捉非線性、相互作用或異質(zhì)和分布效應(yīng)的模型可能會導(dǎo)致錯誤的描述偏差。這種偏差隨著基礎(chǔ)過程的非線性程度的增加而增加。

2.當(dāng)前的計量經(jīng)濟(jì)學(xué)方法

當(dāng)前的計量經(jīng)濟(jì)學(xué)工具箱已經(jīng)提供了靈活的模型，但在許多情況下，計算需求限制了它們對大數(shù)據(jù)集(大“N”)或高維數(shù)據(jù)(大“K”)的適用性。

（1）隨機系數(shù)模型（Random Coefficient Models），分位數(shù)回歸模型（Quantile Regression Models）或混合模型(Mixture Models)，允許一定的靈活性，但仍然對估計的關(guān)系強加限制性的線性假設(shè)，這種靈活性只是局部的，不是在解釋變量的范圍內(nèi)靈活，因而限制了對經(jīng)濟(jì)環(huán)境變化的異質(zhì)反應(yīng)的能力。

（2）樣條模型（Spline Models）、核模型（Kernel Models）和局部加權(quán)回歸模型（Locally Weighted Regression Models）和GAM模型增加了更大的靈活性，但它們的應(yīng)用通常僅限于有限數(shù)量的解釋變量。

（3）數(shù)值貝葉斯推理方法（Numerical Bayesian Inference），如Gibbs 或 Metropolis Hasting這樣的多中心抽樣方法在處理大樣本的能力方面是有限的

3.機器學(xué)習(xí)可以做什么

(1)集成樹（Ensembles Of Trees）特別是梯度推進(jìn)方法（Gradient Boosting Approaches）

梯度增強正在成為許多環(huán)境中最有效的預(yù)測工具；例如，信用評分和企業(yè)破產(chǎn)預(yù)測。雖然增強主要用于基于樹的方法，但并不限于此。

Fenske、Kneib和Hothorn (2011年)開發(fā)了一種貝葉斯地理加性分位數(shù)回歸方法（Bayesian Geoadditive Quantile Regression），該方法通過梯度增強進(jìn)行估計。
在農(nóng)業(yè)經(jīng)濟(jì)學(xué)中，Mrz等人(2016年)將這一方法應(yīng)用于農(nóng)田租賃費率。除了非常靈活之外，該方法還使用了自動數(shù)據(jù)驅(qū)動的參數(shù)選擇，允許不同分位數(shù)上有不同參數(shù)。他們的結(jié)果揭示了協(xié)變量和租金之間存在著重要的非線性、異質(zhì)性關(guān)系。
Ifft、Kuhns和Patrick (2018)發(fā)現(xiàn)，這些方法在預(yù)測農(nóng)民信貸需求方面優(yōu)于其他機器學(xué)習(xí)法和傳統(tǒng)計量經(jīng)濟(jì)學(xué)方法。

(2)神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)還能夠捕捉高度非線性的關(guān)系。神經(jīng)網(wǎng)絡(luò)和基于樹的方法之間的一個重要區(qū)別是，使用神經(jīng)網(wǎng)絡(luò)是復(fù)雜的，并且通常需要用戶指定更多的屬性，例如層數(shù)和神經(jīng)元，以及在訓(xùn)練期間進(jìn)行更多的調(diào)整。

Cao，Ewing和Thompson (2012)發(fā)現(xiàn)單變量在風(fēng)速預(yù)測方面優(yōu)于單變量自回歸綜合移動平均(Autoregressive Integrated Moving Average,ARIMA)模型。
Karlaftis和Vlahogianni (2011)比較了神經(jīng)網(wǎng)絡(luò)和ARIMA模型在交通領(lǐng)域的性能的研究并報告了神經(jīng)網(wǎng)絡(luò)的優(yōu)越性能的證據(jù)。

與樹狀模型方法相比：神經(jīng)網(wǎng)絡(luò)提供了更自然的方法來處理超越諸如時間序列、面板或空間數(shù)據(jù)的橫截面數(shù)據(jù)的非線性關(guān)系。

缺點：Marchi等人(2004年)質(zhì)疑神經(jīng)網(wǎng)絡(luò)相對于logistic回歸模型的優(yōu)越性，認(rèn)為模型應(yīng)該盡可能的簡約，并擔(dān)心神經(jīng)網(wǎng)絡(luò)的過度擬合和可解釋性。

優(yōu)點：Beck，King和Zeng (2004)認(rèn)為使用測試集控制過度擬合優(yōu)于logit模型。最重要的是，logit模型可能需要做出不切實際的假設(shè)。例如，在他們的假設(shè)中，所有國家發(fā)生沖突的可能性是相同的，而我們預(yù)期影響是不同的，

（3）變分推理（Variational Inference）

變分推理通過允許更多的參數(shù)來增加模型的靈活性。它還可以有效地處理較大的數(shù)據(jù)集。變分推理的基本思想是用更容易計算的分布來近似復(fù)雜的分布。它提供了一種替代MCMC抽樣方法的方法，用準(zhǔn)確性來換取計算效率。

Athey等人使用變分推斷來估計具有大量反映未觀察到的特征的潛在變量的餐館需求，這將挑戰(zhàn)傳統(tǒng)方法。
Ruiz，Athey和Blei (2017)估計了一個潛在屬性交互的順序消費者選擇模型，該模型使用高度分類的購物車數(shù)據(jù)，考慮了單個商品之間的交互。

（二）處理非結(jié)構(gòu)化數(shù)據(jù)

1.問題提出

經(jīng)濟(jì)學(xué)家一般使用高度結(jié)構(gòu)化的數(shù)據(jù)(如橫截面、時間序列或面板)。而目前非結(jié)構(gòu)化數(shù)據(jù)(如圖像、文本或語音等)變得越來越可獲得，傳統(tǒng)計量經(jīng)濟(jì)學(xué)工具包對后者的用處有限。

** 2.當(dāng)前方法**

傳統(tǒng)方法依賴于基于領(lǐng)域知識的手工特性聚合數(shù)據(jù)。例如，遙感數(shù)據(jù)被用來得出植被指數(shù)(NDVI)，或諸如夜間光照強度的單一測量。手機記錄被轉(zhuǎn)換成特定的指數(shù)。同樣，當(dāng)處理文本數(shù)據(jù)時，索引通常是基于某些術(shù)語或短語的出現(xiàn)次數(shù)來導(dǎo)出的。

3.機器學(xué)習(xí)可以做什么

（1）端到端學(xué)習(xí)（End-To-End Learning）。

如果我們有大量的標(biāo)記數(shù)據(jù)，我們可以使用“End-To-End Learning”，不依賴手工的特征或變量，而是讓機器學(xué)習(xí)算法(通常是DNN算法)學(xué)會直接從原始數(shù)據(jù)中提取有用的特征。這種方法避免了傳統(tǒng)方法中選擇或聚集所隱含的信息丟失。

Ru?wurm and K?rner (2017)使用遙感數(shù)據(jù)(Sentinel 2 A圖像)作為輸入，并使用德國Bavaria 137，000多個標(biāo)記田地的數(shù)據(jù)集來確定19個田地類別。
You等人(2017年)使用多光譜遙感數(shù)據(jù)預(yù)測美國縣級大豆產(chǎn)量。通過對數(shù)據(jù)生成過程做弱假設(shè)，他們能夠減少輸入數(shù)據(jù)的維數(shù)。

（2）無監(jiān)督的DNNs預(yù)訓(xùn)練

無監(jiān)督的DNNs預(yù)訓(xùn)練用大量未標(biāo)記數(shù)據(jù)和有限標(biāo)記數(shù)據(jù)，其思想是以無監(jiān)督的方式依次訓(xùn)練神經(jīng)網(wǎng)絡(luò)的每一層。每一層都像一個自動編碼器，它的目標(biāo)是將輸入映射到自身，同時采用某種形式的規(guī)范化。因此，該模型也稱為堆疊式自動編碼器。一旦第一層被訓(xùn)練(即第一自動編碼器)，學(xué)習(xí)的編碼被給予第二層(第二自動編碼器)，然后第二層被訓(xùn)練并且其編碼被給予下一層。這個過程持續(xù)到第二個最后一層，其輸出可以被認(rèn)為是輸入數(shù)據(jù)的表示。最后一層然后使用標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練，以將該學(xué)習(xí)的表示與目標(biāo)變量相匹配，通常只涉及少量參數(shù)。訓(xùn)練可以在此停止，也可以使用標(biāo)記的數(shù)據(jù)在最后的監(jiān)督訓(xùn)練步驟中細(xì)化所有層的模型參數(shù)。

與PCA相比：無監(jiān)督的預(yù)訓(xùn)練靈活性較高。

（3）遷移學(xué)習(xí)（Transfer Learning）

在一個環(huán)境中訓(xùn)練的模型和參數(shù)可以在另一個環(huán)境中使用。典型的應(yīng)用是圖像分類或目標(biāo)識別。如VGG或ResNet這樣的大型模型是在大量標(biāo)記圖像數(shù)據(jù)集(如ImageNet)上進(jìn)行訓(xùn)練的。這些模型及其訓(xùn)練的參數(shù)可以被轉(zhuǎn)移到其他圖像識別任務(wù)中，在這些任務(wù)中，只有最后一層被訓(xùn)練，或者預(yù)處理的參數(shù)被用作起始值。在直覺層面上，即使一個模型最終被訓(xùn)練來區(qū)分狗和貓，模型的早期層次學(xué)習(xí)是通過如何識別圖像中的一般結(jié)構(gòu)，如邊緣、線條或圓，這些對其他應(yīng)用也是有用的。

（4）'Brute Force' Feature Engineering

'Brute Force' Feature Engineering使用確定性有限自動機（Deterministic Finite Automaton）自動生成大量特征，目的是盡可能多地捕捉原始數(shù)據(jù)的變化。然后在特征縮減回歸中使用創(chuàng)建的特征來選擇最有希望的特征，雖然定義特征需要更多的“手工制作”，而不是端到端的學(xué)習(xí)、轉(zhuǎn)移學(xué)習(xí)或無監(jiān)督的預(yù)培訓(xùn)，但在網(wǎng)絡(luò)數(shù)據(jù)、軌跡、電話記錄或家庭層面的跨國家掃描儀數(shù)據(jù)等輸入數(shù)據(jù)特別復(fù)雜的情況下，這種方法很有潛力。

（三）文本分析

1.問題提出：解釋變量較多

在許多領(lǐng)域，經(jīng)濟(jì)學(xué)家可以訪問大量的數(shù)據(jù)集，包括觀察數(shù)據(jù)的數(shù)量(N)和解釋變量的數(shù)量(K)。例如土壤或天氣數(shù)據(jù)，可以包括許多在高粒度空間和時間分辨率下觀察到的特征（風(fēng)、溫度、降水量、蒸發(fā)等），這些特征通常隨時間和/或空間的變化而不一致。通常，經(jīng)濟(jì)理論和領(lǐng)域知識對于選擇應(yīng)該包含在模型中的特定變量只能提供微弱的指導(dǎo)。

2.當(dāng)前的計量經(jīng)濟(jì)學(xué)方法

（1）強加結(jié)構(gòu)來選擇K，這種方法只有在K < N時才可行，如AIC比較所有可能的模型組合，這只對小K可行，當(dāng)K較大時，特別是在處理空間或時間上不一致的高分辨率數(shù)據(jù)時，數(shù)據(jù)通常是通過提取相關(guān)的手工特性來聚合的，這種聚集度量的設(shè)計需要特定的領(lǐng)域知識，信息的丟失是不可避免的。

（2）使用數(shù)據(jù)驅(qū)動的降維技術(shù)，如主成分分析(PCA)。貝葉斯變量選擇或模型平均方法更靈活，理論上也更一致，但在行業(yè)中并不常用。

3.機器學(xué)習(xí)可以做什么

機器學(xué)習(xí)法在解決大K問題，尤其是K>N時很有用。但是即使當(dāng)N > K時，這些方法也經(jīng)常是有用的。一些不利于模型復(fù)雜性的機器學(xué)習(xí)方法，如lasso可以被視為變量選擇技術(shù),樹形模型用于內(nèi)部變量選擇也可以很好地處理不相關(guān)的解釋變量。

（1）無監(jiān)督的降維方法，例如用于貪婪分層預(yù)訓(xùn)練的(堆疊)自動編碼器或者作為特征提取器。

Li等(2016年)使用自動編碼器基于傳感器數(shù)據(jù)提供更好的空氣污染預(yù)測，同時考慮到空間和時間相關(guān)性，并避免使用人工設(shè)計的特征。
Zapana等人(2017年)使用自動編碼器提取特征來表征大氣候時間序列數(shù)據(jù)。
Liu等(2015年)、薩哈、米特拉和南軍地亞(2016年)和李等人(2018年)分別使用自動編碼器來獲得天氣、季風(fēng)和水質(zhì)預(yù)報。
Bianchi等（2018）、Li等(2018)將自動編碼器還與RNNs相結(jié)合，以捕捉時間動態(tài)并處理丟失的觀測數(shù)據(jù)。

優(yōu)點：可以利用未標(biāo)記的數(shù)據(jù)。

缺點：它們旨在盡可能多地保留底層數(shù)據(jù)的變化，但沒有考慮到對于給定的任務(wù)，某些變化比其他變化更相關(guān)。例如，對于產(chǎn)量預(yù)測，天氣的某個變化可能是不相關(guān)的(例如，生長海子外部的溫度)。

（2）端到端學(xué)習(xí)

端到端學(xué)習(xí)方法可以考慮哪種變化最相關(guān)，但要求有“足夠”的標(biāo)記數(shù)據(jù)， “足夠”取決于輸入數(shù)據(jù)的維度和問題的復(fù)雜性。

（3）RNNs和CNNs

RNNs和CNNs非常適合處理大的K，特別適用于觀測在空間或時間上不重合的情況。與無監(jiān)督方法相比，神經(jīng)網(wǎng)絡(luò)的目標(biāo)不是盡可能多地保留變異，而是提取與有監(jiān)督預(yù)測任務(wù)相關(guān)的特征。

①RNNs的一個缺點是，盡管它們的體系結(jié)構(gòu)擅長記憶事件的時間順序，但它們不能很好地檢測某個事件發(fā)生在哪個位置。此外，盡管RNN理論上可以記憶任意長度的序列，但在實踐中，一旦輸入序列變得過長，它們的性能就會迅速下降。

②CNN具有更長的有效記憶，并能處理更大的序列長度。同時，在CNN中，事件的時間安排可以更自然地預(yù)先安排。該模型因此可以得知冬季的天氣事件與春季的天氣事件有不同的影響。

（四）因果推理和識別

1.問題提出：需要預(yù)測反事實

我們沒有觀察到未經(jīng)處理的觀察結(jié)果(或經(jīng)處理的對照觀察結(jié)果)會發(fā)生什么，需要預(yù)測反事實。大多數(shù)因果推理的計量經(jīng)濟(jì)學(xué)方法都假設(shè)某種結(jié)構(gòu)。

2.當(dāng)前的計量經(jīng)濟(jì)學(xué)方法

（1）匹配

例如，最近鄰對傾向分?jǐn)?shù)，將由幾個匹配變量組成的多維對象折疊成一維鄰近度量的不同方式。

①雙重穩(wěn)健回歸：A.匹配處理和對照觀察B.使用由它們的匹配傾向分?jǐn)?shù)加權(quán)的觀察進(jìn)行的處理來回歸結(jié)果。這種方法對于匹配或回歸階段的錯誤指定都是穩(wěn)健的。

②合成控制：其在處理前對結(jié)果匹配，當(dāng)處理單位很少但時間序列較長時是有用的。局限性是對于許多可能的控制觀察，估計每個控制的權(quán)重可能是有問題的。

（2）雙重差分（Difference In Differences）

如果處理的選擇是基于非時變的不可觀測數(shù)據(jù)，并且觀察了處理后的觀測數(shù)據(jù)的預(yù)處理，那么就可以簡單地應(yīng)用一個單位固定效應(yīng)的“雙重差分”方法。局限性為模型假設(shè)平行趨勢和普通沖擊對處理單位和控制單位有相同的影響。如在評估一個地區(qū)的政策變化時，假設(shè)經(jīng)濟(jì)沖擊對該地區(qū)和其他“控制”地區(qū)的影響相同，而當(dāng)處理組中存在的異質(zhì)性未被建模時，對處理組的估計可能產(chǎn)生偏差。

（3）兩階段最小二乘法(2SLS)

在內(nèi)生回歸的情況下，人們經(jīng)常使用兩階段最小二乘法(2SLS)的工具。局限性為它假設(shè)在第一階段和第二階段都是線性關(guān)系，以及處理的同質(zhì)性。

3.機器學(xué)習(xí)可以做什么

（1）反事實模擬（Counterfactual Simulation）

反事實模擬使用預(yù)處理和對照觀測的數(shù)據(jù)，預(yù)測如果不進(jìn)行處理，外源處理的觀測結(jié)果會發(fā)生什么變化。將這一預(yù)測與處理觀察的實際結(jié)果進(jìn)行比較，可以確定處理效果。這些方法可用于隨機處理或控制處理分配的準(zhǔn)實驗環(huán)境。

Burlig等人(2017年)將面板數(shù)據(jù)方法與lasso相結(jié)合，從預(yù)處理數(shù)據(jù)中預(yù)測高頻學(xué)校能源消耗的靈活反事實，以評估減少學(xué)校能源使用的方案的效果。

（2）雙機器學(xué)習(xí)（Double ML，DML）

DML結(jié)合了機器學(xué)習(xí)法的預(yù)測能力和解決正則化偏差的方法?？紤]下面的模型，其中試驗的結(jié)果是處理的加性效應(yīng)加上協(xié)變量的一些非線性函數(shù)(1)，并且這些相同的協(xié)變量非線性地決定處理

（3）匹配的機器學(xué)習(xí)方法和面板方法（ML Methods for Matching and Panel Methods.）。

①匹配的機器學(xué)習(xí)方法

梯度增強樹已被用于醫(yī)學(xué)研究中的傾向分?jǐn)?shù)匹配。模擬數(shù)據(jù)表明，在協(xié)變量之間的非線性和非加性關(guān)聯(lián)下，增強樹的表現(xiàn)很好。Doudchenko和Imbens (2016)使用彈性網(wǎng)絡(luò)（Elastic Net）來估計這些權(quán)重，因為從根本上來說，這是一個預(yù)測問題，其中控制觀測被用來預(yù)測趨勢前處理觀測。用于選擇的降維機器學(xué)習(xí)技術(shù)經(jīng)常與雙穩(wěn)健回歸相結(jié)合，以控制模型指定中的潛在誤差。

Mullally和Chakravarty (2018年)應(yīng)用這種方法來估計Nicaragua地下水灌溉方案的效果。

②面板方法

當(dāng)處理是由可觀察性決定時，標(biāo)準(zhǔn)方法是使用面板方法進(jìn)行識別，建立一個差異框架。然后控制可能與處理位置相關(guān)的非時變的不可觀察的事物。一些作者已經(jīng)將機器學(xué)習(xí)方法用于面板設(shè)置，以允許降維和更靈活的功能形式。

可能存在的問題：A.許多系數(shù)實際上為零的假設(shè)可能與大多數(shù)個體異質(zhì)性非零的觀點相沖突。B.我們通常假設(shè)同一個體的誤差隨著時間的推移是相關(guān)的，這可能影響使用正則化選擇的解釋變量的數(shù)量。

（4）因果森林（Causal Forests）

①可以估計相當(dāng)復(fù)雜的模型，根據(jù)預(yù)測能力選擇協(xié)變量作為權(quán)重，因此對于添加非信息協(xié)變量是穩(wěn)健的。

②可以在無基礎(chǔ)的情況下一致地評估異基因處理效果。他們的算法生長“誠實”的樹，根據(jù)一個子樣本估計分裂，根據(jù)另一個子樣本估計處理效果。

③可以在純預(yù)測任務(wù)中生成置信區(qū)間也很有用。與DML相反，因果森林僅限于這種特定的機器學(xué)習(xí)法，以控制協(xié)方差對結(jié)果的影響。

Chernozhukov等人(2018)應(yīng)用幾種機器學(xué)習(xí)方法來估計隨機處理對小額信貸干預(yù)對借款、自營職業(yè)和消費的異質(zhì)性影響。他們確定受影響最大和最小的群體以及與他們相關(guān)的特征。
Carter, Tjernstr?m and Toledo (2019)使用廣義隨機森林來評估Nicaragua小企業(yè)項目對農(nóng)民結(jié)果的異質(zhì)性影響，并找出對弱勢家庭的最大影響。雖然他們發(fā)現(xiàn)總體成果不大，但那些在基線時處于不利地位的家庭從該方案中獲益更多，突出了鎖定目標(biāo)的潛在好處。
Rana和Miller (2019年)使用因果森林結(jié)合匹配來估計印度兩種類型森林管理方案的異質(zhì)性影響。

（5）IV和Deep IV。

①IV

如果預(yù)測因子與誤差項不相關(guān)，即它們是外生的，那么反事實結(jié)果的預(yù)測只能識別政策或處理效果。有幾篇論文采用機器學(xué)習(xí)技術(shù)來選擇子集，以預(yù)測線性IV回歸的第一階段。

Bevis and Villa (2017)使用這種方法來估計母親健康對兒童結(jié)局的長期影響，他們在母親的早期生命中有大量來自天氣變化的潛在工具。
Ordonez，Baylis和Ramirez (2018)使用這種方法預(yù)測墨西哥Michoacan社區(qū)森林管理的采用情況，以評估其對森林結(jié)果的影響。它們有來自地點和活動或林務(wù)人員的多種潛在工具，影響社區(qū)森林管理計劃的供應(yīng)。

②Deep IV

Deep IV是一種2LS類型的方法，該方法使用機器學(xué)習(xí)法技術(shù)來放松2LS的限制性線性和同質(zhì)性假設(shè)，并克服了非參數(shù)IV方法的計算限制。與其他機器學(xué)習(xí)方法一樣，它也提供了一種變量選擇的算法方法，這在面對大量可能的工具時可能是有用的。Deep IV第一階段的估計方法是一個直接的監(jiān)督預(yù)測任務(wù)，其中靈活的機器學(xué)習(xí)法工具，如神經(jīng)網(wǎng)絡(luò)，可以用來預(yù)測復(fù)雜的儀器和控制對處理的非線性影響。第二階段也是受監(jiān)督的機器學(xué)習(xí)設(shè)置。然而，用這種方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)更加復(fù)雜，因為它需要在訓(xùn)練期間評估積分以導(dǎo)出損失函數(shù)的梯度。

（五）政策分析模擬

1.問題提出

除了計量經(jīng)濟(jì)學(xué)應(yīng)用之外，我們的專業(yè)還大量使用計算模擬模型，尤其是用于政策分析。與政策相關(guān)的模型或建模系統(tǒng)的復(fù)雜性不斷增加，這種復(fù)雜性在應(yīng)用和校準(zhǔn)中產(chǎn)生了巨大的計算需求。

2. 當(dāng)前方法

ABM模型越來越多地被用作分析農(nóng)業(yè)和環(huán)境經(jīng)濟(jì)問題。盡管它們很適合分析個體之間復(fù)雜的相互作用所產(chǎn)生的動態(tài)關(guān)系和涌現(xiàn)出的現(xiàn)象，但它們的區(qū)域覆蓋范圍、個體數(shù)量或模擬的個體行為復(fù)雜性通常受到計算約束等因素的限制。

3.機器學(xué)習(xí)可以做什么

（1）代理模型（Surrogate Modelling）

代理模型，也稱為元模型（Meta-Modelling）或響應(yīng)面模型（Response Surface Modelling），近似基礎(chǔ)復(fù)雜模型的輸入和輸出之間的映射。這種方法的潛在優(yōu)勢在于，預(yù)測的準(zhǔn)確性和維數(shù)僅受模型生成的待逼近數(shù)據(jù)量的限制。

①可用于模型校準(zhǔn)，并在水資源建模，陸地表面模型，建筑能源需求和材料科學(xué)中廣泛應(yīng)用。使用代理模型進(jìn)行校準(zhǔn)的基本思想：A.在模擬模型輸出的樣本上訓(xùn)練替代模型；B.基于該代理模型執(zhí)行校準(zhǔn)，以找到與經(jīng)驗觀察數(shù)據(jù)最接近的參數(shù)值。

②用于物理系統(tǒng)復(fù)雜模型的靈敏度分析。

這種方法仍然需要運行相對大量的底層模型來生成樣本以訓(xùn)練代理模型。為了緩解這一問題，可采用自適應(yīng)抽樣（Adaptive Sampling）或迭代標(biāo)定法（Iterative Calibration）等方法。

（2）生成式對抗網(wǎng)(Generative Adversarial Nets ，GANs)

GANs訓(xùn)練一個生成器和一個鑒別器模型。生成器旨在學(xué)習(xí)生成與實際圖像相似的圖像，而鑒別器旨在學(xué)習(xí)如何有效區(qū)分生成的圖像和實際圖像。將鑒別器結(jié)果反饋給發(fā)生器并以迭代方式提高其性能。在模型校準(zhǔn)的情況下，模型生成器可以探索以何種方式來調(diào)整模型的參數(shù)，使得生成的輸出數(shù)據(jù)盡可能接近觀察數(shù)據(jù)，同時訓(xùn)練鑒別器來區(qū)分生成的數(shù)據(jù)和觀察數(shù)據(jù)。

優(yōu)點：不需要事先指定比較標(biāo)準(zhǔn)，鑒別器自己學(xué)習(xí)哪些特征對檢測生成的數(shù)據(jù)最有用；而發(fā)生器的目標(biāo)是盡可能接近地模擬觀察到的數(shù)據(jù)。

四、經(jīng)濟(jì)學(xué)家能給機器學(xué)習(xí)帶來什么

（一）為什么單純的數(shù)據(jù)驅(qū)動模型是不夠的？

1. 數(shù)據(jù)及其標(biāo)簽短缺

盡管數(shù)據(jù)可用性有所提高，但在許多應(yīng)用中，我們?nèi)匀幻媾R數(shù)據(jù)及其標(biāo)簽的短缺。

2.數(shù)據(jù)中包含的信息不足

例如，當(dāng)處理罕見事件時，或者當(dāng)結(jié)果非常嘈雜時，或者在處理高度復(fù)雜的過程和動態(tài)變化的非平穩(wěn)模式時，即使是“大數(shù)據(jù)”也可能是不夠的，在這些情況下，發(fā)現(xiàn)虛假相關(guān)性和發(fā)現(xiàn)非泛化關(guān)系的風(fēng)險都很高。

3.數(shù)據(jù)的選擇偏差

例如，手機數(shù)據(jù)只提供給那些能夠使用手機的人；標(biāo)簽的質(zhì)量可能因國家或地區(qū)而異。

（二）理論知識可以從兩個方面幫助應(yīng)對這些數(shù)據(jù)挑戰(zhàn)。

1.理論領(lǐng)域的知識可以幫助理解一個模型為什么工作以及它是否已經(jīng)學(xué)會了合理的關(guān)系。

2.結(jié)合理論知識可以提高機器學(xué)習(xí)法的效率(見第3.1節(jié))，尤其是在所描述的數(shù)據(jù)信息有限且過程復(fù)雜的情況下。

五、前沿研究

（一）提高機器學(xué)習(xí)的預(yù)測性能

1.引入結(jié)構(gòu)信息

經(jīng)濟(jì)理論通常提供關(guān)于行為函數(shù)曲率(生產(chǎn)前沿、利潤函數(shù))或邊際效應(yīng)符號的信息。這種附加的結(jié)構(gòu)信息在數(shù)據(jù)可用性有限和特征之間的復(fù)雜交互關(guān)系的情況下可能特別有幫助。

2. 監(jiān)督方法和非監(jiān)督方法相結(jié)合

（二）用于統(tǒng)計推斷

將ML與統(tǒng)計推斷過程相結(jié)合，從變分推理程序的具體情況發(fā)展到一個通用的方法，只需要說明一個概率經(jīng)濟(jì)模型，就可以從中產(chǎn)生一個隨機樣本。

（三）用于模型模擬

1.強化學(xué)習(xí)（Reinforcement Learning）

強化方法通過選擇不同的動作并觀察相關(guān)的獎勵來學(xué)習(xí),是一種優(yōu)化方法。它們特別適合于順序設(shè)置，其中代理按順序執(zhí)行多個操作，之前的操作影響后續(xù)操作的結(jié)果，并且反饋不是即時的，而是延遲的。他們也能處理不確定的環(huán)境，其結(jié)果不是決定性的。

強化學(xué)習(xí)越來越多地用于博弈論環(huán)境，但迄今為止政策相關(guān)性有限。進(jìn)一步的發(fā)展可能有潛力在更具描述性的、與政策相關(guān)的模型中建立具有學(xué)習(xí)代理的模型，例如，代理根據(jù)自己的經(jīng)驗和環(huán)境(網(wǎng)絡(luò))提供的信息做出最佳戰(zhàn)略選擇。

2.GANs

GANs中的生成器和鑒別器算法之間的相互作用允許該方法了解什么特征是重要的，而不必先驗地選擇要校準(zhǔn)的數(shù)據(jù)的特定的有限特征。因此可利用復(fù)雜的數(shù)據(jù)結(jié)構(gòu)，并且生成的仿真模型通常更有效。

（四）保護(hù)隱私的機器學(xué)習(xí)

機器學(xué)習(xí)法研究的一個新的活躍領(lǐng)域促進(jìn)了在多個數(shù)據(jù)集上模型的分布式訓(xùn)練，這些數(shù)據(jù)集不需要被共享。鑒于機器學(xué)習(xí)從數(shù)據(jù)中獲取信息的強大能力，僅僅移除個人標(biāo)識符已被證明不足以保護(hù)參與者的身份。此外，數(shù)據(jù)泄露正變得越來越普遍，引起了學(xué)者們對收集或分析機密數(shù)據(jù)的擔(dān)憂。保護(hù)隱私的機器學(xué)習(xí)對未來的經(jīng)濟(jì)學(xué)家來說可能很重要，既允許使用機密數(shù)據(jù)，又有利于合作。