日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

蔡瑞初、陳微、郝志峰:因果推斷與因果性學(xué)習(xí)研究進展

 liyu_sun 2021-03-30

摘 要

本文主要從因果推斷方法和因果性學(xué)習(xí)這兩個方面介紹和分析了目前國內(nèi)外相關(guān)領(lǐng)域的研究進展,探討了這兩方面研究的發(fā)展方向。

關(guān) 鍵 字

人工智能;因果推斷;因果性學(xué)習(xí);領(lǐng)域自適應(yīng)

圖片

0 引言

因果關(guān)系一直是人類認識世界的基本方式和現(xiàn)代科學(xué)的基石。愛因斯坦就曾指出,西方科學(xué)的發(fā)展是以希臘哲學(xué)家發(fā)明形式邏輯體系,以及通過系統(tǒng)的實驗發(fā)現(xiàn)有可能找出因果關(guān)系這兩個偉大的成就為基礎(chǔ)。從與相關(guān)關(guān)系對比的角度來看, 因果關(guān)系嚴格區(qū)分了“原因”變量和“結(jié)果” 變量,在揭示事物發(fā)生機制和指導(dǎo)干預(yù)行為等方 面有相關(guān)關(guān)系不能替代的重要作用。以圖1為例,吸煙、黃牙都與肺癌具有較強的相關(guān)關(guān)系,然而只有吸煙才是肺癌的原因,也只有戒煙才能降低肺癌的發(fā)病概率,而把牙齒洗白則不能降低肺癌的發(fā)病概率。探索和推斷事物間的因果關(guān)系,是數(shù)據(jù)科學(xué)中的一個核心問題,正受到國內(nèi)外同行的廣泛關(guān)注?,F(xiàn)有因果關(guān)系的研究集中在因果推斷及因果性學(xué)習(xí)兩個方面。

圖片

圖 1  吸煙與黃牙、肺癌之間的因果關(guān)系發(fā)現(xiàn) 

因果推斷的目標(biāo)是發(fā)現(xiàn)變量/事物背后的因果關(guān)系。隨機控制實驗是發(fā)現(xiàn)因果關(guān)系的傳統(tǒng)方法。由于實驗技術(shù)局限和實驗耗費代價巨大等原因,越來越多的因果推斷領(lǐng)域?qū)W者希望通過觀察數(shù)據(jù)推斷變量之間的因果關(guān)系,已成為當(dāng)前因果推斷領(lǐng)域的研究熱點。在基于觀察數(shù)據(jù)的因果推斷領(lǐng)域研究方面的代表性進展包括在上個世紀90年代,圖靈獎得主Pearl Judea教授、卡內(nèi)基梅隆大學(xué)Clark Glymour教授等先驅(qū)共同建立了基于觀察數(shù)據(jù)因果推斷的理論基礎(chǔ)和基于約束的方法,以及近10年Bernhard Sch?lkopf、Kun Zhang、Shohei Shimizu等學(xué)者為代表提出的基于因果函數(shù)模型的方法。 

因果性學(xué)習(xí)則體現(xiàn)了因果推斷對于機器學(xué)習(xí)算法設(shè)計的指導(dǎo)作用。隨著人工智能的發(fā)展,越來越多學(xué)者開始認識到因果推斷對于克服現(xiàn)有人工智能方法/技術(shù)在抽象、推理和可解釋性等方面的不足具有重要意義。正如圖靈獎得獎?wù)逷earl Judea在新作《The Book of Why》一書中提出的 “因果關(guān)系之梯”,他把因果推斷分成三個層面,第一層是“關(guān)聯(lián)”;第二層是“干預(yù)”;第三層是“反事實推理”。他特別指出,我們當(dāng)前的機 器學(xué)習(xí)領(lǐng)域的研究只處于第一層,只是“弱人工智能”,要實現(xiàn)“強人工智能”還需要干預(yù)和反事實推理。在Kun Zhang等學(xué)者發(fā)表的《Learning causality and causality-related learning: some recent progress》綜述中,對基于因果思想的機器學(xué)習(xí)方法進行了總結(jié),提出了因果性學(xué)習(xí)這一概念。 

因果推斷、因果性學(xué)習(xí)及一些相關(guān)概念的關(guān)系如圖2所示。因果推斷理論和方法為因果性學(xué)習(xí)提供了重要的理論基礎(chǔ)和思想的來源。下面分別對基于觀察數(shù)據(jù)的因果推斷方法和因果性學(xué)習(xí)方法這兩個方面的研究進展進行重點探討。

圖片

圖 2  本文的研究內(nèi)容

1 因果推斷

近30年來,因果推斷的研究一直備受學(xué)者們關(guān)注。針對觀察數(shù)據(jù)特性的不同,基于觀察數(shù)據(jù)的因果推斷方法可以分為基于時序觀察數(shù)據(jù)的因果推斷方法和基于非時序觀察數(shù)據(jù)的因果推斷方法。雖然時序觀察數(shù)據(jù)中時間維度蘊含了“因-果”方向的重要信息——“果”在時間上不能發(fā)生在“因”的前面,但是時序數(shù)據(jù)需要獲取一個對象在不同時刻的觀察值,對觀察手段具有較高的要求。同時,部分基于非時序觀察數(shù)據(jù)的因果推斷方法可以拓展到時序觀察數(shù)據(jù)中,所以本文主要探討基于非時序觀察數(shù)據(jù)的因果推斷方法。

圖片
圖片

1.1 基于約束的方法

基于約束的方法主要以美國卡內(nèi)基梅隆大學(xué)Glymour教授和Spirtes教授的PC(Peter-Clark)算法,以及加利福尼亞州大學(xué)洛杉磯分校Pearl教授和Verma教授的IC(Inductive Causation)算法為代表。這兩個算法的基本流程主要有兩個階段,首先利用基于獨立性或條件獨立性檢驗的相關(guān)方法判斷變量之間的獨立性,獲得變量間的因果無向圖;然后再利用V-結(jié)構(gòu)和定向規(guī)則對變量間的無向邊進行定向。這兩個算法主要解決因果關(guān)系方向推斷難題。后續(xù)有不少學(xué)者在此算法上 進行了一些拓展和改進。

為了降低高維數(shù)據(jù)上的誤發(fā)現(xiàn)率,北京大學(xué)耿直教授等提出了一種搜索局部結(jié)構(gòu)的分解方法,通過遞歸方法將圖一分為二,學(xué)習(xí)局部結(jié)構(gòu),并逐步自底向上整合成全局結(jié)構(gòu)。Tsamardinos等則結(jié)合基于約束的方法和貪婪等價類搜索方法,提 出了最大-最小爬山法(MMHC)。這種方法先通過局部結(jié)構(gòu)學(xué)習(xí)算法——最大-最小父親孩子(MMPC)算法學(xué)習(xí)因果無向圖,然后用貪婪貝葉斯評分爬山搜索方法對無向圖進行定向。

另一類學(xué)者們關(guān)注的問題是不完全觀察數(shù)據(jù)情況下存在隱變量,不完全觀察數(shù)據(jù)導(dǎo)致的虛假因果關(guān)系問題。例如,圖1的例子中,如果 只有黃牙和肺癌的相關(guān)數(shù)據(jù),利用因果推斷方法,我們往往會發(fā)現(xiàn)二者之間存在因果關(guān)系。但是實際上這種關(guān)系是虛假的,未觀察到的吸煙才是兩者的共同原因,黃牙和肺癌之間在吸煙條件下是互相獨立的。在現(xiàn)實場景中經(jīng)常出現(xiàn)這種情況,這時對隱變量的檢測就至關(guān)重要。針對隱變量問題,Spirtes教授等提出了FCI(Fast Causal Inference)算法,后續(xù)學(xué)者們對其進行了拓展,如Colombo等的RFCI(Really Fast Causal Inference)算法??紤]到小樣本的情況,Ogarrio 等提出了GFCI(Greedy Fast Causal Inference)算法。鑒于線性圖模型蘊含著多種協(xié)方差矩陣子矩陣的排序約束,Kummerfeld等利用這些排序約束,再加上條件獨立性檢驗,提出了一種FTFC (Find Two Factor Clusters)算法,用于識別隱變量模型。

1.2 基于因果函數(shù)模型的方法

基于因果函數(shù)模型的方法則是從數(shù)據(jù)產(chǎn)生的因果機制出發(fā),探索利用因果函數(shù)模型來識別因果方向。此類方法主要以線性非高斯無環(huán)模型 (LiNGAM)、加性噪聲模型(ANM),后非線性模型(PNL)和信息幾何方法(IGCI)這幾類模型為代表。

線性無環(huán)模型是一種較為經(jīng)典的模型,主要用于分析連續(xù)變量之間的因果方向與因果連接權(quán)重。利用數(shù)據(jù)的非高斯性,Shimizu等于2006年首先提出了LiNGAM,并用獨立成分分析(ICA)求解,所以又稱為ICA-LiNGAM算法。但該模型具有局部收斂的缺陷,使得求解結(jié)果往往是局部最優(yōu)解,而不是全局最優(yōu)解。2011年,Shimizu 等緊接地提出了DirectLiNGAM(A Direct Method for a Linear Non-Gaussian SEM)框架,通過不斷地識別外生變量進而估計因果次序。

與線性模型相比,非線性加噪模型不具有傳遞性,即每個直接因果關(guān)系遵循該模型,但卻省略了中間因果變量。因此我們提出了一種級聯(lián)非線性加性噪聲模型(Cascade Nonlinear Additive Noise Models)來表示這種因果關(guān)系,并進一步提出了一種在變分自動編碼器框架下從數(shù)據(jù)中估計模型的方法。實驗結(jié)果表明,所提出的模型和方法極大地擴展了基于因果函數(shù)模型的方法在非線性情形中的適用性。

上述方法主要適用于連續(xù)型數(shù)據(jù)。目前將連續(xù)空間上的因果方法推廣到離散空間上,仍然是一個具有挑戰(zhàn)的問題。Peters等嘗試將加性噪聲模型推廣到離散的數(shù)據(jù)上,然而對于類別型變量來說,基于加性噪聲模型的假設(shè)很難被滿足。我們試圖找到一種更為一般的,可適用于更多數(shù)據(jù)上的因果機制。如圖3所示,通過假設(shè)了一種兩階段過程的因果機制,我們建立了HCR(Hidden Compact Representation)模型。在第一階段中,原因變量通過一個恒等映射得到一個低秩的隱變量;在第二階段中,結(jié)果由隱變量的狀態(tài)決定,并在隨機噪聲干擾下產(chǎn)生。基于似然度框架,引 入貝葉斯準(zhǔn)則,給出了一種識別該模型的方法。

圖片

圖 3  HCR 模型 

另一類值得人們關(guān)注的問題是現(xiàn)有方法不適用于數(shù)據(jù)含有測量誤差的情況。在現(xiàn)實生活中,由于觀測手段的有限性,我們所獲取的數(shù)據(jù)也不可避免地含有測量誤差。Scheines和Ramsey探索了測量誤差的存在對基于線性因果函數(shù)模型的方法影響,Zhang等隨后提出并證明了含有測量誤差的線 性因果模型的可識別條件。研究指出,當(dāng)數(shù)據(jù)越趨向高斯分布,對應(yīng)的因果推斷也會越困難;當(dāng)不具備對測量誤差的先驗知識時,因果推斷也是不可能的。我們從外生變量的性質(zhì)中得到啟發(fā),提出一種基于熵的ETPIA算法。第一階段,利用外生變量具有熵最小的性質(zhì)將識別外生變量。第二階段,剔除外生變量對其余變量的影響。在剔除階段針對不含有測量誤差的情況, 直接使用回歸系數(shù)去除外 生變量對其余變量的影響;而在含有測量誤差的情況下,利用依賴比實現(xiàn)外生變量效應(yīng)的剔除。第三階段,則需要在得到外生變量的順序(因果次序)的基礎(chǔ)上使用剪枝算法獲得最終的因果網(wǎng)絡(luò)。

上述內(nèi)容都是考慮從觀察數(shù)據(jù)中發(fā)現(xiàn)因果關(guān)系,并不適用于含有隱變量的情況。特別地,在隱變量的研究中,如何學(xué)習(xí)隱變量之間的因果關(guān)系,是當(dāng)今研究的熱點問題和挑戰(zhàn)。在LiNGAM模型的基礎(chǔ)上,通過引入隱變量,Tashiro和 Shimizu等提出了ParceLiNGAM算法,主要通過檢驗估計回歸殘差與外生變量的獨立性和找到包含未被隱變量所影響的變量子集來發(fā)現(xiàn)隱變 量;Hoyer等結(jié)合LiNGAM模型,提出適用于 線性非高斯條件下的lvLiNGAM(latent variable LiNGAM)框架。但是這些研究大多數(shù)關(guān)注于在含有隱變量的情況下發(fā)現(xiàn)可觀察變量的因果結(jié)構(gòu),而不在于發(fā)現(xiàn)隱變量的因果結(jié)構(gòu)。如旨在發(fā)現(xiàn)隱變量結(jié)構(gòu)的工作(如Tetrad),往往需要更多的可觀察變量,且它們輸出的是一個等價 類。為了在觀察變量數(shù)量不多的情況下識別隱變量結(jié)構(gòu),通過引入非高斯性假設(shè),我們提出了一種基于Triad約束條件的隱變量因果結(jié)構(gòu)學(xué)習(xí)算法 LSTC(Learn the Structure of latent variables based on Triad Constraints)。在其他類型數(shù)據(jù)上,Zhang等擴展了GPLVM(Gaussian-Process Latent Variable Model),提出了IGPLVM(Invariant Gaussian Process Latent Variable Models)算法來處理隱變量對觀察變量的因果作用是非線性的,而觀察變量間的因果作用是線性的情況。

1.3 混合型方法

混合型方法是融合了基于約束的方法和因果函數(shù)模型的方法而發(fā)展出來的另一類方法。這類方法有效地提高因果函數(shù)模型的不足,同時克服了高維數(shù)據(jù)上誤發(fā)現(xiàn)率控制難題?,F(xiàn)有的混合型方法主要依賴分治策略、組裝策略與融合策略這三類策略方法。

利用分治策略,我們嘗試將因果推斷問題分解為子問題并利用遞歸方法求解,提出了SADA(Scalable cAusation Discovery Algorithm)框架,主要適用于因果結(jié)構(gòu)中的稀疏屬性的觀察分析,在樣本集較少的情況下也能正確地識別因果變量。其主要思想是,首先通過求解因果分割集將高維問題分解成2個子問題;然后針對每個子問題進行遞歸分解直到其問題規(guī)模足夠小;針對每個足夠小的子問題,采用ANM等基于因果函數(shù)模型的方法進行求解,最后對小問題進行合并。

我們在研究中發(fā)現(xiàn),分治策略在分解問題時引入錯誤的劃分,在后續(xù)過程中會不斷累積使得總體誤差呈現(xiàn)某種不可控的現(xiàn)象。而組裝策略可以針對隨機小變量集合,通過某種復(fù)雜的聚合過程排除由于分割引入的結(jié)構(gòu)錯誤,獲得可靠因果機制。所以我們設(shè)計了SMRP(Sophisticated Merging over Random Partitions)算法來合并所有劃分的結(jié)果,運用基于傳播的顯著性增強方法和最大無環(huán)子圖的因果次序方法等對局部結(jié)果進行合并。該框架能通過可靠的因果機制,有效地合并隨機分塊的部分結(jié)果。

上述兩類策略及方法主要基于分治的思想,還有另一類考慮融合不同方法的策略??紤]到基于評分的方法得到的結(jié)果存在馬爾可夫等價類問題,而基于因果函數(shù)模型的方法有助于消除馬爾可夫等價類,故嘗試將兩者進行融合,提出了SELF(Structural Equational Likelihood Framework)框架。其核心思想是將因果函數(shù)的噪聲獨立性假設(shè)嵌入似然度計算中,通過似然度框架實現(xiàn)兩類方法的統(tǒng)一。

混合型方法一定程度實現(xiàn)了基于約束的方法的高維擴展性和基于因果函數(shù)模型的方法的因果發(fā)現(xiàn)能力的結(jié)合,為我們在高維數(shù)據(jù)場景中的應(yīng)用提供了重要基礎(chǔ)。例如在與中國南方電網(wǎng)合作中,通過運用混合型方法建立了電網(wǎng)信息子系統(tǒng)的故障發(fā)生模型,并基于故障因果溯源,實現(xiàn)了根因故障的快速定位。在該應(yīng)用案例中,故障定位中的平均準(zhǔn)確率由原來的55.56%提高到 91.67%,大大減少了故障排查范圍,提升了系統(tǒng)運行的可靠性。我們還與南方通訊建設(shè)、華為等單位合作,在移動通訊網(wǎng)絡(luò)基站性能優(yōu)化上進行了應(yīng)用,通過重構(gòu)基站性能指標(biāo)之間的因果網(wǎng)絡(luò),成功給出了數(shù)據(jù)連接性能和通話質(zhì)量優(yōu)化等重要典型投訴的優(yōu)化方案,相關(guān)方案在實際應(yīng)用效果中超過了傳統(tǒng)領(lǐng)域?qū)<一诮?jīng)驗給出的優(yōu)化方案。這些成功應(yīng)用案例體現(xiàn)了因果推斷在決策支持領(lǐng)域的重要價值,是因果推斷研究的重要方向。

2 因果性學(xué)習(xí)

目前以深度學(xué)習(xí)為代表的機器學(xué)習(xí)正受到學(xué)者們越來越多的關(guān)注。然而,機器學(xué)習(xí),尤其是深度學(xué)習(xí)的可解釋性、泛化能力和對數(shù)據(jù)的過度依賴是目前公認的挑戰(zhàn)。為此,學(xué)界越來越關(guān)注在機器學(xué)習(xí)中因果思想的運用,在半監(jiān)督學(xué)習(xí)(SSL)和領(lǐng)域自適應(yīng)等方面進行了嘗試。相關(guān)研究表明,因果推斷理論給出了隱藏在觀察數(shù)據(jù)背后的有用信息,為半監(jiān)督學(xué)習(xí)和領(lǐng)域自適應(yīng)等機器學(xué)習(xí)領(lǐng)域的研究提供了新思路和方向。我們對這兩方面的因果性學(xué)習(xí)方法進行了總結(jié),如表2所示。

圖片

在半監(jiān)督學(xué)習(xí)中,馬普所的Sch?lkopf等指出半監(jiān)督學(xué)習(xí)在因果方向上的學(xué)習(xí)與反因果方向上學(xué)習(xí)的區(qū)別,揭示了在沒有混淆因子的情況下,無標(biāo)簽數(shù)據(jù)只有在反因果方向下才是有效的,而在因果方向上是無效的。他們發(fā)現(xiàn),半監(jiān)督學(xué)習(xí)方法的有效性與因果關(guān)系中原因變量的概率P(原因),與給定原因變量的情況下結(jié)果變量的概率 P(結(jié)果|原因)的獨立性有緊密聯(lián)系。 

在領(lǐng)域自適應(yīng)研究中,確定從源域轉(zhuǎn)移到目標(biāo)領(lǐng)域的信息,以及如何進行轉(zhuǎn)移是一個至關(guān)重要的問題。因果模型可以作為一個很好的工具來解決這個問題。Pearl教授通過研究證明因果圖可以被用于建立允許跨域的結(jié)果傳輸?shù)臈l件;Zhang等發(fā)現(xiàn)即使在這種條件不成立的情況下,仍然可以利用因果知識,以及一些技術(shù)條件來進行領(lǐng)域自適應(yīng)。其基本思想是,如果 它們之間沒有混雜因子,則P(原因)和P(結(jié)果|原因)是真實因果過程的反映,并且變化是 獨立的,從而允許以簡單的形式分別對變化進行 參數(shù)化。當(dāng)源域是多個的情況下,Zhang等將已 知的因果關(guān)系知識(數(shù)據(jù)背后產(chǎn)生的機制)融合到領(lǐng)域自適應(yīng)中,提出了三種適用于不同場景的方法,即利用重要性權(quán)重調(diào)整的weigh_sample算法、使用了通用性學(xué)習(xí)的genar_model,以及借助了源假設(shè)的權(quán)重結(jié)合的combn_classf方法。我們則分別從因果解耦和因果同態(tài)假設(shè)這兩個角度探討了領(lǐng)域自適應(yīng)問題。從因果解耦角度,假設(shè)不同領(lǐng)域的數(shù)據(jù)由領(lǐng)域隱變量和語義隱變量組成,其因果圖表示見圖4?;谶@個假設(shè),我們提出了語義解耦表達(DSR)模型,采用變分自動編碼機和對梯度反轉(zhuǎn)學(xué)習(xí)方法實現(xiàn)了領(lǐng)域隱變量(Zd)和語義隱變量(Zy)的重構(gòu)和解耦。在因果同態(tài)假設(shè)中,假設(shè)不同領(lǐng)域數(shù)據(jù)服從同態(tài)假設(shè),即共享部分相同因果網(wǎng)絡(luò)結(jié)構(gòu)(見圖5)。通過學(xué)習(xí)不同領(lǐng)域數(shù)據(jù)間的同態(tài)映射和同態(tài)算子,我們提出DACH方法成功分 離出了不同領(lǐng)域背后共享的因果機制,實現(xiàn)了可靠的領(lǐng)域自適應(yīng)。此外,還基于特定的假設(shè),從理論角度給出了領(lǐng)域自適應(yīng)問題誤差界。

圖片

圖 4  不同領(lǐng)域數(shù)據(jù)生成過程因果圖

圖片

圖 5  因果同態(tài)示意圖(在千克和磅兩個領(lǐng)域中運動前 體重大于運動后體重這一運算結(jié)果保持不變) 

3 結(jié)束語

本文對因果推斷及因果性學(xué)習(xí)的一些基本方 法和最新進展進行簡要介紹。目前因果推斷領(lǐng)域 研究已經(jīng)涌現(xiàn)出大量相關(guān)方法,并開始在根因故 障定位等領(lǐng)域顯示出良好的應(yīng)用效果。但是,因 果等價類的方向判別、高維數(shù)據(jù)上的誤發(fā)現(xiàn)率控 制和不完全觀察數(shù)據(jù)上的隱變量檢測等難題仍有 待進一步解決。因果性學(xué)習(xí)方面研究則還處于起 步階段,未來還有很大的發(fā)展空間。當(dāng)然,因果 性學(xué)習(xí)的發(fā)展一定程度也受限于因果推斷理論與 方法的突破。例如,現(xiàn)有機器學(xué)習(xí)任務(wù)中很難保 證數(shù)據(jù)的完全觀察特性,限制了因果推斷理論與 方法的應(yīng)用。綜上,因果推斷和因果性學(xué)習(xí)是值 得深入研究的任務(wù)。 

(參考文獻略)

圖片

選自《中國人工智能學(xué)會通訊》

       2020年  第10卷  第5期  機器學(xué)習(xí)及其應(yīng)用專題

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多