本文最初發(fā)表于 TowardsDataScience 博客,經(jīng)原作者 Michael Bronstein 授權(quán),InfoQ 中文站翻譯并分享。 今年,圖深度學(xué)習(xí)成為機(jī)器學(xué)習(xí)領(lǐng)域 炙手可熱 的話題之一。然而,那些習(xí)慣于想象卷積神經(jīng)網(wǎng)絡(luò)具有數(shù)十層甚至數(shù)百層的人,如果看到大多數(shù)關(guān)于圖深度學(xué)習(xí)的工作最多只用了幾層的話,他們會(huì)不會(huì)感到深深的失望呢?“深度圖神經(jīng)網(wǎng)絡(luò)”一詞是否被誤用了?我們是否應(yīng)該套用經(jīng)典的說法,思考深度是否應(yīng)該被認(rèn)為對(duì)圖的學(xué)習(xí) 是有害的? 訓(xùn)練深度圖神經(jīng)網(wǎng)絡(luò)是一個(gè)難點(diǎn)。除了在深度神經(jīng)結(jié)構(gòu)中觀察到的標(biāo)準(zhǔn)問題(如反向傳播中的梯度消失和由于大量參數(shù)導(dǎo)致的過擬合)之外,還有一些圖特有的問題。其中之一是過度平滑,即應(yīng)用多個(gè)圖卷積層后,節(jié)點(diǎn)特征趨向于同一向量,變得幾乎無法區(qū)分的現(xiàn)象【1】。這種現(xiàn)象最早是在 GCN 模型【2】【3】中觀察到的,其作用類似于低通濾波器【4】。 最近,人們致力于解決圖神經(jīng)網(wǎng)絡(luò)中的深度問題,以期獲得更好的性能,或許還能避免在提到只有兩層的圖神經(jīng)網(wǎng)絡(luò)時(shí)使用“深度學(xué)習(xí)”這一術(shù)語的尷尬。典型的方法可以分為兩大類。首先,使用正則化技術(shù),例如邊 dropout(DropEdge)【5】、節(jié)點(diǎn)特征之間的成對(duì)距離歸一化(PairNorm)【6】,或節(jié)點(diǎn)均值和方差歸一化(NodeNorm)【7】。其次,架構(gòu)變化,包括各種類型的殘差連接(residual connection),如跳躍知識(shí)【8】或仿射殘差連接【9】。雖然這些技術(shù)允許訓(xùn)練具有幾十層的深度圖神經(jīng)網(wǎng)絡(luò)(否則很難,甚至不可能),但它們未能顯示出顯著的收益。更糟糕的是,使用深度架構(gòu)常常會(huì)導(dǎo)致性能下降。下表摘自【7】,顯示了一個(gè)典型的實(shí)驗(yàn)評(píng)估,比較了不同深度的圖神經(jīng)網(wǎng)絡(luò)在節(jié)點(diǎn)分類任務(wù)上的表現(xiàn): 該圖顯示了深度圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在 CoauthorsCS 引文網(wǎng)絡(luò)上的節(jié)點(diǎn)分類任務(wù)中的典型結(jié)果。隨著深度的增加,基線(具有殘差連接的 GCN)表現(xiàn)不佳,性能從 88.18% 急劇下降到 39.71%。使用 NodeNorm 技術(shù)的架構(gòu)隨著深度的增加表現(xiàn)一直良好。然而,當(dāng)深度增加時(shí),性能下降(雖然不明顯,從 89.53% 下降到 87.40%)??偟膩碚f,通過 64 層的深度架構(gòu)獲得的最佳結(jié)果(87.40%),遜于簡(jiǎn)單基線(88.18%)。另外,還可以觀察到 NodeNorm 正則化提高了淺 2 層架構(gòu)的性能(從 88.18% 提高到 89.53%)。上表摘自【7】(所示為每個(gè)類 5 個(gè)標(biāo)簽的情況;該論文中研究的其他設(shè)置也表現(xiàn)出了類似的行為)。類似的結(jié)果在【5】和其他幾篇論文中也有顯示。 從這張表中可以看出,要將深度架構(gòu)帶來的優(yōu)勢(shì)與訓(xùn)練這樣一個(gè)神經(jīng)網(wǎng)絡(luò)所需的“技巧”區(qū)分開來很困難。實(shí)際上,上例中的 NodeNorm 還改進(jìn)了只有兩層的淺層架構(gòu),從而達(dá)到了最佳性能。因此,在其他條件不變的情況下,更深層次的圖神經(jīng)網(wǎng)絡(luò)是否會(huì)表現(xiàn)得更好,目前尚不清楚。 這些結(jié)果顯然與傳統(tǒng)的網(wǎng)格結(jié)構(gòu)化數(shù)據(jù)的深度學(xué)習(xí)形成了鮮明的對(duì)比,在網(wǎng)格結(jié)構(gòu)化數(shù)據(jù)上,“超深度”(ultra-deep)架構(gòu)【10】【11】帶來了性能上的突破,并在今天得到了廣泛的使用。在下文中,我將嘗試提供一些指導(dǎo),以期有助回答本文標(biāo)題提出的“挑釁性”問題。需要注意的是,我本人目前還沒有明確的答案。 圖的結(jié)構(gòu) 。由于網(wǎng)格是一種特殊的圖,因此,肯定有一些圖的例子,在這些圖上,深度是有幫助的。除網(wǎng)格外,表示分子、點(diǎn)云【12】或網(wǎng)片【9】等結(jié)構(gòu)的“幾何”圖似乎也受益于深度架構(gòu)。為什么這樣的圖與通常用于評(píng)估圖神經(jīng)網(wǎng)絡(luò)的引用網(wǎng)絡(luò)(如 Cora、PubMed 或 CoauthsCS)有如此大的不同?其中一個(gè)區(qū)別是,后者類似于具有較小直徑的“小世界”網(wǎng)絡(luò),在這種網(wǎng)絡(luò)中,人們可以在幾跳內(nèi)從任何其他節(jié)點(diǎn)到達(dá)任何節(jié)點(diǎn)。因此,只有幾個(gè)卷積層的感受野(receptive field)已經(jīng)覆蓋了整個(gè)圖【13】,因此,添加更多的層對(duì)到達(dá)遠(yuǎn)端節(jié)點(diǎn)并沒有幫助。另一方面,在計(jì)算機(jī)視覺中,感受野呈多項(xiàng)式增長(zhǎng),需要許多層來產(chǎn)生一個(gè)能捕捉圖像中對(duì)象的上下文的感受野【14】。 在小世界圖(圖上)中,只需幾跳即可從另一個(gè)節(jié)點(diǎn)到達(dá)任意一個(gè)節(jié)點(diǎn)。結(jié)果,鄰居的數(shù)量(以及相應(yīng)的,圖卷積濾波器的感受野)呈指數(shù)級(jí)快速增長(zhǎng)。在這個(gè)例子中,從紅色節(jié)點(diǎn)到每個(gè)節(jié)點(diǎn)僅需兩跳即可(不同的顏色表示將到達(dá)相應(yīng)節(jié)點(diǎn)的層,從紅色節(jié)點(diǎn)開始)。另一方面,在網(wǎng)格(圖下),感受野的增長(zhǎng)是多項(xiàng)式的,因此,需要更多的層才能達(dá)到相同的感受野大小。 在鄰居呈指數(shù)級(jí)增長(zhǎng)的圖中(如上圖所示),會(huì)出現(xiàn)瓶頸現(xiàn)象:來自太多鄰居的太多信息必須壓縮到單個(gè)節(jié)點(diǎn)特征向量中。結(jié)果,消息無法傳播,性能受到影響。 遠(yuǎn)程問題域短程問題 。一個(gè)稍微不同但相關(guān)的區(qū)別是,問題需要遠(yuǎn)程信息還是短程信息。例如,在社交網(wǎng)絡(luò)中,預(yù)測(cè)通常只依賴于來自某個(gè)節(jié)點(diǎn)本地鄰域的短程信息,而不會(huì)通過添加遠(yuǎn)程信息來改善。因此,這類任務(wù)可以由淺層 GNN 來執(zhí)行。另一方面,分子圖通常需要遠(yuǎn)程信息,因?yàn)榉肿拥幕瘜W(xué)性質(zhì)可能取決于其相對(duì)兩邊原子的組合【15】。要利用這些遠(yuǎn)程交互,可能需要深度 GNN。但是,如果圖的結(jié)構(gòu)導(dǎo)致感受野呈指數(shù)級(jí)增長(zhǎng),那么瓶頸現(xiàn)象就會(huì)阻止遠(yuǎn)程信息的有效傳播,這就解釋了為什么深度模型在性能上沒有提高【4】。 理論的局限性 。除了一個(gè)更大的感受野外,深度架構(gòu)在計(jì)算機(jī)視覺問題上提供的關(guān)鍵優(yōu)勢(shì)之一是它們從簡(jiǎn)單特征組合復(fù)雜特征的能力。將 CNN 從人臉圖像中學(xué)習(xí)到的特征進(jìn)行可視化后,會(huì)顯示出從簡(jiǎn)單的幾何原語到整個(gè)面部結(jié)構(gòu)逐漸變得更加復(fù)雜的特征,這表明傳說中的“ 祖母神經(jīng)元”更多是真實(shí)的,而不是神話。對(duì)于圖來說,這樣的組合似乎是不可能的,例如,無論神經(jīng)網(wǎng)絡(luò)有多深,都無法從邊組成三角形【16】。另一方面,研究表明,如果沒有一定的最小深度,使用消息傳遞網(wǎng)絡(luò)計(jì)算某些圖的屬性(如圖矩)是不可能的【17】??偟膩碚f,我們目前還不清楚哪些圖屬性可以用淺層 GNN 表示,哪些需要深度模型,以及哪些圖的屬性根本無法計(jì)算。 通過卷積神經(jīng)網(wǎng)絡(luò)在人臉圖像上學(xué)習(xí)特征的示例。請(qǐng)注意,當(dāng)進(jìn)入更深的圖層時(shí),特征是如何變得越來越復(fù)雜的(從簡(jiǎn)單的幾何原語,到面部部分,再到整個(gè)人臉)。圖片改編自 Matthew Stewart 的一篇 博文。 深度與豐富度 。與底層網(wǎng)格固定的計(jì)算機(jī)視覺不同,在對(duì)圖的深度學(xué)習(xí)中,圖的結(jié)構(gòu)確實(shí)很重要,并被考慮在內(nèi)。設(shè)計(jì)出更為復(fù)雜的消息傳遞機(jī)制來解決標(biāo)準(zhǔn) GNN 無法發(fā)現(xiàn)的復(fù)雜的高階信息是有可能的,比如主題【18】或 子結(jié)構(gòu)計(jì)數(shù)【19】。人們可以選擇具有更豐富的多跳濾波器的淺層網(wǎng)絡(luò),而不是使用具有簡(jiǎn)單一跳濾波器的淺層網(wǎng)絡(luò)。我們最近發(fā)表的關(guān)于可擴(kuò)展的初始類圖神經(jīng)網(wǎng)絡(luò)(SIGN)的論文,通過將單層線性圖卷積架構(gòu)與多個(gè)預(yù)計(jì)算濾波器結(jié)合使用,將這一想法發(fā)揮到了極致。我們展示的性能可以與更復(fù)雜的模型相媲美,而它們的時(shí)間復(fù)雜度僅為后者的一小部分【20】。有趣的是,計(jì)算機(jī)視覺走的是相反的道路:早期具有大(最大 11x11)濾波器的淺層 CNN 架構(gòu),如 AlexNet,被具有?。ㄍǔ?3x3)濾波器的非常深的架構(gòu)所取代。 評(píng)估 。最后但并非不重要的是,圖神經(jīng)網(wǎng)絡(luò)的主要評(píng)估方法受到了 Oleksandr Shchur 和 Stephan Günnemann【21】小組同事的嚴(yán)厲批評(píng),他們提請(qǐng)人們注意常用基準(zhǔn)的缺陷,并表明,如果在公平的環(huán)境下進(jìn)行評(píng)估,簡(jiǎn)單模型的表現(xiàn)可與更復(fù)雜的模型相媲美。我們觀察到的一些深度架構(gòu)的現(xiàn)象,例如,性能隨深度而下降,可能僅僅是源于對(duì)小數(shù)據(jù)集的過擬合所致。新的 Open Graph Benchmark 解決了其中的一些問題,提供了非常大的圖,并進(jìn)行了嚴(yán)格的訓(xùn)練和測(cè)試數(shù)據(jù)分割。我認(rèn)為,我們還需要進(jìn)行一些精心設(shè)計(jì)的特定實(shí)驗(yàn),以便更好地理解深度在圖深度學(xué)習(xí)是否有用,以及何時(shí)有用。 【1】 更確切地說,過度平滑使節(jié)點(diǎn)特征向量塌縮成一個(gè)子空間,見《 圖神經(jīng)網(wǎng)絡(luò)對(duì)節(jié)點(diǎn)分類的表達(dá)力呈指數(shù)松散》(Graph neural networks exponentially loose expressive power for node classification),K. Oono,T. Suzuki,2009 年,arXiv:1905.10947。論文闡述了使用動(dòng)態(tài)系統(tǒng)形式主義提供漸近分析。 【2】 《 深入研究圖卷積網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)》(Deeper insights into graph convolutional networks for semi-supervised learning),Q. Li、Z. Han、X.-M. Wu,2019 年,Proc. AAAI。將 GCN 模型與 Laplacian 平滑進(jìn)行了類比,指出了過度平滑現(xiàn)象。 【3】 《 重溫圖神經(jīng)網(wǎng)絡(luò):我們所擁有的都是低通濾波器》(Revisiting graph neural networks: All we have is low-pass filters),H. Nt and T. Maehara,2019 年,arXiv:1905.09550。在圖上使用譜分析來回答 GCN 何時(shí)表現(xiàn)良好。 【4】 《 論圖神經(jīng)網(wǎng)絡(luò)的瓶頸及其實(shí)踐意義》(On the bottleneck of graph neural networks and its practical implications),U. Alon、E. Yahav,2020 年,arXiv:2006.05205。論文確定了圖神經(jīng)網(wǎng)絡(luò)中的過度壓縮現(xiàn)象,這與序列遞歸模型中的過壓縮現(xiàn)象類似。 【5】 《 DropEdge:面向深度圖卷積網(wǎng)絡(luò)的節(jié)點(diǎn)分類》(DropEdge: Towards deep graph convolutional networks on node classification),Y. Rong 等人,2020 年,In Proc. ICLR。論文闡述了一種類似于 DeopOut 的思想,在訓(xùn)練中使用隨機(jī)邊緣子集。 【6】 《 PairNorm:處理 GNN 中的過度平滑》(PairNorm: Tackling oversmoothing in GNNs),L. Zhao、L. Akoglu,2020 年,Proc. ICLR。論文提出對(duì)節(jié)點(diǎn)特征之間的成對(duì)距離和進(jìn)行歸一化,以防止它們塌縮成單個(gè)點(diǎn)。 【7】 《 深度圖神經(jīng)網(wǎng)絡(luò)的有效訓(xùn)練策略》(Effective training strategies for deep graph neural networks),K. Zhou 等人,2020 年,arXiv:2006.07107。 【8】 《 具有跳躍知識(shí)的圖表示學(xué)習(xí)》(Representation learning on graphs with jumping knowledge networks),K. Xu 等人,2018 年,Proc. ICML 2018。 【9】 《 圖神經(jīng)網(wǎng)絡(luò)中的幾何原理連接》(Geometrically principled connections in graph neural networks),S. Gong 等人,2020 年,Proc. CVPR。 【10】 《更深的卷積》(Going deeper with convolutions),C. Szegedy 等人,2015 年,Proc. CVPR。 【11】《基于深度殘差學(xué)習(xí)的圖像識(shí)別》(Deep residual learning for image recognition),K. He 等人,2016 年,Proc. CVPR。 【12】 《 DeepGCN:GCN 能像 CNN 一樣深嗎?》(DeepGCNs: Can GCNs go as deep as CNNs?),G. Li 等人,Proc. ICCV。論文闡述了幾何點(diǎn)云數(shù)據(jù)的深度優(yōu)勢(shì)。 【13】 Alon 和 Yahav 將節(jié)點(diǎn)無法從比層數(shù)更遠(yuǎn)的節(jié)點(diǎn)接受信息的情況稱為“欠范圍”(under-reachinig)。P Barceló 等人在論文《 圖神經(jīng)網(wǎng)絡(luò)的邏輯表達(dá)力》(The logical expressiveness of graph neural networks)首先指出了這一現(xiàn)象,2020 年,Proc. ICLR。Alon 和 Yahav 通過實(shí)驗(yàn)研究了分子圖的化學(xué)性質(zhì)預(yù)測(cè)問題(使用層數(shù)大于圖直徑的 GNN),發(fā)現(xiàn)性能差的根源并非達(dá)不到,而是過度壓縮。 【14】 André Araujo 和合著者發(fā)表了一篇關(guān)于卷積神經(jīng)網(wǎng)絡(luò)感受野的 優(yōu)秀博文。隨著 CNN 模型在計(jì)算機(jī)視覺應(yīng)用中的發(fā)展,從 AlexNet,到 VGG、ResNet 和 Inception,它們的感受野作為層數(shù)增加的自然結(jié)果而增加。在現(xiàn)代架構(gòu)中,感受野通常包含整個(gè)輸入圖,即最終輸出特征映射中每個(gè)特征所使用的上下文包含所有的輸入像素。Araujo 等人觀察到分類準(zhǔn)確率與感受野大小之間存在對(duì)數(shù)關(guān)系,這表明較大的感受野對(duì)于高水平的識(shí)別任務(wù)是必需的,但收益是遞減的。 【15】 《 基于波網(wǎng)絡(luò)的無向圖遠(yuǎn)程信息的深度學(xué)習(xí)》(Deep learning long-range information in undirected graphs with wave networks),M. K. Matlock 等人,2019 年,Proc. IJCNN。觀察了圖神經(jīng)網(wǎng)絡(luò)在分子圖中捕捉遠(yuǎn)距離交互作用的失敗現(xiàn)象。 【16】 這源于消息傳遞 GNN 等價(jià)于 Weisfeiler-Lehman 圖通過測(cè)試,參見例如《 關(guān)于 Weisfeiler-Lehman 不變性:子圖計(jì)數(shù)和相關(guān)圖性質(zhì)》(On Weisfeiler-Leman invariance: subgraph counts and related graph properties),V. Arvind 等人,2018 年,arXiv:1811.04801。以及《 圖神經(jīng)網(wǎng)絡(luò)能計(jì)算子結(jié)構(gòu)嗎?》(Can graph neural networks count substructures?),Z. Chen 等人,2020 年,arXiv:2002.04025。 【17】 《 理解圖神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)圖拓?fù)渲械谋硎灸芰Α罚║nderstanding the representation power of graph neural networks in learning graph topology),N. Dehmamy、A.-L. Barabási、R. Yu,2019 年,Proc. NeurIPS。論文表明了一定階數(shù)的學(xué)習(xí)圖矩需要一定深度的 GNN。 【18】 《 MotifNet:基于主題(motif)的有向圖卷積網(wǎng)絡(luò)》(MotifNet: a motif-based Graph Convolutional Network for directed graphs),F(xiàn). Monti、K. Otness、M. M. Bronstein,2018 年,arXiv:1802.01572。 【19】 《 通過子圖同構(gòu)計(jì)數(shù)提高圖神經(jīng)網(wǎng)絡(luò)的表達(dá)能力》(Improving graph neural network expressivity via subgraph isomorphism counting),G. Bouritsas 等人,2020 年,arXiv:2006.09252。 【20】 《 SIGN:可擴(kuò)展的初始圖神經(jīng)網(wǎng)絡(luò)》(SIGN: Scalable inception graph neural networks),E. Rossi 等人,2020 年,arXiv:2004.11198。 【21】 《 圖神經(jīng)網(wǎng)絡(luò)評(píng)估的缺陷》(Pitfalls of graph neural network evaluation),O. Shchur 等人,2018 年。關(guān)系表征學(xué)習(xí)研討會(huì)(Workshop on Relational Representation Learning)。論文闡述了簡(jiǎn)單的 GNN 模型與復(fù)雜的 GNN 模型的性能相當(dāng)。 作者介紹: Michael Bronstein,倫敦帝國(guó)理工學(xué)院教授,Twitter 圖機(jī)器學(xué)習(xí)研究負(fù)責(zé)人,CETI 項(xiàng)目機(jī)器學(xué)習(xí)主管、研究員、教師、企業(yè)家和投資者。 原文鏈接: https:///do-we-need-deep-graph-neural-networks-be62d3ec5c59 你也「在看」嗎??? |
|