日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

基于骨架的動(dòng)作識別的時(shí)空圖卷積網(wǎng)絡(luò)

 taotao_2016 2020-01-14

人體骨架為人類動(dòng)作識別傳遞了重要的信息。傳統(tǒng)的骨架建模方法通常依賴于手工制作的部件或遍歷規(guī)則,因此表達(dá)能力有限,難以推廣。本文中,我們提出了一種新的動(dòng)態(tài)骨架模型,稱為時(shí)空圖卷積網(wǎng)絡(luò)(ST-GCN),它通過從數(shù)據(jù)中自動(dòng)學(xué)習(xí)空間和時(shí)間模式,突破了以往方法的局限性。這種方法不僅具有更強(qiáng)的表現(xiàn)力,而且具有更強(qiáng)的泛化能力。在兩個(gè)大型數(shù)據(jù)集Kinetics和NTU-RGBD上,與主流方法相比取得了實(shí)質(zhì)性的改進(jìn)。

關(guān)注文章公眾號

對話框回復(fù)“paper27”獲取本篇論文


動(dòng)機(jī)


1)現(xiàn)有的大多數(shù)方法都依賴于手工制作的部件或規(guī)則來分析空間模式。因此,為特定應(yīng)用設(shè)計(jì)的模型很難推廣到其他應(yīng)用。

2)目前的使用圖神經(jīng)網(wǎng)絡(luò)的方法,都假設(shè)一個(gè)固定的圖作為輸入,這樣的方式對于基于骨架的動(dòng)作識別任務(wù)來說并不是最優(yōu)的。

因此,本文通過將圖神經(jīng)網(wǎng)絡(luò)擴(kuò)展到時(shí)空圖模型,設(shè)計(jì)了一種用于動(dòng)作識別的骨架序列的通用表示方法,稱為時(shí)空圖卷積網(wǎng)絡(luò)(ST-GCN)。


貢獻(xiàn)


1)提出了一種通用的基于圖的動(dòng)態(tài)骨架建模方法ST-GCN,首次將基于圖的神經(jīng)網(wǎng)絡(luò)應(yīng)用于這一課題。

2)針對骨骼建模的具體要求,提出了在ST-GCN中設(shè)計(jì)卷積核的幾個(gè)原則。

3)在兩個(gè)用于基于骨架的動(dòng)作識別的大規(guī)模數(shù)據(jù)集上,與以前使用手工制作的部分或遍歷規(guī)則的方法相比,所提出的模型獲得了更好的性能,并且比手工設(shè)計(jì)的工作量要小得多。



時(shí)空圖卷積網(wǎng)絡(luò)


本文通過將圖神經(jīng)網(wǎng)絡(luò)擴(kuò)展到時(shí)空圖模型,設(shè)計(jì)了一種用于動(dòng)作識別的骨架序列的通用表示方法,稱為時(shí)空圖卷積網(wǎng)絡(luò)(ST-GCN)。

骨架圖結(jié)構(gòu)

骨架序列通常由每個(gè)幀中每個(gè)人體關(guān)節(jié)的2D或3D坐標(biāo)表示,我們構(gòu)建了一個(gè)以關(guān)節(jié)為圖節(jié)點(diǎn),人體結(jié)構(gòu)和時(shí)間中的自然連通性為圖邊的時(shí)空圖G=(V,E),其為具有N個(gè)關(guān)節(jié)和T個(gè)幀的骨架序列。

節(jié)點(diǎn)集合V表示為:

包括骨架序列中的所有關(guān)節(jié)。作為ST-GCN的輸入,節(jié)點(diǎn)上的特征向量由第t幀上第i個(gè)關(guān)節(jié)的坐標(biāo)向量和置信度組成。

邊E的集合由兩個(gè)子集組成。首先,根據(jù)人體結(jié)構(gòu)的連通性,將一個(gè)骨架內(nèi)的關(guān)節(jié)用邊連接起來:

然后,每個(gè)關(guān)節(jié)將連接到連續(xù)幀中的同一關(guān)節(jié):

空間圖卷積神經(jīng)網(wǎng)絡(luò)

考慮單個(gè)幀內(nèi)的CNN模型。在這種情況下,在時(shí)間T 的單個(gè)幀上,有N個(gè)關(guān)節(jié)節(jié)點(diǎn)以及骨架邊在空間卷積神經(jīng)網(wǎng)絡(luò)中,我們以圖像中的卷積神經(jīng)網(wǎng)絡(luò)為依托,根據(jù)動(dòng)態(tài)骨胳序列的特點(diǎn),定義了新的應(yīng)用與圖卷積的采樣函數(shù)與權(quán)重函數(shù)。

采樣函數(shù)

在圖像上,采樣函數(shù)p(h,w)是在相對于中心位置x的相鄰像素上定義的。在圖上,我們可以類似地在節(jié)點(diǎn)鄰居集合上定義采樣函數(shù):

其中:

  • 表示從的任意路徑的最小長度

  • D=1,即關(guān)節(jié)節(jié)點(diǎn)的1-hop 鄰居集

權(quán)重函數(shù)

在圖像的2D卷積中,鄰居內(nèi)的像素可以具有固定的空間順序。然后,可以通過根據(jù)空間順序索引(c,K,K)維的張量來實(shí)現(xiàn)權(quán)重函數(shù)。而對于骨架序列這樣的圖,沒有這樣的隱式排列。

為了解決這個(gè)問題,我們按照目標(biāo)節(jié)點(diǎn)周圍的鄰居的圖標(biāo)記過程定義來構(gòu)造權(quán)重函數(shù)。不是給每個(gè)鄰居節(jié)點(diǎn)一個(gè)唯一的標(biāo)簽,而是通過將關(guān)節(jié)點(diǎn)的鄰集劃分成固定數(shù)量的K個(gè)子集,每個(gè)子集都有一個(gè)數(shù)字標(biāo)簽。因此,可以有一個(gè)映射,將鄰域中的節(jié)點(diǎn)映射到其子集標(biāo)簽:

則權(quán)重函數(shù)表示為:

可以通過索引(c,K)維張量或下式實(shí)現(xiàn):

子集劃分策略

我們提出了三種子集劃分策略,如下圖所示:

利用改進(jìn)的采樣函數(shù)和權(quán)函數(shù),空間圖卷積表示為:

若將圖像視為規(guī)則的2D網(wǎng)格,該公式可以類似于標(biāo)準(zhǔn)的2D卷積。在以像素為中心的3×3網(wǎng)格中,若有一個(gè)9像素的鄰居。然后應(yīng)將相鄰集合劃分為9個(gè)子集,每個(gè)子集具有一個(gè)像素。

時(shí)空建模

在建立了空間圖卷積之后,我們現(xiàn)在開始對骨架序列中的時(shí)空動(dòng)力學(xué)進(jìn)行建模。在構(gòu)建圖形時(shí),圖在時(shí)間方面是通過連接連續(xù)幀上的相同關(guān)節(jié)來構(gòu)建的。為了對時(shí)間建模,我們擴(kuò)展了鄰域的概念,將時(shí)間連接的關(guān)節(jié)也包括在內(nèi):

其中:

  • 參數(shù)Γ控制要包括在相鄰圖中的時(shí)間范圍,因此可以稱為時(shí)間核大小。

由于時(shí)間軸是有序的,因此,我們直接修改以目標(biāo)節(jié)點(diǎn)的時(shí)空鄰域的標(biāo)簽映射

其中:

  • 處的單幀情況的標(biāo)簽映射。

ST-GCN 的實(shí)現(xiàn)

單個(gè)幀內(nèi)關(guān)節(jié)的身體內(nèi)部連接由表示自身連接的鄰接矩陣A和單位矩陣 I 表示。

1)在單個(gè)幀的情況下,采用第一分割策略的ST-GCN可以用以下公式實(shí)現(xiàn):

其中:

在實(shí)際應(yīng)用中,在時(shí)空情況下,我們可以將輸入特征映射表示為(C,V,T)維的張量。圖卷積通過執(zhí)行1×Γ標(biāo)準(zhǔn)2D卷積來實(shí)現(xiàn),并將所得到的張量與第二維上的歸一化鄰接矩陣Λ^(?1/2).(A+i).Λ^(?1/2)相乘。

2)對于具有多個(gè)子集的劃分策略(距離劃分和空間配置劃分),鄰接矩陣被分解成幾個(gè)矩陣,其中。例如在距離劃分策略中,,則SI-GCN表示為:

其中:

并且,為了表示不同節(jié)點(diǎn)的重要性,對于每個(gè)鄰接矩陣,都伴隨著一個(gè)可學(xué)習(xí)的權(quán)重矩陣M。則ST-GCN中的A+I與可以表示為:

其中:

  • ?表示兩個(gè)矩陣之間的逐元素乘積。

  • 掩碼M初始化為全一矩陣



實(shí)驗(yàn)


我們在兩個(gè)骨架動(dòng)作識別數(shù)據(jù)集上來驗(yàn)證 ST-GCN 的性能。

數(shù)據(jù)集

1)Kinetics-Skeleton:包含從YouTube上檢索到的大約30萬個(gè)視頻剪輯。所為了獲得骨架關(guān)鍵點(diǎn)信息,我們將視頻調(diào)整到340×256的分辨率,并將幀率轉(zhuǎn)換為30FPS。使用公共的OpenPose工具箱,估計(jì)每幀上18個(gè)關(guān)節(jié)的位置。該數(shù)據(jù)集共有約 30 萬個(gè)視頻與 400 類動(dòng)作。

2)NTU-RGB+D:該數(shù)據(jù)集共有約 6 萬個(gè)視頻,60 個(gè)動(dòng)作類別,每一幀有25個(gè)關(guān)節(jié)點(diǎn)。這個(gè)數(shù)據(jù)集包含了兩個(gè)測試基準(zhǔn):1)跨表演人(X-Sub):訓(xùn)練片段來自一個(gè)演員,并且其余演員的片段用于評估;2)跨視角(X-View):訓(xùn)練片段來自相機(jī)視圖2和3,評估片段都來自相機(jī)視圖1。

實(shí)驗(yàn)結(jié)果

各種基線模型在兩個(gè)數(shù)據(jù)集上的的對比結(jié)果如下表所示:

從上表可以看到我們所提出的ST-GCN在兩個(gè)數(shù)據(jù)集上都能很好地工作的,證明了所提出的時(shí)空圖卷積運(yùn)算和所得到的ST-GCN模型的有效性。

格式 1 ( 15px, #3E3E3E )

除了對比基準(zhǔn)模型之外,我們分析了可學(xué)習(xí)邊重要性權(quán)重M(ST-GCN+Imp)對識別性能的影響:

可以看到,加入了可學(xué)習(xí)邊重要性權(quán)重M之后,識別性能比元ST-GCN有所提升。并且,在表1中我們還可以看到,三種劃分規(guī)則對識別精度的影響,距離劃分與空間構(gòu)型劃分相對于原始 GCN 使用的唯一劃分在精度上均有較大提高。


總結(jié)


本文提出了一種新的基于骨架的動(dòng)作識別模型--時(shí)空圖卷積網(wǎng)絡(luò)(ST-GCN)。該模型在骨架序列上構(gòu)造了一組時(shí)空圖卷積。在兩個(gè)具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集上,所提出的ST-GCN模型的性能優(yōu)于以往最先進(jìn)的基于骨架的模型。此外,ST-GCN能夠捕獲動(dòng)態(tài)骨架序列中的運(yùn)動(dòng)信息,這是對RGB模態(tài)的補(bǔ)充。基于骨架模型和基于幀地模型的結(jié)合進(jìn)一步提高了動(dòng)作識別的性能。ST-GCN模型的靈活性也為以后的工作開辟了許多可能的方向。例如,如何將場景、對象和交互等上下文信息合并到ST-GCN中。

轉(zhuǎn)載來源:專知

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多