谷歌開發(fā)手部識(shí)別系統(tǒng)，適配跨平臺(tái)框架MediaPipe，手機(jī)可用！

看見就非常 2020-02-01

展開全文

大數(shù)據(jù)文摘出品

來源：谷歌AI

編譯：趙偉、李雷、錢天培

近日，谷歌發(fā)布了一個(gè)高性能的實(shí)時(shí)手部追蹤系統(tǒng)。不需要高性能的GPU、TPU，在手機(jī)上就能用！

什么是手部追蹤呢？來看一下下面這張動(dòng)圖就知道了。

通過MediaPipe在手機(jī)上實(shí)現(xiàn)實(shí)時(shí)3D手部捕捉

只要把你的手往鏡頭前一伸，該系統(tǒng)就可以通過使用機(jī)器學(xué)習(xí)（ML）從單個(gè)視頻幀推斷出手部的21個(gè)骨骼關(guān)鍵點(diǎn)（每根手指4個(gè)，手掌1個(gè)）的位置，從而得到高保真的手掌和手指運(yùn)動(dòng)追蹤。

在此基礎(chǔ)上，這一系統(tǒng)還可以推斷出手勢(shì)的含義。

雖然手部追蹤這種能力是人類天生的，但是對(duì)計(jì)算機(jī)來說，能穩(wěn)定地實(shí)時(shí)感知手部狀態(tài)是一項(xiàng)極具挑戰(zhàn)性的視覺任務(wù)。

難度來自多個(gè)方面。比如，雙手的運(yùn)動(dòng)經(jīng)常會(huì)導(dǎo)致某一部分被遮蓋（例如合掌和握手），而手的顏色也沒有很強(qiáng)的對(duì)比度。

同時(shí)，手部追蹤也是各技術(shù)領(lǐng)域和應(yīng)用平臺(tái)上改善用戶體驗(yàn)的關(guān)鍵技術(shù)之一。

比如說，手部形狀識(shí)別是手語(yǔ)理解和手勢(shì)控制的基礎(chǔ)。它還可以在增強(qiáng)現(xiàn)實(shí)（AR）中將虛擬的數(shù)字內(nèi)容疊加到真實(shí)的物理世界之上。

因此，谷歌這次的實(shí)時(shí)手部追蹤意義重大。

事實(shí)上，谷歌已經(jīng)在今年6月份的CVPR 2019會(huì)議上演示過該模型。而這一次，谷歌選擇在MediaPipe這一個(gè)開源跨平臺(tái)框架正式發(fā)布這一系統(tǒng)。

該系統(tǒng)背后的原理是什么呢？我們一起來看。

用于手部跟蹤和手勢(shì)識(shí)別的機(jī)器學(xué)習(xí)

谷歌的手部追蹤方案使用了一個(gè)由多個(gè)模型協(xié)同工作組成的機(jī)器學(xué)習(xí)管道：

一個(gè)手掌探測(cè)器模型（BlazePalm），作用于整個(gè)圖像并返回定向的手部邊界框。

一個(gè)手部標(biāo)志模型，作用于手掌探測(cè)器返回的裁剪圖像區(qū)域，并返回高保真的3D手部關(guān)鍵點(diǎn)。

一個(gè)手勢(shì)識(shí)別器，將先前得到的關(guān)鍵點(diǎn)排列分類為不同的手勢(shì)。

這種架構(gòu)類似于我們最近發(fā)布的面部網(wǎng)格ML管道以及其它用于姿勢(shì)估計(jì)的架構(gòu)。提供給手部標(biāo)志模型的手掌剪裁圖像大大降低了對(duì)額外數(shù)據(jù)（如旋轉(zhuǎn)、平移和縮放）的要求，從而允許其將大部分能力用于針對(duì)坐標(biāo)預(yù)測(cè)精度的處理。

frame：幀；palm detector：手掌探測(cè)器；hand landmarks：手部標(biāo)志模型；gesture recognizer：手勢(shì)識(shí)別器

BlazePalm：實(shí)時(shí)手部/手掌探測(cè)

為了檢測(cè)初始手部位置，我們采用名為BlazePalm的單發(fā)探測(cè)器模型，它參考了MediaPipe中的BlazeFace，并進(jìn)行了優(yōu)化以針對(duì)實(shí)時(shí)移動(dòng)應(yīng)用。

檢測(cè)人手是一項(xiàng)非常復(fù)雜的任務(wù)：我們的模型必須適用于各種尺寸的手掌，還要能夠檢測(cè)各種遮擋和合掌的情況。

面部具有眼睛和嘴巴這樣的高對(duì)比度特征，手部卻沒有。因此，機(jī)器學(xué)習(xí)模型通常很難僅靠視覺特征來進(jìn)行準(zhǔn)確檢測(cè)。但如能提供額外的環(huán)境信息，如手臂、身體或人物等特征等，則有助于手部的精確定位。

在我們的方法中使用了不同的策略來解決上述挑戰(zhàn)。首先，我們訓(xùn)練的是手掌探測(cè)器而非手部探測(cè)器，因?yàn)闄z測(cè)像手掌和拳頭這樣的剛性物體的邊界比檢測(cè)整個(gè)手部要簡(jiǎn)單得多。此外，由于手掌的面積較小，這使得非極大值抑制算法在雙手遮擋情況（如握手）下也能得到良好結(jié)果；手掌可以使用方形邊界框（也就是ML術(shù)語(yǔ)中的anchors）來描述，忽略其長(zhǎng)寬比，從而可將anchors的數(shù)量減少3-5倍。其次，編碼-解碼特征提取器可用于在更大范圍的環(huán)境中感知很小的物體（類似于RetinaNet方法）。最后，我們將訓(xùn)練期間的焦點(diǎn)損失（focal loss）降至最低，用以支持由于高尺度方差而產(chǎn)生的大量anchors。

利用上述技術(shù)，我們?cè)谑终茩z測(cè)中得到了95.7％的平均精度。而使用固定的交叉熵?fù)p失且沒有解碼器的情況下精度基準(zhǔn)僅為86.22％。

手部標(biāo)志模型

在對(duì)整個(gè)圖像進(jìn)行手掌檢測(cè)之后，手部標(biāo)志模型通過回歸（即直接坐標(biāo)預(yù)測(cè)）在之前檢測(cè)到的手部區(qū)域內(nèi)精確定位了21個(gè)3D手部骨骼關(guān)鍵點(diǎn)坐標(biāo)。這個(gè)模型學(xué)習(xí)了連續(xù)的手勢(shì)圖案，并且對(duì)于被遮擋只有部分可見的手部也能識(shí)別。

為了獲得可靠數(shù)據(jù)，我們手動(dòng)標(biāo)注了大約30000幅具有手部骨骼關(guān)鍵點(diǎn)坐標(biāo)的真實(shí)圖像，如下所示（我們從圖像深度圖中獲取Z值，如果它相應(yīng)的坐標(biāo)存在）。為了更好地覆蓋可能的手部姿勢(shì)并對(duì)手部幾何形狀的性質(zhì)提供額外的比照，我們還在各種背景下渲染高質(zhì)量的合成手部模型，并將其映射到相應(yīng)的3D坐標(biāo)。

上圖：傳給跟蹤網(wǎng)絡(luò)的帶標(biāo)注的校準(zhǔn)手勢(shì)圖

下圖：帶標(biāo)注的渲染合成手部圖像

然而，純粹的合成數(shù)據(jù)很難泛化應(yīng)用到新的數(shù)據(jù)集上。為了解決這個(gè)問題，我們使用混合訓(xùn)練模式。下圖顯示了大概的模型訓(xùn)練流程。

Rendered synth：渲染合成圖片；real-world photos：真實(shí)圖像；hand presence：手部圖片；separable convolutional festure extractor：可分離卷積特征提?。?1 3Dkeypoints regression：21個(gè)3D關(guān)鍵點(diǎn)回歸；hand presence classification：手部分類

手部跟蹤網(wǎng)絡(luò)的混合訓(xùn)練模式，裁剪的真實(shí)圖像和渲染的合成圖像用作預(yù)測(cè)21個(gè)3D關(guān)鍵點(diǎn)的輸入數(shù)據(jù)

下表總結(jié)了基于訓(xùn)練數(shù)據(jù)性質(zhì)的回歸準(zhǔn)確率。綜合使用合成數(shù)據(jù)和真實(shí)數(shù)據(jù)可顯著提升性能。

手勢(shì)識(shí)別

基于預(yù)測(cè)出來的手部骨骼，我們用一個(gè)簡(jiǎn)單的算法來推導(dǎo)手勢(shì)含義。首先，每個(gè)手指的狀態(tài)（如彎曲或筆直等）由多個(gè)關(guān)節(jié)的累積彎曲角度決定。然后我們將手指狀態(tài)集映射到一組預(yù)定義的手勢(shì)集合上。這種簡(jiǎn)單卻有效的技術(shù)使我們能夠精確地估計(jì)基本的靜態(tài)手勢(shì)。現(xiàn)有的機(jī)器學(xué)習(xí)管道支持識(shí)別不同國(guó)家的姿勢(shì)（如美國(guó)、歐洲和中國(guó)），還支持各種手勢(shì)含義，包括“拇指向上”、“握拳”、“OK”、“搖滾”和“蜘蛛俠”等。

MediaPipe實(shí)現(xiàn)

谷歌的手部跟蹤MediaPipe模型圖如下所示。該圖由兩個(gè)子圖組成，一個(gè)用于手部檢測(cè)，一個(gè)用于手部骨骼關(guān)鍵點(diǎn)（標(biāo)志點(diǎn)）計(jì)算。

MediaPipe的一個(gè)關(guān)鍵優(yōu)化是手掌探測(cè)器僅在必要時(shí)（很少）運(yùn)行，從而節(jié)省了大量的計(jì)算時(shí)間。

MediaPipe地址：

https://v

GitHub地址：

https://github.com/google/mediapipe

MediaPipe是用于構(gòu)建應(yīng)用ML pipeline（例如，視頻，音頻，任何時(shí)間序列數(shù)據(jù)）框架。利用MediaPipe，可以將感知管道構(gòu)建為模塊化組件的圖形，包括例如推理模型（例如，TensorFlow，TFLite）和媒體處理功能。

谷歌在上周也將這一平臺(tái)進(jìn)行了開源，適配多種視覺檢測(cè)任務(wù)。目前在GitHub上星標(biāo)已經(jīng)達(dá)到了2k+。

通過從當(dāng)前幀中計(jì)算手部關(guān)鍵點(diǎn)推斷后續(xù)視頻幀中的手部位置來實(shí)現(xiàn)這一點(diǎn)，從而不必在每個(gè)幀上都運(yùn)行手掌檢測(cè)器。為了得到穩(wěn)定結(jié)果，手部探測(cè)器模型會(huì)輸出一個(gè)額外的標(biāo)量，用于表示手是否存在于輸入圖像中并姿態(tài)合理的置信度。只有當(dāng)置信度低于某個(gè)閾值時(shí)，手部探測(cè)器模型才會(huì)重新檢測(cè)整個(gè)幀。

Realtimeflowlimiter：實(shí)時(shí)限流器；handdetection：手部探測(cè)；detectiontorectangle：檢測(cè)到矩形；

image cropping：圖像裁剪；handlandmark：手部標(biāo)志；landmarktorectangle：標(biāo)志成矩形；annotationrender：注釋渲染

手部標(biāo)志模型的輸出（REJECT_HAND_FLAG）控制何時(shí)觸發(fā)手部檢測(cè)模型。這種行為是通過MediaPipe強(qiáng)大的同步構(gòu)建塊實(shí)現(xiàn)的，從而實(shí)現(xiàn)ML管道的高性能和最佳吞吐量。

高效的ML解決方案可以實(shí)時(shí)并在各種不同的平臺(tái)和外形上運(yùn)行，但與上述簡(jiǎn)化描述相比，其具有更高的復(fù)雜性。最后，谷歌在MediaPipe框架中將上述手部跟蹤和手勢(shì)識(shí)別管道開源，并附帶相關(guān)的端到端使用場(chǎng)景和源代碼。

鏈接如下：

https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md

這為研究和開發(fā)人員提供了完整的可用于實(shí)驗(yàn)的程序棧，可以基于谷歌的模型來對(duì)新想法進(jìn)行原型設(shè)計(jì)。

未來方向

谷歌稱，未來計(jì)劃通過更強(qiáng)大和穩(wěn)定的跟蹤鎖定方法擴(kuò)展此技術(shù)，來擴(kuò)大能可靠檢測(cè)的手勢(shì)數(shù)量，并支持實(shí)時(shí)變化的動(dòng)態(tài)手勢(shì)檢測(cè)。

相信這項(xiàng)技術(shù)的開源也可以促使研究和開發(fā)者社區(qū)產(chǎn)生大量的創(chuàng)意和應(yīng)用！

相關(guān)報(bào)道：

https://ai./2019/08/on-device-real-time-hand-tracking-with.html

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：看見就非常 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)