日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

谷歌開發(fā)手部識(shí)別系統(tǒng),適配跨平臺(tái)框架MediaPipe,手機(jī)可用!

 看見就非常 2020-02-01

大數(shù)據(jù)文摘出品

來源:谷歌AI

編譯:趙偉、李雷、錢天培

近日,谷歌發(fā)布了一個(gè)高性能的實(shí)時(shí)手部追蹤系統(tǒng)。不需要高性能的GPU、TPU,在手機(jī)上就能用!

什么是手部追蹤呢?來看一下下面這張動(dòng)圖就知道了。

通過MediaPipe在手機(jī)上實(shí)現(xiàn)實(shí)時(shí)3D手部捕捉

只要把你的手往鏡頭前一伸,該系統(tǒng)就可以通過使用機(jī)器學(xué)習(xí)(ML)從單個(gè)視頻幀推斷出手部的21個(gè)骨骼關(guān)鍵點(diǎn)(每根手指4個(gè),手掌1個(gè))的位置,從而得到高保真的手掌和手指運(yùn)動(dòng)追蹤。

在此基礎(chǔ)上,這一系統(tǒng)還可以推斷出手勢(shì)的含義。

雖然手部追蹤這種能力是人類天生的,但是對(duì)計(jì)算機(jī)來說,能穩(wěn)定地實(shí)時(shí)感知手部狀態(tài)是一項(xiàng)極具挑戰(zhàn)性的視覺任務(wù)。

難度來自多個(gè)方面。比如,雙手的運(yùn)動(dòng)經(jīng)常會(huì)導(dǎo)致某一部分被遮蓋(例如合掌和握手),而手的顏色也沒有很強(qiáng)的對(duì)比度。

同時(shí),手部追蹤也是各技術(shù)領(lǐng)域和應(yīng)用平臺(tái)上改善用戶體驗(yàn)的關(guān)鍵技術(shù)之一。

比如說,手部形狀識(shí)別是手語(yǔ)理解和手勢(shì)控制的基礎(chǔ)。它還可以在增強(qiáng)現(xiàn)實(shí)(AR)中將虛擬的數(shù)字內(nèi)容疊加到真實(shí)的物理世界之上。

因此,谷歌這次的實(shí)時(shí)手部追蹤意義重大。

事實(shí)上,谷歌已經(jīng)在今年6月份的CVPR 2019會(huì)議上演示過該模型。而這一次,谷歌選擇在MediaPipe這一個(gè)開源跨平臺(tái)框架正式發(fā)布這一系統(tǒng)。

該系統(tǒng)背后的原理是什么呢?我們一起來看。

用于手部跟蹤和手勢(shì)識(shí)別的機(jī)器學(xué)習(xí)

谷歌的手部追蹤方案使用了一個(gè)由多個(gè)模型協(xié)同工作組成的機(jī)器學(xué)習(xí)管道:

一個(gè)手掌探測(cè)器模型(BlazePalm),作用于整個(gè)圖像并返回定向的手部邊界框。

一個(gè)手部標(biāo)志模型,作用于手掌探測(cè)器返回的裁剪圖像區(qū)域,并返回高保真的3D手部關(guān)鍵點(diǎn)。

一個(gè)手勢(shì)識(shí)別器,將先前得到的關(guān)鍵點(diǎn)排列分類為不同的手勢(shì)。

這種架構(gòu)類似于我們最近發(fā)布的面部網(wǎng)格ML管道以及其它用于姿勢(shì)估計(jì)的架構(gòu)。提供給手部標(biāo)志模型的手掌剪裁圖像大大降低了對(duì)額外數(shù)據(jù)(如旋轉(zhuǎn)、平移和縮放)的要求,從而允許其將大部分能力用于針對(duì)坐標(biāo)預(yù)測(cè)精度的處理。

frame:幀;palm detector:手掌探測(cè)器;hand landmarks:手部標(biāo)志模型;gesture recognizer:手勢(shì)識(shí)別器

BlazePalm:實(shí)時(shí)手部/手掌探測(cè)

為了檢測(cè)初始手部位置,我們采用名為BlazePalm的單發(fā)探測(cè)器模型,它參考了MediaPipe中的BlazeFace,并進(jìn)行了優(yōu)化以針對(duì)實(shí)時(shí)移動(dòng)應(yīng)用。

檢測(cè)人手是一項(xiàng)非常復(fù)雜的任務(wù):我們的模型必須適用于各種尺寸的手掌,還要能夠檢測(cè)各種遮擋和合掌的情況。

面部具有眼睛和嘴巴這樣的高對(duì)比度特征,手部卻沒有。因此,機(jī)器學(xué)習(xí)模型通常很難僅靠視覺特征來進(jìn)行準(zhǔn)確檢測(cè)。但如能提供額外的環(huán)境信息,如手臂、身體或人物等特征等,則有助于手部的精確定位。

在我們的方法中使用了不同的策略來解決上述挑戰(zhàn)。首先,我們訓(xùn)練的是手掌探測(cè)器而非手部探測(cè)器,因?yàn)闄z測(cè)像手掌和拳頭這樣的剛性物體的邊界比檢測(cè)整個(gè)手部要簡(jiǎn)單得多。此外,由于手掌的面積較小,這使得非極大值抑制算法在雙手遮擋情況(如握手)下也能得到良好結(jié)果;手掌可以使用方形邊界框(也就是ML術(shù)語(yǔ)中的anchors)來描述,忽略其長(zhǎng)寬比,從而可將anchors的數(shù)量減少3-5倍。其次,編碼-解碼特征提取器可用于在更大范圍的環(huán)境中感知很小的物體(類似于RetinaNet方法)。最后,我們將訓(xùn)練期間的焦點(diǎn)損失(focal loss)降至最低,用以支持由于高尺度方差而產(chǎn)生的大量anchors。

利用上述技術(shù),我們?cè)谑终茩z測(cè)中得到了95.7%的平均精度。而使用固定的交叉熵?fù)p失且沒有解碼器的情況下精度基準(zhǔn)僅為86.22%。

手部標(biāo)志模型

在對(duì)整個(gè)圖像進(jìn)行手掌檢測(cè)之后,手部標(biāo)志模型通過回歸(即直接坐標(biāo)預(yù)測(cè))在之前檢測(cè)到的手部區(qū)域內(nèi)精確定位了21個(gè)3D手部骨骼關(guān)鍵點(diǎn)坐標(biāo)。這個(gè)模型學(xué)習(xí)了連續(xù)的手勢(shì)圖案,并且對(duì)于被遮擋只有部分可見的手部也能識(shí)別。

為了獲得可靠數(shù)據(jù),我們手動(dòng)標(biāo)注了大約30000幅具有手部骨骼關(guān)鍵點(diǎn)坐標(biāo)的真實(shí)圖像,如下所示(我們從圖像深度圖中獲取Z值,如果它相應(yīng)的坐標(biāo)存在)。為了更好地覆蓋可能的手部姿勢(shì)并對(duì)手部幾何形狀的性質(zhì)提供額外的比照,我們還在各種背景下渲染高質(zhì)量的合成手部模型,并將其映射到相應(yīng)的3D坐標(biāo)。

上圖:傳給跟蹤網(wǎng)絡(luò)的帶標(biāo)注的校準(zhǔn)手勢(shì)圖

下圖:帶標(biāo)注的渲染合成手部圖像

然而,純粹的合成數(shù)據(jù)很難泛化應(yīng)用到新的數(shù)據(jù)集上。為了解決這個(gè)問題,我們使用混合訓(xùn)練模式。下圖顯示了大概的模型訓(xùn)練流程。

Rendered synth:渲染合成圖片;real-world photos:真實(shí)圖像;hand presence:手部圖片;separable convolutional festure extractor:可分離卷積特征提?。?1 3Dkeypoints regression:21個(gè)3D關(guān)鍵點(diǎn)回歸;hand presence classification:手部分類

手部跟蹤網(wǎng)絡(luò)的混合訓(xùn)練模式,裁剪的真實(shí)圖像和渲染的合成圖像用作預(yù)測(cè)21個(gè)3D關(guān)鍵點(diǎn)的輸入數(shù)據(jù)

下表總結(jié)了基于訓(xùn)練數(shù)據(jù)性質(zhì)的回歸準(zhǔn)確率。綜合使用合成數(shù)據(jù)和真實(shí)數(shù)據(jù)可顯著提升性能。

手勢(shì)識(shí)別

基于預(yù)測(cè)出來的手部骨骼,我們用一個(gè)簡(jiǎn)單的算法來推導(dǎo)手勢(shì)含義。首先,每個(gè)手指的狀態(tài)(如彎曲或筆直等)由多個(gè)關(guān)節(jié)的累積彎曲角度決定。然后我們將手指狀態(tài)集映射到一組預(yù)定義的手勢(shì)集合上。這種簡(jiǎn)單卻有效的技術(shù)使我們能夠精確地估計(jì)基本的靜態(tài)手勢(shì)。現(xiàn)有的機(jī)器學(xué)習(xí)管道支持識(shí)別不同國(guó)家的姿勢(shì)(如美國(guó)、歐洲和中國(guó)),還支持各種手勢(shì)含義,包括“拇指向上”、“握拳”、“OK”、“搖滾”和“蜘蛛俠”等。

MediaPipe實(shí)現(xiàn)

谷歌的手部跟蹤MediaPipe模型圖如下所示。該圖由兩個(gè)子圖組成,一個(gè)用于手部檢測(cè),一個(gè)用于手部骨骼關(guān)鍵點(diǎn)(標(biāo)志點(diǎn))計(jì)算。

MediaPipe的一個(gè)關(guān)鍵優(yōu)化是手掌探測(cè)器僅在必要時(shí)(很少)運(yùn)行,從而節(jié)省了大量的計(jì)算時(shí)間。

MediaPipe地址:

https://v

GitHub地址:

https://github.com/google/mediapipe

MediaPipe是用于構(gòu)建應(yīng)用ML pipeline(例如,視頻,音頻,任何時(shí)間序列數(shù)據(jù))框架。利用MediaPipe,可以將感知管道構(gòu)建為模塊化組件的圖形,包括例如推理模型(例如,TensorFlow,TFLite)和媒體處理功能。

谷歌在上周也將這一平臺(tái)進(jìn)行了開源,適配多種視覺檢測(cè)任務(wù)。目前在GitHub上星標(biāo)已經(jīng)達(dá)到了2k+。

通過從當(dāng)前幀中計(jì)算手部關(guān)鍵點(diǎn)推斷后續(xù)視頻幀中的手部位置來實(shí)現(xiàn)這一點(diǎn),從而不必在每個(gè)幀上都運(yùn)行手掌檢測(cè)器。為了得到穩(wěn)定結(jié)果,手部探測(cè)器模型會(huì)輸出一個(gè)額外的標(biāo)量,用于表示手是否存在于輸入圖像中并姿態(tài)合理的置信度。只有當(dāng)置信度低于某個(gè)閾值時(shí),手部探測(cè)器模型才會(huì)重新檢測(cè)整個(gè)幀。

Realtimeflowlimiter:實(shí)時(shí)限流器;handdetection:手部探測(cè);detectiontorectangle:檢測(cè)到矩形;

image cropping:圖像裁剪;handlandmark:手部標(biāo)志;landmarktorectangle:標(biāo)志成矩形;annotationrender:注釋渲染

手部標(biāo)志模型的輸出(REJECT_HAND_FLAG)控制何時(shí)觸發(fā)手部檢測(cè)模型。這種行為是通過MediaPipe強(qiáng)大的同步構(gòu)建塊實(shí)現(xiàn)的,從而實(shí)現(xiàn)ML管道的高性能和最佳吞吐量。

高效的ML解決方案可以實(shí)時(shí)并在各種不同的平臺(tái)和外形上運(yùn)行,但與上述簡(jiǎn)化描述相比,其具有更高的復(fù)雜性。最后,谷歌在MediaPipe框架中將上述手部跟蹤和手勢(shì)識(shí)別管道開源,并附帶相關(guān)的端到端使用場(chǎng)景和源代碼。

鏈接如下:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md

這為研究和開發(fā)人員提供了完整的可用于實(shí)驗(yàn)的程序棧,可以基于谷歌的模型來對(duì)新想法進(jìn)行原型設(shè)計(jì)。

未來方向

谷歌稱,未來計(jì)劃通過更強(qiáng)大和穩(wěn)定的跟蹤鎖定方法擴(kuò)展此技術(shù),來擴(kuò)大能可靠檢測(cè)的手勢(shì)數(shù)量,并支持實(shí)時(shí)變化的動(dòng)態(tài)手勢(shì)檢測(cè)。

相信這項(xiàng)技術(shù)的開源也可以促使研究和開發(fā)者社區(qū)產(chǎn)生大量的創(chuàng)意和應(yīng)用!

相關(guān)報(bào)道:

https://ai./2019/08/on-device-real-time-hand-tracking-with.html

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多