(映維網(wǎng) 2020年06月22日)2020年計(jì)算機(jī)視覺和模式識(shí)別大會(huì)(Conference on Computer Vision and Pattern Recognition;CVPR)正在如火如荼地進(jìn)行中,來自世界各地的計(jì)算機(jī)視覺研究者和工程師都在這里分享最新的進(jìn)展。
下面是增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)領(lǐng)域論壇的的論文及相關(guān)摘要整理(點(diǎn)擊標(biāo)題可下載論文): 1. Attention Mesh: High-fidelity Face Mesh Prediction in Real-time By: Google Research 我們提出了一種用于三維人臉網(wǎng)格預(yù)測(cè)的輕量級(jí)架構(gòu)Attention Mesh,而它主要是利用用戶對(duì)語義意義區(qū)域的注意。我們的神經(jīng)網(wǎng)絡(luò)是為實(shí)時(shí)設(shè)備端推斷而設(shè)計(jì),它能夠在Pixel 2以超過50 FPS的速度運(yùn)行。我們的解決方案能夠賦能諸如AR化妝,眼動(dòng)追蹤和AR操縱等需要眼睛和嘴唇區(qū)域提供高精確特征的應(yīng)用。我們的主要貢獻(xiàn)是一個(gè)統(tǒng)一的網(wǎng)絡(luò)架構(gòu),它在提供面部特征方面達(dá)到了與多級(jí)級(jí)聯(lián)方法相同的精度,而且速度提高了30%。 2. BlazePose: On-device Real-time Body Pose tracking By: Google Research 我們提出了一種用于移動(dòng)設(shè)備進(jìn)行實(shí)時(shí)推理的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)BlazePose。在推斷過程中,網(wǎng)絡(luò)會(huì)為人體生成33個(gè)身體關(guān)鍵點(diǎn),并在Pixel 2以30 FPS的速度運(yùn)行。這使得它特別適合貼合度追蹤和手語識(shí)別等實(shí)時(shí)用例。我們的主要貢獻(xiàn)包括一個(gè)使用熱圖和關(guān)鍵點(diǎn)回歸的全新身體姿態(tài)追蹤解決方案和輕量級(jí)身體姿態(tài)估計(jì)神經(jīng)網(wǎng)絡(luò)。 3. Boosting Perceptual Resolution of VR Displays By:National Taiwan University 由于當(dāng)前頭顯像素密度不足,難以實(shí)現(xiàn)VR應(yīng)用所要提供的完全沉浸式體驗(yàn)。我們?cè)谶@項(xiàng)研究中提出了一個(gè)能夠以合理的計(jì)算成本提高VR顯示器感知分辨率的框架。所提出的視覺框架合成網(wǎng)絡(luò)能夠產(chǎn)生高分辨率的信息,然后通過視網(wǎng)膜的整合過程來恢復(fù)高分辨率視覺。另外,我們同時(shí)提出了一種在同一幀中混合幀率區(qū)域的方法,這可允許我們只在注視點(diǎn)區(qū)域改善感知體驗(yàn)。我們通過主觀實(shí)驗(yàn)驗(yàn)證了框架的有效性。 4. DARNavi: An Indoor-Outdoor Immersive Navigation System with Augmented Reality By:滴滴出行 線上打車服務(wù)在全世界都備受歡迎。有效地引導(dǎo)乘客到達(dá)乘車點(diǎn)可以節(jié)省尋路時(shí)間并提高整體用戶體驗(yàn)。這對(duì)線上打車服務(wù)具有重要意義。我們提出了一種用于引導(dǎo)乘客從室內(nèi)位置到達(dá)乘車點(diǎn)的沉浸式導(dǎo)航系統(tǒng)。在導(dǎo)航過程中,系統(tǒng)支持使用增強(qiáng)現(xiàn)實(shí)技術(shù)將導(dǎo)航元素真實(shí)地呈現(xiàn)到物理世界中。所述系統(tǒng)已經(jīng)部署在普通手機(jī)的商業(yè)應(yīng)用程序中,并已經(jīng)為數(shù)千名乘客提供過服務(wù)。 5. Decoupled Localization and Sensing with HMD-based AR for Interactive Scene Acquisition By:Serge Belongie,Cornell Tech 對(duì)于實(shí)時(shí)追蹤和視覺反饋所提供的交互式AR輔助式捕獲系統(tǒng),其可作為專用傳感器裝置和機(jī)器人龍門架的一種便捷的和低成本的替代品。我們提出了一種將所述應(yīng)用中的定位和視覺反饋與用于捕捉場(chǎng)景的主傳感器分離的簡易策略。我們的策略是使用AR頭顯和六自由度控制器進(jìn)行追蹤和反饋,并與單獨(dú)的主傳感器同步捕捉場(chǎng)景。在這篇論文中,我們提出了關(guān)于所述策略的原型實(shí)現(xiàn),并通過將運(yùn)行時(shí)姿態(tài)估計(jì)值與高分辨率離線SfM的結(jié)果進(jìn)行比較來研究解耦追蹤的精度。 6. Epipolar Transformer for Multi-view Pose Estimation By:Facebook,Carnegie Mellon University 在同步和校準(zhǔn)的多視圖設(shè)置中,定位三維人體關(guān)節(jié)的常用方法包括兩個(gè)步驟:1.分別在每個(gè)視圖應(yīng)用二維檢測(cè)器來定位二維關(guān)節(jié);2.對(duì)每個(gè)視圖中的二維檢測(cè)執(zhí)行魯棒三角剖分以獲取三維關(guān)節(jié)位置。但在步驟1中,二維檢測(cè)器僅限于解決可能在三維中能更好解決的挑戰(zhàn)性情況,如遮擋和斜視角,亦即純粹在二維中而不利用任何三維信息。所以我們提出了可微的“極線變換器”,這使得二維探測(cè)器能夠利用三維感知特征來改進(jìn)二維姿勢(shì)估計(jì)。原理是:給定當(dāng)前視圖中的二維位置p,我們希望首先在相鄰視圖中找到其對(duì)應(yīng)的點(diǎn)p0,然后將p0處的特征與p處的特征相結(jié)合,從而在p處產(chǎn)生一個(gè)三維感知特征。受立體匹配啟發(fā),極線變換器利用極線約束和特征匹配來逼近p0處的特征。InterHand和Human3.6M的實(shí)驗(yàn)表明,我們的方法比基線有一致的改進(jìn)。具體來說,在不使用外部數(shù)據(jù)的情況下,我們使用ResNet-50 backbone和256×256圖像大小訓(xùn)練的Human3.6M模型在性能方面比現(xiàn)有模型高4.23mm,達(dá)到了MPJPE 26.9mm。 7. Fakeye: Sky Augmentation with Real-time Sky Segmentation and Texture Blending By:University of Science, VNU-HCM 增強(qiáng)現(xiàn)實(shí)技術(shù)已經(jīng)廣泛應(yīng)用于增強(qiáng)人類的體驗(yàn)。除了提供真實(shí)環(huán)境感知外,它同時(shí)可以提供人工內(nèi)容。盡管大多數(shù)AR應(yīng)用都專注于服務(wù)于室內(nèi)任務(wù),但為了創(chuàng)建一個(gè)更完整的虛擬環(huán)境,諸如天空這樣更高、更廣闊的空間同樣應(yīng)該受到關(guān)注。由于遠(yuǎn)距離目標(biāo)在渲染方面的表現(xiàn)與近距離目標(biāo)不同,本文嘗試設(shè)計(jì)一種用虛擬對(duì)象來增強(qiáng)天空的方法,并同時(shí)解決實(shí)時(shí)天空分割以產(chǎn)生遮擋錯(cuò)覺,真實(shí)場(chǎng)景與虛擬場(chǎng)景融合,以及攝像頭對(duì)準(zhǔn)等難題。我們的移動(dòng)實(shí)現(xiàn)方法名為“Fakeye”,它產(chǎn)生了富有前景的結(jié)果,并帶來了令人興奮的體驗(yàn)。 8. FMKit – An In-Air-Handwriting Analysis Library and Data Repository By:Arizona State University 對(duì)于用戶無法使用物理鍵盤或觸控屏的增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)應(yīng)用,手勢(shì)和懸空書寫輸入了替代的信息提供方法。然而,理解手部和手指的運(yùn)動(dòng)是一個(gè)挑戰(zhàn),這需要大量的數(shù)據(jù)及數(shù)據(jù)驅(qū)動(dòng)模型。本文提出了一個(gè)用于懸空書寫的公開研究FMKit。它包含一組Python庫和一個(gè)數(shù)據(jù)存儲(chǔ)庫。其中,我們使用兩種不同的動(dòng)捕傳感器對(duì)180多名用戶進(jìn)行了數(shù)據(jù)采集。我們同時(shí)介紹了FMKit支持的三個(gè)研究任務(wù),包括基于懸空比劃的用戶認(rèn)證、用戶識(shí)別和單詞識(shí)別,以及初步的基線性能表現(xiàn)。 9. Head-mounted Augmented Reality for Guided Surface Reflectance Capture By:Cornell Tech,Aarhus University,F(xiàn)acebook AI,Cornell University 我們?cè)谶@個(gè)項(xiàng)目中探索了一種系統(tǒng)設(shè)計(jì),用一個(gè)AR頭顯和一個(gè)手持控制器幫助用戶捕捉表面反射函數(shù)。我們補(bǔ)充了在捕捉過程中追蹤的一個(gè)標(biāo)準(zhǔn)六自由度控制器與一個(gè)可安裝光源。用戶首先使用控制器選擇要捕獲的表面區(qū)域。然后我們通過頭戴式攝像頭記錄圖像,同時(shí)通過AR顯示屏的實(shí)時(shí)反饋引導(dǎo)用戶控制手持式光源。我們的系統(tǒng)提供了一種獲取表面反射率信息的簡單而有效的方法。 10. Holopix50k: A Large-Scale In-the-wild Stereo Image Dataset By:Leia Inc 隨著雙攝像頭手機(jī)在市場(chǎng)中廣泛應(yīng)用,利用計(jì)算機(jī)視覺中的立體信息對(duì)AR/VR行業(yè)變得越來越重要。目前最先進(jìn)的方法主要是利用基于學(xué)習(xí)的算法,其中訓(xùn)練樣本的數(shù)量和質(zhì)量嚴(yán)重影響結(jié)果?,F(xiàn)有的立體圖像數(shù)據(jù)集無論在大小還是種類方面都受到限制。所以,基于所述數(shù)據(jù)集訓(xùn)練的算法不能很好地推廣到移動(dòng)攝影遇到的場(chǎng)景。本文提出了一種新穎的立體圖像數(shù)據(jù)集Holopix50k,其包含由Holopix移動(dòng)社交平臺(tái)用戶貢獻(xiàn)的49368對(duì)圖像。在這項(xiàng)研究中,我們描述了我們的數(shù)據(jù)收集過程,并將我們的數(shù)據(jù)集與其他流行的立體數(shù)據(jù)集進(jìn)行了統(tǒng)計(jì)比較。實(shí)驗(yàn)表明,使用我們的數(shù)據(jù)集可以顯著提高立體超分辨率等任務(wù)的結(jié)果。最后,我們展示了數(shù)據(jù)集在訓(xùn)練神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)立體圖像和單目圖像視差圖方面的實(shí)際應(yīng)用。高質(zhì)量的視差圖對(duì)于提高手機(jī)AR/VR應(yīng)用的投影效果和三維重建效果至關(guān)重要。 11. Instant 3D Object Tracking with Applications in Augmented Reality By:Matthias Grundmann,Google Research 三維對(duì)象姿態(tài)追蹤是增強(qiáng)現(xiàn)實(shí)應(yīng)用中的一個(gè)重要組成部分。我們提出了一個(gè)即時(shí)運(yùn)動(dòng)追蹤系統(tǒng),它可以在移動(dòng)設(shè)備實(shí)時(shí)追蹤對(duì)象在空間中的姿態(tài)(以三維方框盒表示)。我們的系統(tǒng)不需要任何事先的感官校準(zhǔn)或初始化才能正常工作。我們使用一個(gè)深神經(jīng)網(wǎng)絡(luò)來檢測(cè)對(duì)象并估計(jì)其初始三維姿態(tài),然后利用一個(gè)魯棒的平面追蹤器來追蹤估計(jì)的姿態(tài)。我們的追蹤器能夠在移動(dòng)設(shè)備實(shí)時(shí)執(zhí)行相對(duì)尺度的九自由度追蹤。通過有效地結(jié)合CPU和GPU,我們?cè)谝苿?dòng)設(shè)備實(shí)現(xiàn)了26-FPS+的性能。 12. MediaPipe Hands: On-device Real-time Hand Tracking By:Google Research 我們提出了一個(gè)實(shí)時(shí)的設(shè)備端手部追蹤管道,它可以利用單個(gè)RGB攝像頭為AR/VR應(yīng)用預(yù)測(cè)手部骨骼。所述管道由兩個(gè)模型組成:1.手掌探測(cè)器,2.手部特征模型。它是通過MediaPipe實(shí)現(xiàn),而MediaPipe是一個(gè)構(gòu)建跨平臺(tái)ML解決方案的框架。所述模型和管道結(jié)構(gòu)在移動(dòng)GPU上具有很高的實(shí)時(shí)推理速度和預(yù)測(cè)質(zhì)量。MediaPipe Hands的開源代碼請(qǐng)參見https://v。 13. Multi-user, Scalable 3D Object Detection in AR Cloud By:Magic Leap 隨著AR云變得越來越重要,一個(gè)關(guān)鍵的挑戰(zhàn)是大規(guī)模的多用戶3D目標(biāo)檢測(cè)。目前的方法通常側(cè)重于單個(gè)房間和單名用戶場(chǎng)景。本文提出了一種基于分布式數(shù)據(jù)關(guān)聯(lián)與融合的多用戶可擴(kuò)展三維目標(biāo)檢測(cè)方法。我們使用現(xiàn)成的檢測(cè)器來檢測(cè)2D中的對(duì)象實(shí)例,然后在3D中對(duì)每個(gè)對(duì)象進(jìn)行組合,同時(shí)允許對(duì)映射進(jìn)行異步更新。分布式數(shù)據(jù)關(guān)聯(lián)和融合允許我們同時(shí)將檢測(cè)擴(kuò)展到大量用戶,同時(shí)保持較低的內(nèi)存占用而且不損失準(zhǔn)確性。我們展示了相關(guān)的經(jīng)驗(yàn)結(jié)果,其中分布式方法在ScanNet數(shù)據(jù)集上達(dá)到了可比擬集中式方法的精度,而且將內(nèi)存消耗減少了15倍。 14. Panoramic convolutions for 360o single-image saliency prediction By:Universidad de Zaragoza,I3A 我們提出了一種基于全景卷積的卷積神經(jīng)網(wǎng)絡(luò),并主要用于360度等矩全景圖的顯著性預(yù)測(cè)。我們的網(wǎng)絡(luò)架構(gòu)利用了最近提出的360度感知卷積進(jìn)行設(shè)計(jì),所述卷積將內(nèi)核表示為與全景投影所在的球體相切的面片,并且使用一個(gè)根據(jù)每個(gè)像素在日昝投影中的坐標(biāo)來懲罰預(yù)測(cè)誤差的球形損失函數(shù)。我們的模型成功地從單個(gè)圖像預(yù)測(cè)360度場(chǎng)景中的顯著性,在全景內(nèi)容方面的性能優(yōu)于其他最新方法,并且產(chǎn)生了可能有助于理解用戶在查看360度虛擬現(xiàn)實(shí)內(nèi)容時(shí)的行為的更精確結(jié)果。 15. Realistic Training in VR using Physical Manipulation By:Nokia Bell-Labs 我們之前在IEEE虛擬現(xiàn)實(shí)研討會(huì)中提出了一種直接應(yīng)用于訓(xùn)練應(yīng)用的混合現(xiàn)實(shí)交互方法。它基于兩個(gè)關(guān)鍵思想的結(jié)合:通過分割用戶真實(shí)雙手來在虛擬空間中提供真實(shí)的用戶具現(xiàn),并允許在沉浸式場(chǎng)景中操縱可能保留或改變其真實(shí)外觀的物理對(duì)象。對(duì)于所述概念的部署,我們?cè)诨A(chǔ)場(chǎng)景使用了Unity部,以及基于顏色的對(duì)象分割算法和用于對(duì)象追蹤的Aruco庫。然后,為了利用游戲化的優(yōu)勢(shì),我們構(gòu)建了一個(gè)5分鐘的逃生室游戲來驗(yàn)證所有組件:真實(shí)的具現(xiàn),真實(shí)的對(duì)象,增強(qiáng)的真實(shí)對(duì)象和控制設(shè)備。我們通過53名用戶對(duì)系統(tǒng)進(jìn)行了全面的評(píng)估,并制定了一個(gè)公平的比較方案:每個(gè)用戶必須玩兩次逃生室,一次是使用真實(shí)對(duì)象和雙手,另一次是純虛擬對(duì)象和虛擬化身。在完成測(cè)試后,用戶必須回答一份衡量用戶臨場(chǎng)感,具現(xiàn)感和體驗(yàn)質(zhì)量的標(biāo)準(zhǔn)問卷調(diào)查。另外,我們從游戲運(yùn)行中提取了與性能相關(guān)的定量數(shù)據(jù)。結(jié)果驗(yàn)證了我們的假設(shè),亦即這種方法顯著地改善了關(guān)鍵因素,如相對(duì)于對(duì)應(yīng)虛擬現(xiàn)實(shí)解決方案的臨場(chǎng)感或具現(xiàn)感。我們預(yù)計(jì)我們的解決方案將為虛擬培訓(xùn)應(yīng)用程序的實(shí)現(xiàn)提供重大進(jìn)展。 16. Real-time Pupil Tracking from Monocular Video for Digital Puppetry By:Google Research 我們提出了一種由移動(dòng)設(shè)備的實(shí)時(shí)視頻追蹤瞳孔的簡單實(shí)時(shí)方法。我們的方法擴(kuò)展了一個(gè)最先進(jìn)的人臉網(wǎng)格檢測(cè)器。所述檢測(cè)器由兩個(gè)新組件組成:一個(gè)可以在二維預(yù)測(cè)瞳孔位置的微小神經(jīng)網(wǎng)絡(luò);另一個(gè)是基于位移的瞳孔混合形狀系數(shù)估計(jì)。我們的技術(shù)可以用來精確地控制虛擬木偶的瞳孔運(yùn)動(dòng),從而給它帶來生命力。所述方法在現(xiàn)代手機(jī)的運(yùn)行速度超過50 FPS,并且可以用于任何實(shí)時(shí)木偶制作管道。 17. Real-time Retinal Localization for Eye-tracking in Head-mounted Displays By:Univerisity of Washington, Magic Leap 在頭戴式顯示器中,精確的和魯棒的眼動(dòng)追蹤非常關(guān)鍵。本文研究了一種利用視網(wǎng)膜運(yùn)動(dòng)視頻來估計(jì)眼睛注視點(diǎn)的方法。我們將視網(wǎng)膜運(yùn)動(dòng)視頻的每一幀定位在一幅馬賽克大視場(chǎng)搜索圖像中。定位是基于卡爾曼濾波進(jìn)行,它在估計(jì)過程中嵌入深度學(xué)習(xí),并以圖像配準(zhǔn)為測(cè)量手段。所述算法在實(shí)驗(yàn)中得到了驗(yàn)證。在實(shí)驗(yàn)中,視網(wǎng)膜運(yùn)動(dòng)視頻是從一個(gè)動(dòng)態(tài)的真實(shí)體模中獲取。除標(biāo)注誤差外,算法的平均定位精度為0.68°。傳統(tǒng)的瞳孔閃爍眼動(dòng)追蹤方法的平均誤差為0.5°-1°,而使用視網(wǎng)膜視頻的眼動(dòng)追蹤分辨率為每像素0.05°,比瞳孔閃爍方法優(yōu)勝近20倍。對(duì)于這個(gè)天生魯棒的方法,其精度有望隨著進(jìn)一步的開發(fā)而提高。 18. Slow Glass: Visualizing History in 3D By:University of Washington,Google 我們介紹了在三維中重建和查看古舊立體圖的新技術(shù)。利用來自加利福尼亞攝影博物館的Keystone Mast圖像集,我們通過多個(gè)處理步驟來生成清晰立體圖對(duì),包括校準(zhǔn)數(shù)據(jù),校正變換和視差圖。我們描述了一種從以實(shí)時(shí)速率在移動(dòng)設(shè)備運(yùn)行的場(chǎng)景中合成新視圖的方法,模擬了通過打開窗口查看這些歷史場(chǎng)景的體驗(yàn)。 19. Weakly-Supervised Mesh-Convolutional Hand Reconstruction in the Wild By:Ariel AI, Twitter 我們介紹了一種簡單有效的單目三維手部姿態(tài)估計(jì)網(wǎng)絡(luò)架構(gòu)。所述網(wǎng)絡(luò)架構(gòu)由圖像編碼器和網(wǎng)格卷積解碼器組成,并通過直接的三維手部網(wǎng)格重建損失進(jìn)行訓(xùn)練。我們?cè)赮ouTube視頻中收集一個(gè)大規(guī)模的手部動(dòng)作數(shù)據(jù)集來訓(xùn)練我們的網(wǎng)絡(luò),并將其用作弱監(jiān)督的來源。我們基于弱監(jiān)督網(wǎng)格卷積的系統(tǒng)在很大程度上優(yōu)于最新的方法,甚至可以將原始基準(zhǔn)上的錯(cuò)誤減半。最終的網(wǎng)絡(luò)將通過在移動(dòng)手機(jī)運(yùn)行的實(shí)時(shí)多人手姿勢(shì)估計(jì)演示內(nèi)容進(jìn)行展示。 原文鏈接:https:///news/75872.html |
|