日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

MIT黑科技:無需視覺輸入,立體聲音頻 攝像機(jī)元數(shù)據(jù)即可實現(xiàn)移動車輛定位

 西北望msm66g9f 2019-11-10


本文轉(zhuǎn)載自機(jī)器之心。

選自 arXiv

作者:Chuang Gan、Hang Zhao、Peihao Chen、David Cox、Antonio Torralba
機(jī)器之心編譯
聲音在物體定位中會起到非常重要的作用,人們甚至可以利用自身對聲音的感知來定位視線范圍內(nèi)的物體。在本文中,來自 MIT 計算機(jī)科學(xué)與人工智能實驗室、MIT-IBM 沃森人工智能實驗室團(tuán)隊的研究者提出了一套利用無標(biāo)記的視聽數(shù)據(jù)來自監(jiān)督學(xué)習(xí)的算法,僅依靠立體音頻和攝像機(jī)元數(shù)據(jù)就可以在視覺參考坐標(biāo)系中定位移動的車輛。
  • 論文:https:///pdf/1910.11760.pdf

  • 項目鏈接:http://sound-track.csail./

聲音能夠傳達(dá)我們周圍現(xiàn)實世界的豐富信息,人類非常善于辨別身邊物體產(chǎn)生的聲音。我們經(jīng)??梢愿鶕?jù)物體發(fā)出的聲音(例如狗叫聲)來判斷物體是什么,并且可以根據(jù)它們與其他物體相互作用時發(fā)出的聲音來判斷材料的屬性(例如它們的軟硬程度)。
此外,我們對聲音的感知使我們能夠定位不在視線范圍內(nèi)的物體(例如在我們身后或被遮擋的物體),并且在光線不足的條件下,聲音在定位物體方面起著重要作用。重要的是,我們的視覺和聽覺在根本上是一體的,例如,我們可以通過看或者閉眼聽來定位目標(biāo)并準(zhǔn)確指出其所在方向。這種將聽覺和視覺信息融合到共同參考坐標(biāo)系中的本領(lǐng)使我們能夠?qū)⒙犛X信息和視覺信息整合在一起(如果兩者都存在),或者在另一個不存在時僅依賴其中一個。
本文介紹了一種系統(tǒng),該系統(tǒng)可以利用未標(biāo)記的視聽數(shù)據(jù)來學(xué)習(xí)在視覺參考坐標(biāo)系中定位物體(移動的車輛),而在推斷時僅使用立體聲即可。由于兩個空間分離的麥克風(fēng)之間有時延和聲級差異,立體音頻可提供有關(guān)物體位置的豐富信息。下圖 1 給出了示例來說明該問題的解決方案。

圖 1:以立體聲為輸入,本文提出的跨模態(tài)聽覺定位系統(tǒng)可以完全從立體聲和攝像機(jī)元數(shù)據(jù)中恢復(fù)參考坐標(biāo)系中移動車輛的坐標(biāo),而不需任何視覺輸入。
由于手動注釋音頻和目標(biāo)邊界框之間的關(guān)系需要大量人力成本,因此研究者通過將未標(biāo)記視頻中的視頻和音頻流的同時出現(xiàn)作為一種自監(jiān)督的方式來解決這一問題,而無需通過真實標(biāo)注。
具體來說,他們提出了一個由視覺「教師」網(wǎng)絡(luò)和立體聲「學(xué)生」網(wǎng)絡(luò)組成的框架。在訓(xùn)練過程中,使用未標(biāo)記的視頻作為橋梁,將完善的視頻車輛檢測模型中的知識遷移到音頻域。在測試時,立體聲「學(xué)生」網(wǎng)絡(luò)可以獨立工作,僅使用立體聲音頻和攝像機(jī)元數(shù)據(jù)就可以進(jìn)行目標(biāo)定位,而無需任何視覺輸入。
在新收集的聽覺車輛跟蹤數(shù)據(jù)集中的實驗結(jié)果證明,本文提出的方法優(yōu)于幾種基線方法。研究者還證明了他們的跨模態(tài)聽覺定位方法可以在光線不足的情況下幫助移動車輛的視覺定位。
本研究的目標(biāo)是在沒有任何視頻輸入的情況下,完全從立體聲中恢復(fù)行駛中車輛的坐標(biāo)。這類系統(tǒng)的實際應(yīng)用場景十分廣泛。例如,可以僅使用麥克風(fēng)來部署交通監(jiān)控系統(tǒng),因為麥克風(fēng)比攝像頭便宜且功耗低,可以保護(hù)隱私,帶寬占用少(僅在前期訓(xùn)練階段才需要攝像頭)。同樣,可以使用融合的視聽定位來增強(qiáng)機(jī)器人的視覺跟蹤能力,即使在光線不足條件下也可以表現(xiàn)良好。
方法
本方法的核心是觀察到未標(biāo)記視頻中視覺和聲音之間的自然同步可以作為自監(jiān)督的學(xué)習(xí)形式。因此,機(jī)器可以通過查看和聽到許多產(chǎn)生聲音的移動車輛示例來學(xué)習(xí)預(yù)測物體的位置。研究者使用師生框架(student-teacher framework)對學(xué)習(xí)問題進(jìn)行建模。他們的系統(tǒng)使用視頻幀和聲音同時進(jìn)行訓(xùn)練,這使得音頻「學(xué)生」網(wǎng)絡(luò)可以從視頻「教師」網(wǎng)絡(luò)中學(xué)習(xí)如何定位車輛邊界框。
研究者首先介紹了跨模態(tài)聽覺定位系統(tǒng)的基本組成部件,然后介紹了如何通過使用目標(biāo)檢測損失和特征對齊約束訓(xùn)練音頻子網(wǎng)絡(luò),將視覺車輛檢測模型中的知識轉(zhuǎn)換為給定攝像機(jī)元數(shù)據(jù)的聲音信號。最后,他們提出了一種時間平滑方法(temporal smoothing approach)來跟蹤車輛時間。。
下圖 2 概述了研究者提出的方法框架。

圖 2:跨模態(tài)聽覺定位「教師-學(xué)生」網(wǎng)絡(luò)框架。
「教師」視覺子網(wǎng)絡(luò)
本文中的聽覺目標(biāo)定位系統(tǒng)包含兩個關(guān)鍵組件:「教師」視覺子網(wǎng)絡(luò)和「學(xué)生」音頻子網(wǎng)絡(luò)。
如上圖 2 所示,研究者將 YOLOv2 [31] 作為基于視覺的「教師」網(wǎng)絡(luò),因為它能同時保證目標(biāo)檢測的速度和準(zhǔn)確性。
YOLOv2 的主干是 Darknet,它由 19 個卷積層和 5 個最大池化層組成。為了使其更適合于目標(biāo)檢測,最后的卷積層被具有 1024 個濾波器的三個 3×3 卷積層替換,隨后是一個需要檢測輸出數(shù)量的 1×1 卷積層。類似于 ResNet 中使用的恒等映射(identity mapping),從最后的 3×3×512 層到倒數(shù)第二層的卷積層間還有一個轉(zhuǎn)移層(passthrough layer),以聚合細(xì)粒度級別的特征。此外,為了使模型更穩(wěn)定且更易于學(xué)習(xí),網(wǎng)絡(luò)經(jīng)過訓(xùn)練以預(yù)測錨框位置的定位坐標(biāo)。
為了準(zhǔn)備數(shù)據(jù),研究者首先將每個視頻片段分解為多個 T = 1s 的視頻片段,然后選擇每個片段的中間幀作為「教師」網(wǎng)絡(luò)的輸入。在訓(xùn)練期間,每個中間視頻幀被輸入到 YOLOv2 模型中,并利用 Pascal VOC 2007 和 VOC 2012 數(shù)據(jù)集來進(jìn)行預(yù)處理,從而得到車輛檢測結(jié)果。為了使檢測結(jié)果更平滑,他們還應(yīng)用了非極大值抑制(non-maximum suppression,NMS)作為后處理。
「學(xué)生」音頻子網(wǎng)絡(luò)
研究者將目標(biāo)檢測從立體聲轉(zhuǎn)換為回歸問題。他們將「教師」視覺子網(wǎng)絡(luò)產(chǎn)生的目標(biāo)檢測結(jié)果作為偽標(biāo)簽,然后訓(xùn)練「學(xué)生」音頻子網(wǎng)絡(luò)以直接從音頻信號中回歸偽邊界框坐標(biāo)??紤]到不同的攝像頭角度對視覺內(nèi)容的影響可能會比音頻更大,因此在訓(xùn)練音頻子網(wǎng)絡(luò)時,通過將攝像頭的元數(shù)據(jù)作為輸入來解決此問題。這里的元數(shù)據(jù)包括攝像機(jī)高度、俯仰角以及攝像機(jī)在街道的方位。
研究者首先通過短時間傅立葉變換(Short-Time Fourier Transform,STFT)將每個 1 秒的音頻片段轉(zhuǎn)換成聲譜圖。由于立體聲中有兩個通道,因此他們分別計算了它們的聲譜圖,然后將它們疊加作為音頻子網(wǎng)的輸入。
要將輸入音頻頻譜圖的 FT(頻率-時間)表征轉(zhuǎn)換為視覺視圖,他們首先使用了 10 個跨步卷積層,其中每個卷積層后邊都跟著批歸一化層和 ReLU 激活函數(shù),作為編碼器將立體聲音信號壓縮為 1×1×1024 特征圖,從而消除了空間分辨率。然后,他們使用多層感知器將元數(shù)據(jù)編碼為 1×1×128 特征圖。在將壓縮的聲音信息和已編碼的元數(shù)據(jù)進(jìn)行通道連接之后,由 2 個全連接層和 3 個反卷積層組成的解碼器將用于重建空間分辨率,并將音頻信息映射到視覺視圖。最終輸出結(jié)果與 YOLOv2 類似,并且研究者采用 YOLOv2 中使用的目標(biāo)檢測損失來訓(xùn)練音頻子網(wǎng)。
實驗
下表 1 是本文方法與基線方法的結(jié)果對比。

表 1:跨模態(tài)聽覺定位在平均精度(Average Precision,AP)和中心距離(Center Distance,CD)的結(jié)果對比。
從上表中可以看出,當(dāng)研究者用目標(biāo)檢測損失和特征對齊約束來訓(xùn)練跨模態(tài)聽覺定位時,它的性能優(yōu)于所有純音頻基線方法。使用跟蹤后處理(tracking post-processing)可以進(jìn)一步提升平均精度,還可以使跟蹤更加一致和平滑。
研究者還分別測試了單個車輛和多個車輛的檢測情況。結(jié)果如下表 2 所示:

表 2:根據(jù)平均精度(AP)和中心距離(CD)得出的單個車輛和多個車輛的聽覺車輛定位結(jié)果。
在下圖 4 中,研究者可視化了輸入聲譜圖和相應(yīng)的立體聲定位結(jié)果。

圖 4:一個視頻片段的跨模態(tài)聽覺定位結(jié)果及對應(yīng)輸入聲譜圖的可視化。
如上圖所示,在視頻的開頭,圖像的右側(cè)有一輛汽車,并且可以清楚地看到,右聲道的頻譜圖振幅高于左聲道。
對于無跟蹤后處理的基線,研究者將 ID 隨機(jī)分配給每個框,因為此類基線無法預(yù)測 ID。結(jié)果如下表 3 所示:

表 3:跟蹤指標(biāo)方面的結(jié)果對比。
研究者直接將經(jīng)過白天數(shù)據(jù)訓(xùn)練的音頻子網(wǎng)絡(luò)應(yīng)用于夜間場景,沒有進(jìn)行任何微調(diào)。結(jié)果如下表 4 所示:

表 4:在惡劣照明條件下的聽覺車輛定位平均精度(AP)。
研究者還可視化了一些有趣示例,如下圖 5 所示:

圖 5:(a)不同場景下跨模態(tài)聽覺定位的可視化以及由于卡車、火車和雜物發(fā)出的嘈雜聲音而檢測失敗的案例;(b)使用視覺目標(biāo)定位系統(tǒng)的常見失效示例。
在下表 5 中,我們通過比較新場景的性能來探索聽覺目標(biāo)檢測系統(tǒng)的泛化能力。

表 5:聽覺車輛檢測系統(tǒng)的泛化結(jié)果。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多