MIT黑科技：無需視覺輸入，立體聲音頻攝像機(jī)元數(shù)據(jù)即可實現(xiàn)移動車輛定位

西北望msm66g9f 2019-11-10

展開全文

本文轉(zhuǎn)載自機(jī)器之心。

選自 arXiv

作者：Chuang Gan、Hang Zhao、Peihao Chen、David Cox、Antonio Torralba

機(jī)器之心編譯

聲音在物體定位中會起到非常重要的作用，人們甚至可以利用自身對聲音的感知來定位視線范圍內(nèi)的物體。在本文中，來自 MIT 計算機(jī)科學(xué)與人工智能實驗室、MIT-IBM 沃森人工智能實驗室團(tuán)隊的研究者提出了一套利用無標(biāo)記的視聽數(shù)據(jù)來自監(jiān)督學(xué)習(xí)的算法，僅依靠立體音頻和攝像機(jī)元數(shù)據(jù)就可以在視覺參考坐標(biāo)系中定位移動的車輛。

論文：https:///pdf/1910.11760.pdf
項目鏈接：http://sound-track.csail./

聲音能夠傳達(dá)我們周圍現(xiàn)實世界的豐富信息，人類非常善于辨別身邊物體產(chǎn)生的聲音。我們經(jīng)?？梢愿鶕?jù)物體發(fā)出的聲音（例如狗叫聲）來判斷物體是什么，并且可以根據(jù)它們與其他物體相互作用時發(fā)出的聲音來判斷材料的屬性（例如它們的軟硬程度）。

此外，我們對聲音的感知使我們能夠定位不在視線范圍內(nèi)的物體（例如在我們身后或被遮擋的物體），并且在光線不足的條件下，聲音在定位物體方面起著重要作用。重要的是，我們的視覺和聽覺在根本上是一體的，例如，我們可以通過看或者閉眼聽來定位目標(biāo)并準(zhǔn)確指出其所在方向。這種將聽覺和視覺信息融合到共同參考坐標(biāo)系中的本領(lǐng)使我們能夠?qū)⒙犛X信息和視覺信息整合在一起（如果兩者都存在），或者在另一個不存在時僅依賴其中一個。

本文介紹了一種系統(tǒng)，該系統(tǒng)可以利用未標(biāo)記的視聽數(shù)據(jù)來學(xué)習(xí)在視覺參考坐標(biāo)系中定位物體（移動的車輛），而在推斷時僅使用立體聲即可。由于兩個空間分離的麥克風(fēng)之間有時延和聲級差異，立體音頻可提供有關(guān)物體位置的豐富信息。下圖 1 給出了示例來說明該問題的解決方案。

圖 1：以立體聲為輸入，本文提出的跨模態(tài)聽覺定位系統(tǒng)可以完全從立體聲和攝像機(jī)元數(shù)據(jù)中恢復(fù)參考坐標(biāo)系中移動車輛的坐標(biāo)，而不需任何視覺輸入。

由于手動注釋音頻和目標(biāo)邊界框之間的關(guān)系需要大量人力成本，因此研究者通過將未標(biāo)記視頻中的視頻和音頻流的同時出現(xiàn)作為一種自監(jiān)督的方式來解決這一問題，而無需通過真實標(biāo)注。

具體來說，他們提出了一個由視覺「教師」網(wǎng)絡(luò)和立體聲「學(xué)生」網(wǎng)絡(luò)組成的框架。在訓(xùn)練過程中，使用未標(biāo)記的視頻作為橋梁，將完善的視頻車輛檢測模型中的知識遷移到音頻域。在測試時，立體聲「學(xué)生」網(wǎng)絡(luò)可以獨立工作，僅使用立體聲音頻和攝像機(jī)元數(shù)據(jù)就可以進(jìn)行目標(biāo)定位，而無需任何視覺輸入。

在新收集的聽覺車輛跟蹤數(shù)據(jù)集中的實驗結(jié)果證明，本文提出的方法優(yōu)于幾種基線方法。研究者還證明了他們的跨模態(tài)聽覺定位方法可以在光線不足的情況下幫助移動車輛的視覺定位。

本研究的目標(biāo)是在沒有任何視頻輸入的情況下，完全從立體聲中恢復(fù)行駛中車輛的坐標(biāo)。這類系統(tǒng)的實際應(yīng)用場景十分廣泛。例如，可以僅使用麥克風(fēng)來部署交通監(jiān)控系統(tǒng)，因為麥克風(fēng)比攝像頭便宜且功耗低，可以保護(hù)隱私，帶寬占用少（僅在前期訓(xùn)練階段才需要攝像頭）。同樣，可以使用融合的視聽定位來增強(qiáng)機(jī)器人的視覺跟蹤能力，即使在光線不足條件下也可以表現(xiàn)良好。

方法

本方法的核心是觀察到未標(biāo)記視頻中視覺和聲音之間的自然同步可以作為自監(jiān)督的學(xué)習(xí)形式。因此，機(jī)器可以通過查看和聽到許多產(chǎn)生聲音的移動車輛示例來學(xué)習(xí)預(yù)測物體的位置。研究者使用師生框架（student-teacher framework）對學(xué)習(xí)問題進(jìn)行建模。他們的系統(tǒng)使用視頻幀和聲音同時進(jìn)行訓(xùn)練，這使得音頻「學(xué)生」網(wǎng)絡(luò)可以從視頻「教師」網(wǎng)絡(luò)中學(xué)習(xí)如何定位車輛邊界框。

研究者首先介紹了跨模態(tài)聽覺定位系統(tǒng)的基本組成部件，然后介紹了如何通過使用目標(biāo)檢測損失和特征對齊約束訓(xùn)練音頻子網(wǎng)絡(luò)，將視覺車輛檢測模型中的知識轉(zhuǎn)換為給定攝像機(jī)元數(shù)據(jù)的聲音信號。最后，他們提出了一種時間平滑方法（temporal smoothing approach）來跟蹤車輛時間。。

下圖 2 概述了研究者提出的方法框架。

圖 2：跨模態(tài)聽覺定位「教師-學(xué)生」網(wǎng)絡(luò)框架。

「教師」視覺子網(wǎng)絡(luò)

本文中的聽覺目標(biāo)定位系統(tǒng)包含兩個關(guān)鍵組件：「教師」視覺子網(wǎng)絡(luò)和「學(xué)生」音頻子網(wǎng)絡(luò)。

如上圖 2 所示，研究者將 YOLOv2 [31] 作為基于視覺的「教師」網(wǎng)絡(luò)，因為它能同時保證目標(biāo)檢測的速度和準(zhǔn)確性。

YOLOv2 的主干是 Darknet，它由 19 個卷積層和 5 個最大池化層組成。為了使其更適合于目標(biāo)檢測，最后的卷積層被具有 1024 個濾波器的三個 3×3 卷積層替換，隨后是一個需要檢測輸出數(shù)量的 1×1 卷積層。類似于 ResNet 中使用的恒等映射（identity mapping），從最后的 3×3×512 層到倒數(shù)第二層的卷積層間還有一個轉(zhuǎn)移層（passthrough layer），以聚合細(xì)粒度級別的特征。此外，為了使模型更穩(wěn)定且更易于學(xué)習(xí)，網(wǎng)絡(luò)經(jīng)過訓(xùn)練以預(yù)測錨框位置的定位坐標(biāo)。

為了準(zhǔn)備數(shù)據(jù)，研究者首先將每個視頻片段分解為多個 T = 1s 的視頻片段，然后選擇每個片段的中間幀作為「教師」網(wǎng)絡(luò)的輸入。在訓(xùn)練期間，每個中間視頻幀被輸入到 YOLOv2 模型中，并利用 Pascal VOC 2007 和 VOC 2012 數(shù)據(jù)集來進(jìn)行預(yù)處理，從而得到車輛檢測結(jié)果。為了使檢測結(jié)果更平滑，他們還應(yīng)用了非極大值抑制（non-maximum suppression，NMS）作為后處理。

「學(xué)生」音頻子網(wǎng)絡(luò)

研究者將目標(biāo)檢測從立體聲轉(zhuǎn)換為回歸問題。他們將「教師」視覺子網(wǎng)絡(luò)產(chǎn)生的目標(biāo)檢測結(jié)果作為偽標(biāo)簽，然后訓(xùn)練「學(xué)生」音頻子網(wǎng)絡(luò)以直接從音頻信號中回歸偽邊界框坐標(biāo)?？紤]到不同的攝像頭角度對視覺內(nèi)容的影響可能會比音頻更大，因此在訓(xùn)練音頻子網(wǎng)絡(luò)時，通過將攝像頭的元數(shù)據(jù)作為輸入來解決此問題。這里的元數(shù)據(jù)包括攝像機(jī)高度、俯仰角以及攝像機(jī)在街道的方位。

研究者首先通過短時間傅立葉變換（Short-Time Fourier Transform，STFT）將每個 1 秒的音頻片段轉(zhuǎn)換成聲譜圖。由于立體聲中有兩個通道，因此他們分別計算了它們的聲譜圖，然后將它們疊加作為音頻子網(wǎng)的輸入。

要將輸入音頻頻譜圖的 FT（頻率-時間）表征轉(zhuǎn)換為視覺視圖，他們首先使用了 10 個跨步卷積層，其中每個卷積層后邊都跟著批歸一化層和 ReLU 激活函數(shù)，作為編碼器將立體聲音信號壓縮為 1×1×1024 特征圖，從而消除了空間分辨率。然后，他們使用多層感知器將元數(shù)據(jù)編碼為 1×1×128 特征圖。在將壓縮的聲音信息和已編碼的元數(shù)據(jù)進(jìn)行通道連接之后，由 2 個全連接層和 3 個反卷積層組成的解碼器將用于重建空間分辨率，并將音頻信息映射到視覺視圖。最終輸出結(jié)果與 YOLOv2 類似，并且研究者采用 YOLOv2 中使用的目標(biāo)檢測損失來訓(xùn)練音頻子網(wǎng)。

實驗

下表 1 是本文方法與基線方法的結(jié)果對比。