給定立方體積木的幾個(gè)側(cè)面剪影,你能否「腦補(bǔ)」出它的整個(gè) 3D 形狀?這看起來(lái)像是行測(cè)中的圖形題,考驗(yàn)人們從 2D 畫面到 3D 空間的轉(zhuǎn)換能力。在 DeepMind 最新發(fā)表在頂級(jí)期刊 Science 的論文《Neural scene representation and rendering》中,計(jì)算機(jī)通過(guò)「生成查詢網(wǎng)絡(luò) GQN」也擁有了這種空間推理能力。 理解視覺(jué)場(chǎng)景時(shí),我們依賴的不僅僅是眼睛:我們的大腦利用已有知識(shí)來(lái)推理,并做出遠(yuǎn)遠(yuǎn)超過(guò)視線所及的推論。例如,當(dāng)?shù)谝淮芜M(jìn)入一個(gè)房間時(shí),你會(huì)立即認(rèn)出里面的物品以及它們的位置。如果你看到一張桌子的三條腿,你會(huì)推斷可能還有第四條腿,形狀和顏色相同,只不過(guò)在視線之外。即使你看不到房間里的所有東西,你也可以勾畫出它的布局,或者從另一個(gè)角度想象它的樣子。 這些視覺(jué)和認(rèn)知任務(wù)對(duì)人類來(lái)說(shuō)似乎毫不費(fèi)力,但對(duì)我們的人工智能系統(tǒng)來(lái)說(shuō)卻是一個(gè)重大挑戰(zhàn)。如今,最先進(jìn)的視覺(jué)識(shí)別系統(tǒng)需要使用由人類標(biāo)注的大量圖像數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練的。獲取這些數(shù)據(jù)是一個(gè)成本高昂且耗時(shí)的過(guò)程,需要人工對(duì)數(shù)據(jù)集中每個(gè)場(chǎng)景中每個(gè)對(duì)象的每個(gè)方面進(jìn)行標(biāo)記。而實(shí)驗(yàn)結(jié)果通常只能捕獲到整體場(chǎng)景內(nèi)容的一小部分,這限制了根據(jù)該數(shù)據(jù)訓(xùn)練的人工視覺(jué)系統(tǒng)。隨著我們開(kāi)發(fā)出現(xiàn)實(shí)世界中更復(fù)雜的機(jī)器,我們希望它們可以充分理解周圍的環(huán)境:最近的地面在哪里?沙發(fā)是用什么材料做的?哪一個(gè)光源產(chǎn)生了所有的陰影?電燈開(kāi)關(guān)可能在哪里? DeepMind新提出的GQN,就是這樣一種新思路。 DeepMind 創(chuàng)始人(同時(shí)也是該論文的作者之一)戴密斯·哈薩比斯表示:「我們一直著迷于大腦是如何在意識(shí)中構(gòu)建空間圖像的,我們的最新《Science》論文引入了 GQN:它可以從一些 2D 快照中重建場(chǎng)景的 3D 表示,并可以通過(guò)任何新的視角不斷增強(qiáng)這一表示。」 DeepMind的這套視覺(jué)系統(tǒng),也即生成查詢網(wǎng)絡(luò)(GQN),使用從不同視角收集到的某個(gè)場(chǎng)景的圖像,然后生成關(guān)于這個(gè)場(chǎng)景的抽象描述,通過(guò)一個(gè)無(wú)監(jiān)督的表示學(xué)習(xí)過(guò)程,學(xué)習(xí)到了場(chǎng)景的本質(zhì)。之后,在學(xué)到的這種表示的基礎(chǔ)上,網(wǎng)絡(luò)會(huì)預(yù)測(cè)從其他新的視角看這個(gè)場(chǎng)景將會(huì)是什么樣子。這一過(guò)程非常類似人腦中對(duì)某個(gè)場(chǎng)景的想象。而理解一個(gè)場(chǎng)景中的視覺(jué)元素是典型的智能行為。 表示網(wǎng)絡(luò)與生成網(wǎng)絡(luò)GQN模型由兩部分組成:一個(gè)表示網(wǎng)絡(luò)、一個(gè)生成網(wǎng)絡(luò)。 表示網(wǎng)絡(luò)將智能體觀察到的圖像作為輸入,然后生成一個(gè)描述潛在場(chǎng)景的表示(向量)。 生成網(wǎng)絡(luò)的任務(wù)是從一個(gè)之前沒(méi)有觀察到的角度,來(lái)預(yù)測(cè)(也可以叫“想象”)出這個(gè)潛在的場(chǎng)景。 表示網(wǎng)絡(luò)不知道生成網(wǎng)絡(luò)將被要求預(yù)測(cè)哪些視角,因此必須找到盡可能準(zhǔn)確描述場(chǎng)景真實(shí)布局的有效方法。表示網(wǎng)絡(luò)能通過(guò)簡(jiǎn)明的分布式表示捕獲最重要的元素,例如目標(biāo)位置、顏色和房間布局。在訓(xùn)練過(guò)程中,生成器學(xué)習(xí)環(huán)境中的典型目標(biāo)、特征、關(guān)系和規(guī)律。這組共享的「概念」使表示網(wǎng)絡(luò)能夠以高度壓縮、抽象的方式來(lái)描述場(chǎng)景,讓生成網(wǎng)絡(luò)在必要時(shí)填寫細(xì)節(jié)。例如,表示網(wǎng)絡(luò)將把「藍(lán)色立方體」簡(jiǎn)潔地表示為一個(gè)小的數(shù)值集合,生成網(wǎng)絡(luò)將知道從特定的角度來(lái)看,這是如何以像素的形式表現(xiàn)出來(lái)的。 四大特性DeepMind研究人員在程序生成的虛擬3D環(huán)境中對(duì)GQN做了多次試驗(yàn),包括多種不同物體,被擺放在不同的位置,并且形狀、顏色、材質(zhì)都不相同,同時(shí)還改變了光線方向和遮擋程度。通過(guò)在這些環(huán)境上進(jìn)行訓(xùn)練,他們用GQN的表示網(wǎng)絡(luò)去生成一個(gè)從未見(jiàn)過(guò)的場(chǎng)景。在實(shí)驗(yàn)中人們發(fā)現(xiàn)GQN表現(xiàn)出的四個(gè)重要特性:
未來(lái)研究GQN 建立在最近大量多視角的幾何研究、生成式建模、無(wú)監(jiān)督學(xué)習(xí)和預(yù)測(cè)學(xué)習(xí)的基礎(chǔ)上,它展示了一種學(xué)習(xí)物理場(chǎng)景的緊湊、直觀表征的全新方式。重要的是,提出的這種方法不需要特定域的工程以及消耗時(shí)間對(duì)場(chǎng)景內(nèi)容打標(biāo)簽,使得同一模型能夠應(yīng)用到大量不同的環(huán)境。它也學(xué)習(xí)了一種強(qiáng)大的神經(jīng)渲染器,能夠產(chǎn)生準(zhǔn)確的、全新視角的場(chǎng)景圖像。 DeepMind 認(rèn)為,相比于更多傳統(tǒng)的計(jì)算機(jī)視覺(jué)技術(shù),他們的方法還有許多缺陷,目前也只在合成場(chǎng)景下訓(xùn)練工作的。然而,隨著新數(shù)據(jù)資源的產(chǎn)生、硬件能力的發(fā)展,DeepMind 希望探索 GQN 框架應(yīng)用到更高分辨率真實(shí)場(chǎng)景圖像的研究。未來(lái),探索 GQN 應(yīng)用到更廣泛的場(chǎng)景理解的工作也非常重要,例如通過(guò)跨空間和時(shí)間的查詢來(lái)學(xué)習(xí)物理和移動(dòng)等常識(shí)概念,還有應(yīng)用到虛擬和增強(qiáng)現(xiàn)實(shí)等。 論文原文原文地址:http://science./content/360/6394/1204.full |
|
來(lái)自: LibraryPKU > 《機(jī)器學(xué)習(xí)》