藝術(shù)家如何借助神經(jīng)網(wǎng)絡(luò)進(jìn)行創(chuàng)作？

汐鈺文藝范 2017-04-11

展開全文

作者：Liao

參與：王灝、吳沁桐

1. 藝術(shù)家如何理解神經(jīng)網(wǎng)絡(luò)？

David Aslan 是一個傳統(tǒng)油畫家，但他同時也對與藝術(shù)相關(guān)的科學(xué)技術(shù)有著濃厚的興趣。他想要通過撰寫這篇博客來分享他使用神經(jīng)網(wǎng)絡(luò)創(chuàng)作藝術(shù)作品的經(jīng)驗與知識，從而幫助其他的藝術(shù)家也能理解神經(jīng)網(wǎng)絡(luò)，甚至讓他們也能在日后的工作里找到更有趣更炫酷的方式來實現(xiàn)并呈現(xiàn)他們的作品。

David 把神經(jīng)網(wǎng)絡(luò)看成一種用來解決問題的運(yùn)算工具，不過，它和傳統(tǒng)的計算工具還是有很大區(qū)別的。他認(rèn)為神經(jīng)網(wǎng)絡(luò)把一堆數(shù)據(jù)當(dāng)作輸入來進(jìn)行處理，但是卻輸出并不是太相關(guān)的結(jié)果。但是，神經(jīng)網(wǎng)絡(luò)卻可以從這些錯誤中進(jìn)行學(xué)習(xí)，直到它達(dá)到一種平衡以至于得到一個近似「正確」的結(jié)果。David 打了一個比方來解釋這一處理過程：

你扔進(jìn)了一堆數(shù)據(jù)，你得到了一堆垃圾；你告訴計算機(jī)輸出的結(jié)果是過熱還是過冷，然后計算機(jī)再進(jìn)行下一次嘗試。

2. 藝術(shù)家如何通過神經(jīng)網(wǎng)絡(luò)創(chuàng)作藝術(shù)作品？

和那些希望通過神經(jīng)網(wǎng)絡(luò)直接產(chǎn)生出藝術(shù)作品的計算機(jī)科學(xué)家不同，David 卻是把神經(jīng)網(wǎng)絡(luò)當(dāng)作一種創(chuàng)作藝術(shù)的工具。

他使用「Deep Style」將原始的照片或者繪畫作品轉(zhuǎn)化成擁有其他藝術(shù)風(fēng)格的圖像。基于這些通過神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換出來的圖像，他再利用 Photoshop 來修改并完善圖像中的細(xì)節(jié)。

具體來說，他的工作流程是這個樣子：

準(zhǔn)備好一張打算轉(zhuǎn)換的圖像（被稱作「內(nèi)容圖像」，content image）和若干張風(fēng)格圖像（用于提取圖像中的藝術(shù)風(fēng)格，style image）。
通過 Deep Style，他可以獲得若干張轉(zhuǎn)換好的，擁有不同的藝術(shù)風(fēng)格，但是內(nèi)容一致的輸出圖像（被稱作「風(fēng)格化圖像」）。
將這些風(fēng)格化圖像通過圖層功能堆疊在原始的內(nèi)容圖像之上，最后再在 Photoshop 里用蒙版功能有選擇性地保留或刪去風(fēng)格化圖像的部分內(nèi)容。
最后再添加一個圖層用于完善細(xì)節(jié)以及將上述步驟中最終保留下來的擁有不同風(fēng)格的部分混合在一張圖像里。

他將第三步和第四步統(tǒng)稱為「混合神經(jīng)技術(shù)」（Fusion Neural Technique），這也是他整個處理流程里的亮點。以下的這張動圖則粗略地展示了他的處理過程。

3. 實驗中的關(guān)鍵點

神經(jīng)網(wǎng)絡(luò)和 Photoshop 中傳統(tǒng)濾鏡功能的區(qū)別

David 發(fā)現(xiàn) Photoshop 中的藝術(shù)濾鏡功能并不能識別出輸入圖像里的物體，因此這些濾鏡只是對每一個像素都做了同一個簡單運(yùn)算。這種情況下，輸入圖像就失去了自己的「特異性」。與之相反，神經(jīng)網(wǎng)絡(luò)不僅能夠識別出圖像中的物體，也就是圖像的內(nèi)容，同時還可以鑒別出圖像的紋理特征，從而使最終的輸出結(jié)果更加真實。

「混合神經(jīng)技術(shù)」的作用

合成圖像通常有著模糊的邊界以及相對來說較低的分辨率。因此，人為增加的混合圖層可以補(bǔ)償一些由于神經(jīng)網(wǎng)絡(luò)處理而導(dǎo)致的信息或分辨率的損失，從而使最終的輸出結(jié)果有著更加銳利的邊緣以及更高的分辨率。這一部分的處理過程正是藝術(shù)家的」再創(chuàng)作「，也正如他所說，他將神經(jīng)網(wǎng)絡(luò)看成創(chuàng)作的工具之一。

David 對神經(jīng)網(wǎng)絡(luò)和藝術(shù)的一些獨到觀點

藝術(shù)與科技的關(guān)系：他認(rèn)為藝術(shù)的發(fā)展和技術(shù)的發(fā)展是密不可分的。打比方來說，「印象派」的出現(xiàn)正源自于光學(xué)領(lǐng)域的科學(xué)發(fā)現(xiàn)；具備電子放大器的樂器則為我們帶來了搖滾樂。因此，從這個角度來說，神經(jīng)網(wǎng)絡(luò)也可以當(dāng)成藝術(shù)創(chuàng)作的一種工具。

4. 他的藝術(shù)工作背后的技術(shù)細(xì)節(jié)

在這篇博客里，David 使用 Deep Style 來創(chuàng)作藝術(shù)作品。其中，Deep Style 則是基于《A Neural Algorithm of Artistic Style》這篇論文的一個具體實現(xiàn)。

這篇論文使用 VGG-Net 來分別從內(nèi)容圖像和風(fēng)格圖像中提取內(nèi)容信息和風(fēng)格信息，然后再分別計算它們和隨機(jī)噪音圖像之間的損失。通過反向傳播算法，隨機(jī)噪音圖像最終可以被轉(zhuǎn)換成擁有給定圖像內(nèi)容，但擁有另外的藝術(shù)風(fēng)格的圖像。

以下插圖展示了這個網(wǎng)絡(luò)的概覽：

將內(nèi)容圖像和生成圖像分別記為\vec{p} 和 \vec{x}，而它們對應(yīng)在 l 層的特征表達(dá)分別記為 P^l 和 F^l。那么內(nèi)容損失則可以定義成以下式子：

該式相關(guān)的偏導(dǎo)數(shù)記為：

通過使用反向傳播算法，初始的隨機(jī)輸入圖像 \vec{x} 能夠不斷改變直到它的特征表達(dá)非常接近 P^l，也就意味著內(nèi)容被重構(gòu)出來了。

這篇論文同樣定義了一副圖像的「風(fēng)格」。G^l 是 Gram 矩陣用來表示 l 層的風(fēng)格特征表達(dá)。該矩陣的每個元素可以通過以下式子計算得到：

風(fēng)格圖像和生成圖像分別記為 \vec{a} 和 \vec{x}，A^l 和 G^l 分別是它們的特征表達(dá)。這樣一來，風(fēng)格損失則可以定義成：

這里，N_I 是 l 層的濾波器的個數(shù)。它的偏導(dǎo)數(shù)可以通過以下式子計算：

結(jié)合內(nèi)容損失和風(fēng)格損失，我們可以得到最終的目標(biāo)優(yōu)化函數(shù)：

通過優(yōu)化該式子，就可以生成目標(biāo)圖像 \vec{x}。最終目標(biāo)圖像不僅擁有內(nèi)容圖像的內(nèi)容，同時還擁有給定的風(fēng)格，如下圖所示：

5. 一些其他的思考

顯然，藝術(shù)家更愿意將神經(jīng)網(wǎng)絡(luò)看成「繪畫」的工具。與之相反的是，計算機(jī)科學(xué)家則致力于設(shè)計能夠真正自己「創(chuàng)造」藝術(shù)的神經(jīng)網(wǎng)絡(luò)。我認(rèn)為就目前在該領(lǐng)域的研究成果來說，神經(jīng)網(wǎng)絡(luò)更適合成為一種「創(chuàng)作工具」而不是「創(chuàng)作者」。因為目前的神經(jīng)網(wǎng)絡(luò)或多或少都是基于概率模型設(shè)計的，也就是說，這些網(wǎng)絡(luò)都是在給定條件下，通過輸入的數(shù)據(jù)來預(yù)測一個輸出結(jié)果。

不能否認(rèn)，人也是從過往的經(jīng)驗里來學(xué)習(xí)新的知識與能力，正如機(jī)器學(xué)習(xí)中的「監(jiān)督學(xué)習(xí)」。但是人學(xué)習(xí)的這一過程則要復(fù)雜得多。對前文提到的神經(jīng)網(wǎng)絡(luò)來說，訓(xùn)練集僅僅只是「真實的照片」和「繪畫作品」，我們希望從中能夠找到某種能夠?qū)⑺鼈儍烧呗?lián)系起來的映射關(guān)系。然而，除了基于實實在在的場景（也就是所謂「真實的照片」）以外，藝術(shù)家更會結(jié)合自己的個人體驗與經(jīng)驗來進(jìn)行創(chuàng)作——這些個人的體驗與經(jīng)驗是極難被量化成計算機(jī)所能理解的數(shù)據(jù)。

這篇博客同時也從藝術(shù)家的角度提供了一些很有趣的觀點。在藝術(shù)家眼中，自然圖像（也就是真實的場景）中的噪音要遠(yuǎn)比圖畫這類藝術(shù)作品中的噪音多。這一觀點其實是和部分計算機(jī)科學(xué)家的理解相悖的，比如論文《ArtGAN-Artwork Synthesis with Conditional Categorical GANs》。

博客作者也指出目前這種生成類的神經(jīng)網(wǎng)絡(luò)存在的一個問題是：生成的圖像通常會有很模糊的邊緣。因此他不得不使用「混合神經(jīng)技術(shù)」在 Photoshop 中來手動銳化這些邊緣。的確，這種附帶的模糊效果是很難在這一類神經(jīng)網(wǎng)絡(luò)中避免的。對此，論文《Face Aging with Conditional Generative Adversarial Networks》的作者提出可以使用一個訓(xùn)練好的用于識別的神經(jīng)網(wǎng)絡(luò)來分別提取原圖和生成圖像的深層次特征，然后計算二者的 L2 損失來進(jìn)行優(yōu)化，從而減弱邊緣模糊的效應(yīng)。盡管如此，這也僅僅只能「改善」輸出結(jié)果而非徹底解決這一問題。

參考博客：https:///how-artists-can-use-neural-networks-to-make-art-714cdab53953

來源：機(jī)器之心