日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

【委員觀點】愛犯錯的智能體 – 視覺篇(十一):主觀時間與運動錯覺

 親斤彳正禾呈 2019-04-13

混沌初開,乾坤始奠。氣之輕清上浮者為天,氣之重濁下凝者為地。

這是明末的啟蒙書《幼學(xué)瓊林》中的開篇,它揣測了空間和時間的開始狀態(tài)。其中乾坤意指天地和陰陽,而陰陽的解讀是時間。所謂“天干,猶木之干,強而為陽;地支,猶木之枝,弱而為陰”,(十)天干(十二)地支是古代紀年歷法的組成,在殷墟的甲骨文就有記載。

我們現(xiàn)在常說的宇宙,和乾坤是同義的。宇指上下四方,是空間。宙指古往今來,是時間,聯(lián)起來就是空時。不過這么說比較拗口,所以人們一般認為宇宙字面上是對應(yīng)時空。


空間是客觀存在的,人的視覺卻是主觀的,所以人的能動性在增強對空間感知能力的同時,會產(chǎn)生錯覺。時間也是客觀存在的,且是單向的,目前一直在向前。不過在愛因斯坦的狹義相對論里,時間并非是完全孤立的變量。按其公式推算,當飛船以近光速的速度進行星際旅行時,飛船上的時間會變慢。所以,才會有雙生子佯謬,因為時間并非絕對的,它受運動速度的影響。不僅如此,人也會對時間產(chǎn)生主觀的感受。成語中有“度日如年”的描述,這在課堂上聽不懂老師講課內(nèi)容時尤為常見,我在中學(xué)時代對此感受頗深。

圖1  雙生子佯謬[1]

時間的主觀感受不僅會讓時間變“慢”,也可能會產(chǎn)生“逆向”的時間錯覺。因為運動與時間的變化相關(guān),時間感受的主觀性又直接影響了對運動的感受, 形成了運動錯覺,它直接影響了智能體對世界的某些感知。

一、運動錯覺

運動錯覺常指“在一定條件下將客觀靜止的物體看成運動的錯覺”,但更廣義來看,它包含了時間主觀感覺引發(fā)的錯覺。因此,這類錯覺既有源自靜止目標的,也有源自運動目標的運動錯覺。從文獻來看,前者又可細分為四種錯覺:動景運動 、自主運動、誘導(dǎo)運動和運動后效[2]。

動景運動與人的視覺暫留現(xiàn)象(Persistence of vision)有關(guān),也稱為“余暉效應(yīng)”,是1824年由英國倫敦大學(xué)教授皮特·馬克·羅葛特在《移動物體的視覺暫留現(xiàn)象》中最早提出的。如其它錯覺一樣,“視覺暫留”的內(nèi)在機理,是以大腦為中心還是以眼睛為中心產(chǎn)生的,并沒有得到統(tǒng)一的結(jié)論。但其現(xiàn)象大致可以描述成,人眼在觀察物體時,光信號在傳入大腦視覺中樞時,需要經(jīng)過一個短暫的時間。而在光信號結(jié)束后,由于視神經(jīng)的反應(yīng)速度和惰性,視覺形象并不會馬上消失,而是會繼續(xù)在時間軸上延長存儲一段時間。這種殘留的視覺稱為“后像”,而這個現(xiàn)象則稱為“視覺暫留”。

圖2: 走馬燈圖例(網(wǎng)圖)

它在很多場合都有著有意思或重要的應(yīng)用。最早有記載的是宋代的走馬燈。據(jù)說當年王安石在科場上對主考官出的聯(lián)“飛虎旗,旗飛虎,旗卷虎藏身”,便是以其在馬員外門口看到的聯(lián)“走馬燈,燈走馬,燈熄馬停步”來應(yīng)對的,最終還因此取了馬員外的女兒,情場考場雙得意。如今我們看的電影和動畫,都與視覺暫留現(xiàn)象有關(guān)。雖然每張膠片的內(nèi)容都是固定不變的,但人在觀察畫或物體后,在0.1-0.4秒內(nèi)不會消失。于是通過三十幀每秒的連續(xù)播放,視覺暫留現(xiàn)象會讓人對電影的內(nèi)容產(chǎn)生了動景運動的錯覺,形成連續(xù)性變化的感知。據(jù)說,人在謀殺后,眼睛瞳孔會留下兇手的影子。去年日本某公司還基于這一假設(shè)對監(jiān)控錄像中的人眼瞳孔圖像進行放大、銳化處理,以提取受害人或路人看到的畫面,并從中提取犯罪嫌疑人的形象,或車牌號碼等信息。

除了動景運動的錯覺,人在注視目標過久時,會因為機體無法長期保持同一姿態(tài)而產(chǎn)生不由自主的運動,尤其是眼球的細微運動。而這種運動會被反映到視網(wǎng)膜上,讓視覺中樞錯以為是目標在運動,稱為自主運動。比如在黑暗的密室玩恐怖解謎游戲的時候,長時間盯著某個帶亮光的物體時如蠟燭的燭光,有可能就會產(chǎn)生物體在移動的錯覺。因而,無形中增加了游戲的恐懼感。當然,要解決這一恐懼的關(guān)鍵也很簡單,換下關(guān)注的目標,或增加參照物即可。

既然生活在物理世界,人的視覺也會受運動的相對性影響,而形成誘導(dǎo)運動。比如停在車站的兩輛高鐵。人坐在其中一輛里,明明自己的車開了,卻會以為是另一輛仍停著的車開動了。這種相對性是受周邊環(huán)境的運動誘導(dǎo)而形成的。如果焦點隨運動的物體同步變化,另一個靜止的就會被誤以為在運動。中國古代的禪宗六祖慧能的故事中,更是把對這一現(xiàn)象的理解做了升華:

風(fēng)揚起寺廟的旗幡,兩個和尚在爭論到底是“風(fēng)動”還是“幡動”?慧能說:“既非風(fēng)動,亦非幡動,仁者心動耳?!?/span>

圖3 風(fēng)動還是幡動?(網(wǎng)圖)

另外,當目標進行高速運動時,人的視覺會對運動的狀態(tài)產(chǎn)生錯誤判斷,即形成運動停滯甚至反轉(zhuǎn)的運動后效錯覺。如觀察飛行中直升飛機的旋翼,會感覺每片葉子都能看清楚,且在慢慢地反向轉(zhuǎn)動。現(xiàn)在有些做機器制圖的機器臂,高速狀態(tài)也能達到類似的效果。

不僅會出現(xiàn)運動后效,人的視覺或感知系統(tǒng)有時候還能主導(dǎo)運動的方向。最近網(wǎng)上流行的一個旋轉(zhuǎn)舞者的雕像動圖就是這樣的例子,如圖4。稍做學(xué)習(xí),你就能做到任意控制其旋轉(zhuǎn)的方向。這種循環(huán)錯覺應(yīng)該是來源于選擇關(guān)注點前后次序的策略(竅門:盯不同腳會產(chǎn)生不同的旋轉(zhuǎn)方向),也可以理解成主觀時間先后順序選擇的結(jié)果。

圖 4 旋轉(zhuǎn)的跳舞舞者

除了這些錯誤外,當對具有特殊結(jié)構(gòu)的運動目標進行遮擋時,會形成遮擋錯覺,導(dǎo)致對運動目標的整體結(jié)構(gòu)或方向產(chǎn)生錯誤判斷。值得指出的是,這種一葉障目的錯覺不止是視覺上會出現(xiàn),在人工智能的很多應(yīng)用中都可能碰到。比如現(xiàn)在流行的智能城市的交通控制,如果只對一個路口進行交通流量優(yōu)化,很有可能當前路口的通暢會導(dǎo)致更大范圍的擁堵。

還有一個比較有意思的錯覺,是關(guān)注點集中時產(chǎn)生的光流錯覺。飛行員在駕駛飛機降落時,需要尋找著陸跑道。當其以著陸點為焦點來調(diào)整飛機航向時,著陸點會靜止不動,而周圍環(huán)境則會產(chǎn)生長度不一但有規(guī)律的光影。就像拍運動照片時,鏡頭跟隨跑步中的運動員同步拍攝時,運動員會保持清晰成像,而周圍影像產(chǎn)生同方向的光影一樣。這種光流錯覺可以幫助飛行員準確的確定飛機的著陸位置。

當然,可列舉的運動錯覺還有很多,如圖5中目標邊緣形成的邊緣運動錯覺、據(jù)說能測試人的精神狀態(tài)的“旋轉(zhuǎn)”的圓盤、扭曲的圓點陣列等等,就不一一枚舉了。但不管是哪種,錯覺都與人視覺中樞理解的“時間和空間”與客觀的“時間和空間”存在錯位有密切關(guān)系,也與每個人先前習(xí)得的經(jīng)驗有關(guān)。在多數(shù)情況,大腦對信息的加工處理都是合理、有效的,但在輸入信息出現(xiàn)特殊結(jié)構(gòu),則可能出現(xiàn)反常感知或被誤導(dǎo),形成運動錯覺。

圖5 其他錯覺圖(www.psychspace.com)

那么,這些錯覺有沒有可能讓機器學(xué)習(xí)或進行有效分類了?如果能做到,也許對人工智能和機器視覺模仿和理解人的視覺處理能力上會有巨大的幫助。2018年10月,位于美國肯塔基的Louisville大學(xué)的Robert WilliamsRoman Yampolskiy報告了他們的嘗試結(jié)果[3]。他們構(gòu)造了一個超過6000張光學(xué)錯覺圖像的數(shù)據(jù)集,期望通過深度網(wǎng)絡(luò)來實現(xiàn)有效分類和生成一些有意思的視覺錯覺圖。不過很遺憾,在顯卡Nvidia Tesla K80訓(xùn)練了7小時的實驗并沒有帶來任何有價值的信息。盡管深度學(xué)習(xí)要求的硬件算力已經(jīng)沒有問題了,但對這個任務(wù)的學(xué)習(xí)性能遠不如現(xiàn)在的上千萬級數(shù)據(jù)規(guī)模的人臉識別和圖像檢索理想。他們推測,一個可能的原因是能找到的光學(xué)幻覺/錯覺照片少,如果再細分類別就更少了,在小樣本意義下的深度學(xué)習(xí)可能不是太有效。另一個可能的原因是現(xiàn)有的機器還不能完全理解為什么會有這些錯覺,因此要通過如生成對抗網(wǎng)生成新的光學(xué)幻覺/錯覺也很難。這也許是機器視覺還不能征服的人類視覺的堡壘之一[3]。


二、時空/時頻不確定性

時空的主觀感受可以引起各種感知上的錯覺。事實上,不論是客觀還是主觀,時空之間都存在某種關(guān)聯(lián),而對這一關(guān)聯(lián)性的極致解釋是海森堡于1927年提出的不確定性原理(Uncertainty principle)或“測不準原理”。粗略來講,即粒子的位置與動量不可同時被確定。前者與空間有關(guān),后者與時間有關(guān)。在這兩個不同域里,一個域的參數(shù)越確定,另一個域的參數(shù)不確定的程度就越大。

巧合的是,在人工智能領(lǐng)域,有三個重要的理論也能看到這種不確定性的影子。

最早思考這種關(guān)聯(lián)性的是遠在1807年的數(shù)學(xué)家傅里葉。他提出了一個當時匪夷所思的概念,即任何連續(xù)周期信號可以由一組適當?shù)恼遥慈呛瘮?shù))曲線組合而成,稱為傅里葉變換。這個時頻變換的理論,對當時數(shù)學(xué)界的震憾一點也不亞于對歐幾里得第五公設(shè)的推翻。不過,后來逐漸揭示的事實讓大家都明白了,這種加權(quán)組合的傅里葉變換是合理的。該論文經(jīng)過不少波折,最終收錄在1822年發(fā)表的《熱的解析理論》中。在傅里葉變換中,不同周期的三角函數(shù)可以視為在頻率意義的基函數(shù),就象三維空間中的長、寬、高一樣。通過傅里葉變換后,樣本在時間中的描述就轉(zhuǎn)變成頻率空間不同頻率分量的幅度大小。 

圖6 傅里葉變換:任何連續(xù)周期信號(如最下方的曲線)可以由一組適當?shù)恼遥慈呛瘮?shù))曲線(上方的四條曲線)組合而成

盡管在二百年前已被提出,但真正用于人工智能相關(guān)領(lǐng)域還是在數(shù)字語音、數(shù)字圖像出現(xiàn)以后??茖W(xué)家們發(fā)現(xiàn)了很多在原來的時間/空間域下不能很好解決的問題,比如周期噪聲的去噪、圖像/視頻壓縮等, 通過傅里葉變換轉(zhuǎn)到空間后,在頻率意義下卻能輕松處理和實現(xiàn)性能的有效提升。

后來,科學(xué)家們又發(fā)現(xiàn)只將空間或時間域信號轉(zhuǎn)換至頻率空間,而不去深究頻率的高度和寬度似乎有些粗糙,于是又對頻率域引入了多尺度的變化,便有了小波變換這一理論體系。直觀來說,小波變換在頻率的取值上,就像音樂中的五線譜,有些頻率可以取二分音符,有些能取四分,有些能取十六分音符,如此這般,而傅里葉變換只是簡單的給定了音調(diào),但卻把所有音調(diào)的長度都設(shè)為固定不變。小波變換這種多尺度的技術(shù)用于刻畫自然圖像或其他數(shù)據(jù)時,較傅里葉變換有了更精細的頻率表達,這一技術(shù)也被用于構(gòu)成了JPEG2000的圖像壓縮標準。

在傅里葉變換和小波變換的發(fā)展中,科學(xué)家們也發(fā)現(xiàn)了一個現(xiàn)象,原時間/空間域的信號間隔越寬時,對應(yīng)的頻率域信號間隔會越稠密,反之亦然。兩者呈現(xiàn)類似于海森堡不確定性原理的對立。

圖7 海森堡不確定原理在傅里葉、小波中的體現(xiàn) [4]:左:圖像的時頻特性;中:傅里葉變換的時頻特性;右:小波的時頻特性。從圖中可以看出時間和頻率之間的平衡。圖像上的每個像素點在吸收全部頻率在給定時間上獲得的值;傅里葉變換是在給定頻率,將全部時間的值累積的結(jié)果;而小波則反應(yīng)了兩者的折衷,時間窗口寬,則頻率窄,反之亦然。

基于這個觀察,科學(xué)家們推測如果要提高人工智域很關(guān)心的可解釋性,最直觀的策略是將原空間的數(shù)據(jù)變換至一個能讓特征數(shù)量變得極其稀疏的空間。但天下沒有免費的午餐,有稀疏必然意味著在某個地方付出稠密的代價。這就是在2000年左右提出的壓縮傳感(Compressive Sensing)或稀疏學(xué)習(xí)理論的主要思想。值得一提的是,完善壓縮傳感理論的貢獻人之一是據(jù)說智商高達160、拿過菲爾茲獎的華裔數(shù)學(xué)家陶哲軒。該理論最有意思的一點就是把基函數(shù)變成了一個如高斯分布形成的隨機噪聲矩陣,在這個矩陣里,每個點的分布是隨機、無規(guī)律的,因而可以視為稠密的。通過這樣的處理,一大批壓縮傳感或稀疏學(xué)習(xí)方法被提出,并獲得了不錯的稀疏解。

不管采用哪種方法,傅里葉、小波還是稀疏學(xué)習(xí),都能看出類似于時間換空間、兩者不可能同時完美的影子。這種情況可以視為人工智能領(lǐng)域在時空/時頻意義下的“海森堡(Heisenberg)不確定原理”。

最近十年的人工智能研究非常關(guān)心預(yù)測性能的提升,但也希望能獲得好的可解釋性,如通過深度網(wǎng)絡(luò)獲得相應(yīng)任務(wù)的學(xué)習(xí)表示(Learning Representation)。這也是近幾年出現(xiàn)的深度網(wǎng)絡(luò)主流會議,把會議名字約定為國際學(xué)習(xí)表示會議ICLR(International Conference on Learning Representation)而非深度學(xué)習(xí)會議的初衷之一。

但是否能學(xué)到有效的學(xué)習(xí)表示,能否從運動錯覺中找到可能的線索或答案,能否在類似于海森堡不確定原理的框架下發(fā)展新的理論算法、發(fā)現(xiàn)智能體的秘密,是值得思考的。

參考文獻:

張?zhí)烊?讀懂相對論,著名的雙生子佯謬到底有幾個意思. http:///n/1603989

黃希庭.心理學(xué)導(dǎo)論.北京:人民教育出版社,2007:255-259

Robert Max Williams,Roman V.Yampolskiy.Optical Illusions Images Dataset.axiv: 1810.00415,Oct, 2018

Gonzalez R. C., Woods E. R., Digital Image Processing (Third Edition). 2017. 電子工業(yè)出版社

張軍平

2018年10月18日


文章來源:張軍平

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多