日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

【委員觀點(diǎn)】愛犯錯(cuò)的智能體 --- 聽覺篇(十三):視聽錯(cuò)覺與無限音階中的拓?fù)?/span>

 親斤彳正禾呈 2019-04-13

小朋友小時(shí)候,我們請(qǐng)了一位家里外婆輩份的親戚幫忙來照顧。雖然長(zhǎng)我一輩,年齡卻比我小。不過還好,親戚家在湖南省的華容縣,那邊的人管這個(gè)輩份的都稱為“家(Ga)(Ga)”,所以,叫起來也不會(huì)太尷尬和別扭,反正外人聽不懂。小朋友學(xué)語言很快,一切都很正常??墒?/span>GaGa老是叫不好,總發(fā)成DaDa。她自己也沒覺得有什么不對(duì),我們糾了幾次,沒什么效果,只好聽之任之了。還好,隨著小朋友一天天的長(zhǎng)大,終于有一天她自己糾正過來了。


上一篇說過,人在辨聲方面有“雞尾酒會(huì)效應(yīng)”的能力。一個(gè)人不需要借助視覺的幫助就可以在酒會(huì)中選擇性地聆聽需要聽的聲音,而把其他聲音弱化甚至屏蔽掉。谷歌則嘗試結(jié)合視頻與語音來提高人聲分離的性能。那么,視覺與聽覺之間會(huì)不會(huì)相互影響呢?


一、聽覺錯(cuò)覺

第一個(gè)證實(shí)有相互影響的實(shí)驗(yàn)來源于一次意外。早在20世紀(jì)70年代中期,英國Surrey大學(xué)的心理學(xué)家Harry McGurk和他的助手John MacDonald做了個(gè)實(shí)驗(yàn)。他們用不同的口語因素給視頻配音,想研究不同時(shí)期兒童對(duì)語言的理解程度。在配音的時(shí)候,一個(gè)本應(yīng)發(fā)“ga”的音節(jié)錯(cuò)配成了“ba”的音,測(cè)試者聽完后堅(jiān)持認(rèn)為聽到的音節(jié)是第三節(jié)音素“da”而不是視頻中說出來的原音節(jié)。對(duì)于這個(gè)意外,他們分析后認(rèn)為,在聽覺系統(tǒng)和視覺系統(tǒng)收集的信息存在相互矛盾時(shí),人類會(huì)優(yōu)先相信視覺通道傳輸進(jìn)來的信息。因?yàn)榕c視覺系統(tǒng)相比,聽覺系統(tǒng)獲得的信息沒有那么強(qiáng)的確定性。他們將這一現(xiàn)象稱“麥格克效應(yīng)”(McGurk effect)。該成果發(fā)表在1976年的《自然》雜志上[1]。

隨著研究的深入,科學(xué)家們發(fā)現(xiàn)這種視聽覺相互影響的“麥格克效應(yīng)”在很多方面都有體現(xiàn)。如兒童早期發(fā)音的學(xué)習(xí)上。如果視覺和聽覺沒有得到好的整合,兒童就容易產(chǎn)生錯(cuò)誤的發(fā)音。另外,視力不好的人,如果摘下眼鏡,也很可能出現(xiàn)“麥格克效應(yīng)”,會(huì)感覺自己的聽力也同時(shí)下降了。

麥格克效應(yīng)

2007年,K?rding等進(jìn)一步研究了視聽覺相互影響的情況。他們?cè)?個(gè)平行的位置上均放置了發(fā)聲和閃光設(shè)備,然后在不同或相同的位置同時(shí)給出聲音和閃光,讓19位測(cè)試者判斷發(fā)聲的位置和閃光的位置。實(shí)驗(yàn)設(shè)置和結(jié)果如圖1所示[2]。

從圖上可以看出,當(dāng)光和聲音分別處理、沒有相互干擾時(shí),19個(gè)測(cè)試者的反應(yīng)是穩(wěn)定且合乎正確分布的。而當(dāng)燈光和聲音同時(shí)出現(xiàn)后,能看出1)閃光位置的判斷幾乎不受影響,和沒有聲音的時(shí)候分布一致;2)聲音的位置影響明顯。尤其最后一列,其聲音似乎容易被光線影響,而形成輕微向左的誤判。這表明聲音的不確定更多一些,更容易被閃光影響。所以,這兩個(gè)實(shí)驗(yàn)都證明了,視覺確實(shí)會(huì)影響聽覺的認(rèn)知。

圖1:視聽覺線索的組合[2]。(a): 實(shí)驗(yàn)架構(gòu)。每個(gè)測(cè)試,一個(gè)視覺和一個(gè)聽覺刺激同時(shí)被給出,測(cè)試者通過按按鈕來報(bào)告感知的視覺刺激和聽覺刺激位置。(b):  視覺對(duì)在中間位置發(fā)出的聽覺刺激的感知位置影響被顯示。不同顏色對(duì)應(yīng)在不同位置的視覺刺激(從左到底,顏色從暖色調(diào)轉(zhuǎn)為冷色調(diào))。只有聲音的模型以灰色表示。C) 對(duì)于35種刺激條件,測(cè)試者(實(shí)線)以及理想觀測(cè)者的預(yù)測(cè)(破折線)的平均響應(yīng)。左邊第一列虛線為五個(gè)閃光位置;第二列為無音頻的響應(yīng),從左至右的折線表示響應(yīng)位置。在無音頻時(shí)響應(yīng)很精確。 上方第一行指五個(gè)聲音位置;第二列為無視頻響應(yīng),從左到右的折線表示響應(yīng)情況。

二、無限音階的拓?fù)?/strong>

聽覺反過來會(huì)促進(jìn)視覺上的感知。我們?cè)谟^賞影視作品時(shí)經(jīng)常能感受到。比如在家看恐怖電影時(shí),一到令人發(fā)悚的情節(jié), 膽小點(diǎn)的就會(huì)情不自禁把音量關(guān)小或干脆把耳機(jī)拿下來,說明視聽覺的雙重作用確實(shí)增強(qiáng)了影片的恐怖程度。

另外,在音樂中,還有個(gè)奇怪的旋律。他通過兩個(gè)或多個(gè)聲部的交替,能產(chǎn)生無窮遞進(jìn)的感覺,讓人誤以為聲音一直在往高處走。這就是謝帕得音階(Shepard tone),也稱為無限音階。

相比音樂的歷史,這種音階出現(xiàn)的時(shí)間并不早。它是美國斯坦福大學(xué)的心理學(xué)家謝帕德在1971年的心理學(xué)實(shí)驗(yàn)中發(fā)明的,所以稱為謝帕得音階。它由不重合的多個(gè)八度音組合在一起,形成多個(gè)聲部。2017年克里斯托弗·諾蘭執(zhí)導(dǎo)關(guān)于1940年二戰(zhàn)歷史事件“敦刻爾克大撤退”的電影《敦刻爾克》時(shí),為了能為海邊撤退的場(chǎng)景來營(yíng)造一種無始無終的緊張感,便送給作曲家漢斯·季默一個(gè)手表連續(xù)敲擊的錄音。季默受此啟發(fā),便以與之類似的謝帕德音階為基礎(chǔ),創(chuàng)作了電影的背景樂。事實(shí)證明,這段配樂非常完美地加強(qiáng)了撤退時(shí)的緊張感,讓觀眾有了身臨其境、坐立不安的感覺。


 謝帕德音階

為了幫助理解,我寫了個(gè)類似的兩聲部例子來解釋謝帕德音階的構(gòu)成,如圖2所示。其中,第一列的低音部是慢慢漸強(qiáng),而第二列的高音部分則慢慢減弱,到最弱音時(shí),再同時(shí)增加一個(gè)相同音量但低八度的音進(jìn)來。按此規(guī)律,兩列的旋律一直循環(huán)播放。結(jié)果,在第一列的低音到最強(qiáng)處,剛好能接上第二列高音的最弱音。于是兩個(gè)聲部就實(shí)現(xiàn)了自然的過渡,低聲部的過渡到高聲部,高聲部也過渡到低聲部。結(jié)果,如果按此規(guī)律增加更多的聲部進(jìn)來,那么,旋律中總可以一直聽到至少兩種聲調(diào)在同時(shí)升高。而大腦會(huì)形成聽覺錯(cuò)覺,認(rèn)為這些音調(diào)一直在往上走。

為了幫助理解,我寫了個(gè)類似的兩聲部例子來解釋謝帕德音階的構(gòu)成,如圖2所示。其中,第一列的低音部是慢慢漸強(qiáng),而第二列的高音部分則慢慢減弱,到最弱音時(shí),再同時(shí)增加一個(gè)相同音量但低八度的音進(jìn)來。按此規(guī)律,兩列的旋律一直循環(huán)播放。結(jié)果,在第一列的低音到最強(qiáng)處,剛好能接上第二列高音的最弱音。于是兩個(gè)聲部就實(shí)現(xiàn)了自然的過渡,低聲部的過渡到高聲部,高聲部也過渡到低聲部。結(jié)果,如果按此規(guī)律增加更多的聲部進(jìn)來,那么,旋律中總可以一直聽到至少兩種聲調(diào)在同時(shí)升高。而大腦會(huì)形成聽覺錯(cuò)覺,認(rèn)為這些音調(diào)一直在往上走。

圖2  兩聲部的無限循環(huán),左列為低音的漸強(qiáng),右列為高音的漸弱;左列到B4時(shí),剛好能接上右列的C5;同理,右列弱至B5時(shí),會(huì)再增加一個(gè)同樣小聲的B3音進(jìn)來,從而可以自然過渡到左列的C4上。

有趣的是,這種循環(huán),我們不僅能在音樂中看到,還能在很多方面見到類似的。比如藝術(shù)作品中,前面提到過的荷蘭著名畫家艾舍爾就畫過一系列無限循環(huán)的作品。如圖3所示的水的循環(huán)流動(dòng)、樓梯的“循環(huán)”、還有畫里畫外的蜥蜴。這些都是現(xiàn)實(shí)世界不可能實(shí)現(xiàn)的無限循環(huán)。

圖3  艾舍爾的各種循環(huán)畫: 無盡的水流;無盡的樓梯;畫里畫外的蜥蜴

而在日常生活中,理發(fā)店的旋轉(zhuǎn)燈筒也有著無限循環(huán)的影子,如圖4所示。這種燈筒何時(shí)出現(xiàn)的無從考證,說法很多,有說是世界大戰(zhàn)時(shí)期,有的是大革命時(shí)期。 一種說法是為了紀(jì)念一位為國家(法國)做出貢獻(xiàn)的理發(fā)師,旋轉(zhuǎn)燈筒的紅白藍(lán)三色其實(shí)是法國的國旗。 

圖4:理發(fā)燈箱與針式打印機(jī)色帶

另一種說法是:據(jù)說在中世紀(jì),因?yàn)閷?duì)人體的認(rèn)識(shí)不足,人們認(rèn)為生病是體內(nèi)元素不平衡造成的。只有釋放出多余的元素,才能恢復(fù)健康。血液顯然是最容易放出的一種元素。不過很多醫(yī)師覺得這個(gè)工作比較低賤,不愿意動(dòng)手放血,就委托理發(fā)師代辦。所以,理發(fā)師就選三色柱作為他們行醫(yī)和理發(fā)的標(biāo)志。其中,三色柱中的紅色代表動(dòng)脈,藍(lán)色代表靜脈,白色代表紗布。他們甚至還發(fā)明了專門用于切割血管的刀片,叫“柳葉刀”(Lancet)。這也是現(xiàn)在一本頂級(jí)醫(yī)學(xué)期刊的名字。放血療法也一度成為非常流行的治療方法,就連美國總統(tǒng)華盛頓也是因感冒想用此法治療,結(jié)果于1799年死于失血性休克。

不管來自何種典故,燈箱的旋轉(zhuǎn),會(huì)讓人產(chǎn)生循環(huán)往復(fù)、一直向上的錯(cuò)覺。這是在理發(fā)店的無限循環(huán)。

事實(shí)上,這種循環(huán)性,我們?cè)谏鲜兰o(jì)曾廣泛使用、現(xiàn)在主要用于打印各種增值稅發(fā)票的針式打印機(jī)上也能見到。大家可以拆開色帶看看,就會(huì)發(fā)現(xiàn)色帶兩面都是一直在交替著打印的,如圖4,因?yàn)檫@樣可以提高色帶的利用率。這是打印機(jī)里的無限循環(huán)。

這種循環(huán)的幾何結(jié)構(gòu)有個(gè)數(shù)學(xué)味更濃的名字,叫莫比烏斯帶(Mobius Band),它可以將紙按圖5(a)所示方法折成。類似地,普林斯頓大學(xué)教授、作曲家和音樂理論專家Dimitri Tymoczko在假定十二音律是一個(gè)圓形循環(huán)的基礎(chǔ)上,認(rèn)為兩音符組成的音程關(guān)系可以表示成如圖5(b)的莫比烏斯帶而非甜甜圈的幾何結(jié)構(gòu)[3,4]。 


圖5:(a): 莫比烏斯帶折法:將紙按箭頭方法對(duì)折后再粘在一起,便可以獲得(c) 的結(jié)構(gòu);(b) 兩音符音程關(guān)系可以視為莫比烏斯帶[4]     (c) 莫比烏斯帶上的螞蟻(艾舍爾)

5(c)中,艾舍爾畫的螞蟻圖也是莫比烏斯帶。它有個(gè)很意思的特點(diǎn),如果讓一只不會(huì)飛、只能生活在二維空間的螞蟻沿著莫比烏斯帶爬行。假如這個(gè)帶子足夠?qū)?,螞蟻只能向前爬,那么它可以一直向前爬下去,卻不能發(fā)現(xiàn)這個(gè)帶子是否有正有反。用更嚴(yán)謹(jǐn)?shù)脑拋肀磉_(dá),假定你在一個(gè)點(diǎn)上豎一根垂直的桿子,或者稱為曲面上該點(diǎn)的法向量,然后將桿子保持與紙面的垂直一直向前挪動(dòng),結(jié)果你會(huì)發(fā)現(xiàn)當(dāng)桿子運(yùn)動(dòng)到背面該點(diǎn)位置時(shí),這根垂直桿子的方向與最初正面的方向剛好是相反的。一個(gè)點(diǎn)上出現(xiàn)了兩個(gè)相反的垂直桿子,這種矛盾的情況導(dǎo)致莫比烏斯帶面上的點(diǎn)都沒有確定的方向,稱為無定向的曲面。

三維空間上,這種二維曲面還可以構(gòu)造的,但是否存在一個(gè)三維無定向的結(jié)構(gòu)呢?理論上是有的,即Klein瓶(克萊因瓶),如圖6所示。這個(gè)瓶子有個(gè)神奇的特點(diǎn)。如果有藥片放在瓶子里的話,不用開瓶蓋就拿把藥片拿出來了。這對(duì)于擰不開瓶蓋需要找男同胞幫忙的女性朋友們絕對(duì)是個(gè)福音。因?yàn)樵谌S空間中,能打不開瓶蓋就拿出瓶?jī)?nèi)藥片的,似乎只有“氣功大師”或“魔術(shù)師”可以做到。不過很遺憾,在三維空間中無法構(gòu)造出真正的克萊因瓶實(shí)體,需要更高維度的空間

除了莫比烏斯帶和克萊因瓶這兩個(gè)稍顯古怪的幾何結(jié)構(gòu)外,日常生活中,我們還能見到大量的幾何結(jié)構(gòu),如甜甜圈、杯子、花瓶等。如何確定它們的幾何結(jié)構(gòu)呢?這些結(jié)構(gòu)能否用于人工智能呢?

6(a): 克萊因瓶; (b)圖像邊緣構(gòu)成的克萊因瓶,不同顏色表示不同的折疊方向;(c) 玻璃的“克萊因瓶”


三、持續(xù)同調(diào)

研究幾何結(jié)構(gòu)的理論,有初等幾何、高等幾何、射影幾何這些常見的,也有數(shù)學(xué)再深一點(diǎn)可以研究曲面不變性如高斯第一性、高斯第二性的微分幾何,再復(fù)雜些就是代數(shù)幾何(Algebra Geometry)和代數(shù)拓?fù)?Algebra Topology)。這兩個(gè)數(shù)學(xué)分支中復(fù)雜和抽象的理論這里不談。著重介紹下拓?fù)?,它是分析幾何圖形或空間在連續(xù)改變形狀后仍能保持不變性的理論,俗稱橡皮幾何學(xué)理論。比如一個(gè)杯子,如果給它加個(gè)把手,它的拓?fù)浣Y(jié)構(gòu)就變了。因?yàn)槎嗔艘粋€(gè)洞,它也就沒辦法在不改結(jié)構(gòu)的情況下變成原來的杯子了。在拓?fù)鋵W(xué)發(fā)展歷史中,著名的哥尼斯堡七橋問題、多面體歐拉定理、四色問題等都是其中的重要問題。而如果想直觀感受下拓?fù)涞镊攘Γ环临I個(gè)中國的傳統(tǒng)民俗玩具智環(huán)類的如九連環(huán)來玩玩,它和拓?fù)涿芮邢嚓P(guān)。

那么如何從拓?fù)浣嵌扰袛鄡蓚€(gè)形變的結(jié)構(gòu)具有相同拓?fù)湫再|(zhì)呢?拓?fù)鋵W(xué)家們定義了一些直觀的參數(shù)。最簡(jiǎn)單的參數(shù)如凸多面體上的頂點(diǎn)數(shù)(Vertex)、棱數(shù)(Edge)和面數(shù)(Face)。利用這三個(gè)參數(shù)的交錯(cuò)和可以確定多面體的一個(gè)不變量,叫歐拉示性數(shù)(Euler Characteristic)。比如三角形,它的頂點(diǎn)為3,棱數(shù)為3,面數(shù)為2(把外部數(shù)在內(nèi)),那么它的歐拉示性數(shù)就等于V-E+F=2。這里我們把頂點(diǎn)視為0維空間,邊或棱看成是1維空間,平面看成是2維空間。如果希望向高維空間推廣,我們可以繼續(xù)用這樣的交錯(cuò)和來估計(jì)高維拓?fù)浣Y(jié)構(gòu)的不變量。不過得換個(gè)稍個(gè)稍微專業(yè)點(diǎn)的名字,叫Betti數(shù)(Betti number)。如第0維的Betti數(shù)b0表示連通分量(Connected components)的數(shù)量,第1維b1表示有圓形洞(Circular)的數(shù)量,第2維b2表示有二維球形洞(Void或Cavities)的數(shù)量。以圖7所示甜甜圈為例,它只有一個(gè)連通分量,b0=1;但有二個(gè)圓形洞,所以b1=2;有一個(gè)二維結(jié)構(gòu)構(gòu)成的空洞(Void)。那么,它的歐拉示性數(shù)則是這些按維數(shù)獲得的Betti數(shù)分量的交錯(cuò)和,即 b0-b1+b2=0。

圖7:n維空間的甜甜圈

拓?fù)鋵W(xué)的研究在計(jì)算機(jī)圖形學(xué)方面有著異常重要的地位,因?yàn)閳D形學(xué)里涉及的結(jié)構(gòu)變形、幾何結(jié)構(gòu)分析上都離不開它。但是在人工智能里怎么使用拓?fù)淠兀?/span>

與圖形學(xué)不同,人工智能中有的主要是數(shù)據(jù)。每個(gè)數(shù)據(jù)點(diǎn)都是離散的、有噪的。如果直接利用拓?fù)鋵W(xué)的概念,并不好處理,因?yàn)锽etti數(shù)的估計(jì)需要連續(xù)的結(jié)構(gòu)。不過幸運(yùn)地是,數(shù)學(xué)家們發(fā)明了一套新的辦法來研究數(shù)據(jù)中的拓?fù)?,叫持續(xù)同調(diào)(Persistent Homology)[5]。名字很學(xué)術(shù),理論也相對(duì)復(fù)雜。所以,我在這里用一個(gè)不太精確但可以直觀理解的方式來解釋。

如果用五線譜來比擬,一個(gè)音是一個(gè)結(jié)構(gòu)。但人唱這個(gè)音的時(shí)候會(huì)有細(xì)微的抖動(dòng),通常幾個(gè)赫茲到幾十個(gè)赫茲。如果在這個(gè)差異范圍內(nèi)變化,他人聽不出來,那么我們?nèi)匀豢梢哉J(rèn)為這些音是同一個(gè)調(diào)的。那么,這個(gè)從最小變化到最大不可區(qū)分音調(diào)的變化區(qū)間就是這個(gè)音所具有的生命力,稱為持續(xù)性。另外,如果這個(gè)音出現(xiàn)時(shí)間非常短,那它就不會(huì)被認(rèn)為是穩(wěn)定的,可能只是跑調(diào)或破音了。要找主旋律,這些生命力短的音可以忽略不計(jì)。保留下來的就是那些穩(wěn)定或有較長(zhǎng)生命力的同調(diào)的音了。

與音調(diào)不同的是,數(shù)據(jù)中的持續(xù)同調(diào)是希望找到一些在一定范圍內(nèi)穩(wěn)定不變的幾何結(jié)構(gòu)。那如何去尋找范圍呢?科學(xué)家們想到了可以用一組能連通的三角形或?qū)W術(shù)上要求更嚴(yán)謹(jǐn)?shù)拿帧皢渭儚?fù)形”(Simplicial Complex),或半徑可變的圓來實(shí)現(xiàn)。

如圖8所示,左圖中有七個(gè)數(shù)據(jù)點(diǎn),如果給一組比較小的三角形或半徑小的圓,則這些圓在連通意義下不能覆蓋全部數(shù)據(jù)。因此,可以在保證連通性的情況下,將所有數(shù)據(jù)點(diǎn)通過若干相互連通的圓來覆蓋。因?yàn)檫@些圓的大小限制,中間的空洞不會(huì)被填充。所以,最終連通成的圓形集合會(huì)保留原來的幾何結(jié)構(gòu)。我們能根據(jù)這個(gè)圓形集合形成的結(jié)構(gòu)來估計(jì)它在不同維度上的Betti數(shù)是多少。這些Betti數(shù)可以做為數(shù)據(jù)分析的一組特征,也可以用來估計(jì)歐拉示性數(shù)。因?yàn)閿?shù)據(jù)是離散的,如果要找一個(gè)穩(wěn)定的幾何結(jié)構(gòu),那么可通過增加圓的半徑來完成對(duì)數(shù)據(jù)集合的多次覆蓋,直到數(shù)據(jù)集合中的被連通的圓的集合完全填充。最終,原來能看到的拓?fù)浣Y(jié)構(gòu)如空洞就會(huì)終止,而對(duì)應(yīng)的Betti數(shù)的持續(xù)性或生命力也會(huì)消逝,并出現(xiàn)新的拓?fù)浣Y(jié)構(gòu)。

圖8  左:從數(shù)據(jù)點(diǎn)中用圓形覆蓋來提取拓?fù)浣Y(jié)構(gòu);右:有噪的雙圓形數(shù)據(jù)集

我們將穩(wěn)定的拓?fù)浣Y(jié)構(gòu)提取出來,與已知目標(biāo)的拓?fù)浣Y(jié)構(gòu)進(jìn)行匹配,這樣就能知道數(shù)據(jù)集合與哪種形式的結(jié)構(gòu)最相似。

另外,直接在數(shù)據(jù)上做推測(cè)也不是完全合理的。因?yàn)閿?shù)據(jù)是有噪聲的,而數(shù)據(jù)量過大的時(shí)候,噪聲的波動(dòng)會(huì)破壞原來的幾何結(jié)構(gòu),比如形成短路邊,如圖8右圖。所以,我們還得用些采樣技術(shù)來適當(dāng)?shù)叵∈杌瘮?shù)據(jù)。

這樣做能否發(fā)現(xiàn)一些有意思的現(xiàn)象呢?斯坦福大學(xué)的Gunnar Carlsson教授等人曾經(jīng)對(duì)自然圖像做過實(shí)驗(yàn)[6]。他們將圖像切成若干小塊,每塊上只有朝向不同的邊緣,他們對(duì)這些邊緣圖像塊進(jìn)行采樣,然后再利用不斷變大的三角形來連通和勾畫圖像塊集合的拓?fù)浣Y(jié)構(gòu)。結(jié)果他們發(fā)現(xiàn)自然圖像的邊緣圖像塊集合構(gòu)成的結(jié)構(gòu)和Klein瓶很相似,如圖6(b)。這是第一個(gè)與拓?fù)湎嚓P(guān)、比較有意思的發(fā)現(xiàn)。

在實(shí)際應(yīng)用中,還是能看到一些它的應(yīng)用。比如手語識(shí)別上,因?yàn)槭终Z的結(jié)構(gòu)具有一定的拓?fù)湫再|(zhì)。我們也曾將其用于圖像的目標(biāo)識(shí)別[7]。

需要提醒的是,僅用拓?fù)浣Y(jié)構(gòu)來構(gòu)造目標(biāo)識(shí)別系統(tǒng)是有風(fēng)險(xiǎn)的。比如帶把手的咖啡杯和實(shí)心甜甜圈這種人一眼就能區(qū)分的目標(biāo),從拓?fù)鋵W(xué)家的角度來看卻是分不清的。

 

圖9:咖啡杯和甜甜圈

更重要的是,將這類方法用于高維數(shù)據(jù)分析還存在一個(gè)問題:這些基元指標(biāo)如Betti數(shù)是基于人對(duì)三維空間的直覺來獲得的;至于高維空間是否還存在一些特別的基元,人類還無法感知。也許存在更復(fù)雜的高維基元,只是無法感知和想象而已。要解開這個(gè)難題,或許和解開彭羅斯超弦理論中隱藏的高維結(jié)構(gòu)一樣的困難。

所以,單純依賴拓?fù)浣Y(jié)構(gòu)來完成人工智能中常常面臨的預(yù)測(cè)任務(wù),現(xiàn)階段很有可能會(huì)陷入與“量子計(jì)算用于人工智能”一樣、看上去很美的尷尬境界,因?yàn)椤安皇遣缓?,時(shí)辰未到”。

不過,理解音樂、藝術(shù)、數(shù)據(jù)中的幾何或拓?fù)浣Y(jié)構(gòu),對(duì)于改善對(duì)智能體發(fā)育和犯錯(cuò)機(jī)制的了解,必將大有裨益。

參考文獻(xiàn):

1. H. McGurk, J. MacDonald. Hearing lips and seeing voices. Nature. 264 (5588): 746–748. doi:10.1038/264746a0PMID 1012311, 1976

2. K. P. K?rding, U. Beierholm, W. J. Ma, S. Quartz, J. B. Tenenbaum, L. Shams. Causal Inference in Multisensory Perception. PLOS, ONE 2(9): e943, 2007

3. D. Tymoczko. The Geometry of Musical Chords. Science 07, 313(5783), pp. 72-74. DOI: 10.1126/science.1126287, Jul 2006

4. D. Tymoczko. A Geometry of Music: Harmony and Counterpoint in the Extended Common Practice. Oxford University Press, 2011

5. H. Edelsbrunner, J. Harer. Persistent Homology—a Survey. Surveys on Discrete and Computational Geometry: Twenty Years Later: AMS-IMS-SIAM Joint Summer Research Conference, Jul 18-22, 2006, Snowbird, Utah. American Mathematical Society, pp. 257-283

6. G. Carlsson, T. Ishkhanov, V. de Silva, A. Zomorodian. On the Local Behavior of Spaces of Natural Images, International Journal of Computer Vision, vol. 76, no. 1, pp. 1-12, 2008

7. J. Zhang, Z. Xie and S. Z. Li. Prime Discriminant Simplicial Complex. IEEE Transactions on Neural Networks and Learning Systems, vol. 24, no.1, pp. 133-144, 2013

張軍平

2018年10月26日

文章來源:張軍平

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多