來(lái)源:AI科技評(píng)論 本文約8500字,建議閱讀10+分鐘 本文與你分享模式識(shí)別的內(nèi)涵、演化、研究現(xiàn)狀以及未來(lái)值得研究的方向。 感知(模式識(shí)別)是從傳感數(shù)據(jù)判斷模式的存在、類別,給出結(jié)構(gòu)描述和關(guān)系描述的過程。目前以深度神經(jīng)網(wǎng)絡(luò)為主的模式識(shí)別方法只解決了初級(jí)感知(檢測(cè)、分類)問題,屬于高級(jí)感知層面的結(jié)構(gòu)和關(guān)系理解已有一些研究進(jìn)展但還沒有解決,而結(jié)合知識(shí)進(jìn)行模式識(shí)別和理解并把結(jié)果用于決策規(guī)劃則屬于高級(jí)認(rèn)知的范疇,是未來(lái)要加強(qiáng)研究的方向。 今年10月12日,2021中國(guó)人工智能大會(huì)(CCAI 2021)在成都正式啟幕,23位中外院士領(lǐng)銜,近百位學(xué)術(shù)技術(shù)精英共聚西南人工智能新高地,深入呈現(xiàn)人工智能學(xué)術(shù)研究,以及技術(shù)創(chuàng)新與行業(yè)應(yīng)用的最新成果。中國(guó)人工智能學(xué)會(huì)副理事長(zhǎng)、中科院自動(dòng)化所副所長(zhǎng)/研究員、IAPR/IEEE/CAA/CAAI Fellow劉成林教授發(fā)表了題為《模式識(shí)別:從初級(jí)感知到高級(jí)認(rèn)知》的演講,向與會(huì)者介紹了模式識(shí)別的內(nèi)涵、演化、研究現(xiàn)狀以及未來(lái)值得研究的方向。 劉成林教授現(xiàn)任中國(guó)科學(xué)院自動(dòng)化研究所副所長(zhǎng),中國(guó)科學(xué)院大學(xué)人工智能學(xué)院副院長(zhǎng)。研究方向?yàn)槟J阶R(shí)別、機(jī)器學(xué)習(xí)和文檔圖像分析。主要研究成果包括:在手寫字符識(shí)別、分類器設(shè)計(jì)與學(xué)習(xí)、字符串識(shí)別、文檔版面分析等方面提出一系列有效的方法;研制的文字識(shí)別算法在郵政分揀機(jī)、表格處理、文檔數(shù)字化、網(wǎng)絡(luò)信息檢索等領(lǐng)域獲得廣泛應(yīng)用。在國(guó)際期刊和國(guó)際會(huì)議上發(fā)表論文300余篇,合著文字識(shí)別方面的英文專著一本。2005年獲得國(guó)際文檔分析與識(shí)別會(huì)議IAPR/ICDAR Young Investigator Award(青年學(xué)者獎(jiǎng)),2008年獲得國(guó)家杰出青年科學(xué)基金。中國(guó)自動(dòng)化學(xué)會(huì)和人工智能學(xué)會(huì)會(huì)士,IAPR Fellow, IEEE Fellow. 本次演講首先對(duì)模式識(shí)別領(lǐng)域做了一個(gè)基本的介紹,然后分析了模式識(shí)別的研究現(xiàn)狀,介紹了一些模式結(jié)構(gòu)理解方面的新進(jìn)展,最后從結(jié)合認(rèn)知的角度講了將來(lái)有哪些值得研究的問題和方向。 以下是演講全文,我們進(jìn)行了不改變?cè)獾恼怼?/strong> 一、什么是模式識(shí)別? 1. 模式識(shí)別的內(nèi)涵 模式識(shí)別或機(jī)器感知,是人工智能領(lǐng)域的幾個(gè)主要分支方向之一。人工智能是模擬人的智能,那么模式識(shí)別就是模擬人的感知功能。感知功能是人或機(jī)器最重要的智能之一,因?yàn)槿嘶驒C(jī)器要從環(huán)境中獲得信息,首先要通過感知,比如通過視覺識(shí)別場(chǎng)景、人物和文字,通過聽覺跟人交流。心理學(xué)或者認(rèn)知科學(xué)對(duì)感知或模式識(shí)別的定義是:把獲得的刺激,也就是感知信號(hào)與腦子里所存儲(chǔ)的信息進(jìn)行匹配,從而判斷所感知到的是什么內(nèi)容。從計(jì)算機(jī)實(shí)現(xiàn)模式識(shí)別的角度,也有一些定義,大概可以分成兩類:
綜合起來(lái),模式識(shí)別的定義就是,研究如何使機(jī)器模擬人的感知功能,從環(huán)境感知數(shù)據(jù)中檢測(cè)、識(shí)別和理解目標(biāo)、行為、事件等模式。 模式識(shí)別的基本流程是用傳感器(比如攝像頭)獲取感知數(shù)據(jù)(如圖像)后,對(duì)圖像中的物體進(jìn)行檢測(cè)和定位,然后用一個(gè)模式分類器判斷物體屬于哪類,這是一個(gè)傳統(tǒng)的模式識(shí)別流程。 如果要擴(kuò)展到描述,就要對(duì)物體內(nèi)部結(jié)構(gòu)和圖像中多個(gè)物體之間的關(guān)系進(jìn)行分析,最后用自然語(yǔ)言句子描述出來(lái)。比如下圖這個(gè)圖像,它最后給出的結(jié)果可能是:“穿火箭隊(duì)11號(hào)球衣的姚明與教練站在一起”,如果不知道這個(gè)人是誰(shuí),結(jié)果可能是“兩個(gè)身高相差很大的人站在一起”,這就是一個(gè)比較復(fù)雜的模式理解過程。 模式識(shí)別和感知幾乎是同義詞,只是意思側(cè)重不同,“感知”側(cè)重應(yīng)用,“模式識(shí)別”側(cè)重技術(shù)和方法?,F(xiàn)在說(shuō)感知和認(rèn)知也比較多,所以我們有必要把相關(guān)概念澄清一下。 模式識(shí)別和感知的內(nèi)容都比較寬泛,它的處理對(duì)象是傳感數(shù)據(jù)(圖像、視頻、音頻等),從中判斷模式(紋理、物體、行為、事件)的存在、類別和具體描述(如部件及部件之間的關(guān)系)。 比較初級(jí)的感知,如檢測(cè)或者分類或者對(duì)紋理進(jìn)行判斷,需要比較少的知識(shí),我們把它稱為初級(jí)感知。比較高級(jí)的感知就是要對(duì)這個(gè)模式有比較深入的理解,而且可能需要用到一些先驗(yàn)知識(shí)。 認(rèn)知一般是指基于知識(shí)進(jìn)行邏輯推理,其范疇包括知識(shí)的獲取、推理、語(yǔ)義理解等,很多時(shí)候認(rèn)知與感知混在一起,比如我們與人交流時(shí),眼睛同時(shí)在看,耳朵同時(shí)在聽,并且腦子同時(shí)在思考。即使不看不聽,閉眼思考時(shí),也不是一個(gè)純粹的邏輯推理過程,因?yàn)槟X子在思考時(shí)也會(huì)浮現(xiàn)一些圖像,所以感知與認(rèn)知有很多交叉。 這個(gè)交叉的部分可以看作是高級(jí)感知,因?yàn)樗玫揭恍┲R(shí)對(duì)模式進(jìn)行深入的理解。更進(jìn)一步,如果到高級(jí)認(rèn)知,則是一些跨模態(tài)或者跨任務(wù)的比較復(fù)雜的推理過程,或者基于語(yǔ)義的應(yīng)用(如回答問題、人機(jī)交互、自動(dòng)駕駛決策等)。 2. 模式識(shí)別的方法演化 模式識(shí)別領(lǐng)域與人工智能領(lǐng)域的發(fā)展幾乎初步,從上世紀(jì)50年代以來(lái)提出了很多方法。我們看到,1957年最早發(fā)表關(guān)于模式識(shí)別的論文。50年代到60年代,主要是基于統(tǒng)計(jì)決策的方法,也就是統(tǒng)計(jì)模式識(shí)別。60年代末開始提出句法模式識(shí)別,70年代到80年代,句法模式識(shí)別或者結(jié)構(gòu)模式識(shí)別都是研究重點(diǎn),當(dāng)然統(tǒng)計(jì)模式識(shí)別也在不斷向前發(fā)展。80年代中期,多層神經(jīng)網(wǎng)絡(luò)引起了廣泛關(guān)注,90年代則開始出現(xiàn)多種學(xué)習(xí)方法。 機(jī)器學(xué)習(xí)在60年代就提出了,最早的機(jī)器學(xué)習(xí)主要指模式分類器的參數(shù)估計(jì)(如N.J. Nilsson的Learning Machines一書),但現(xiàn)在內(nèi)容更寬泛了。90年代有大量的機(jī)器學(xué)習(xí)方法提出來(lái),也是圍繞模式識(shí)別問題,主要用于模式分類器設(shè)計(jì)或者分類器的參數(shù)估計(jì),包括90年代比較有代表性的支持向量機(jī)。2000年后還有更多的學(xué)習(xí)方法,包括多分類器(集成學(xué)習(xí))、多任務(wù)學(xué)習(xí)、概率圖模型、遷移學(xué)習(xí)等。現(xiàn)在主要是深度學(xué)習(xí)方法,可以說(shuō)是最主流也幾乎是統(tǒng)治的方法。 模式識(shí)別的方法按模式表示方式可以分為統(tǒng)計(jì)方法和結(jié)構(gòu)方法兩大類。統(tǒng)計(jì)方法基于特征矢量表示,廣義地說(shuō),神經(jīng)網(wǎng)絡(luò)或支持向量機(jī)也屬于統(tǒng)計(jì)方法。結(jié)構(gòu)方法要對(duì)模式進(jìn)行結(jié)構(gòu)描述,過去幾十年一直都在研究,但目前還不太實(shí)用。統(tǒng)計(jì)和結(jié)構(gòu)混合的方法從80年代開始提得比較多,這種方法是在結(jié)構(gòu)模型中融入統(tǒng)計(jì)屬性,如屬性圖和概率圖模型,現(xiàn)在神經(jīng)網(wǎng)絡(luò)與圖模型或者圖神經(jīng)網(wǎng)絡(luò)結(jié)合得越來(lái)越多。 模式分類器從功能的角度上來(lái)說(shuō),又分為生成模型和判別模型。判別模型目標(biāo)就是為了把不同類別的模式分開,主要關(guān)心區(qū)分性。生成模型則有點(diǎn)像我們腦子里的模板匹配或者特征匹配,比如我看見一個(gè)人,是把這個(gè)人跟記憶中認(rèn)識(shí)的人的圖像或特征進(jìn)行匹配從而識(shí)別出來(lái)。存在腦子里的這些圖像或特征,就像一個(gè)生成模型。生成模型除了能用于分類,同時(shí)因?yàn)樗磉_(dá)了每一類的特點(diǎn)或概率分布,所以又能用來(lái)生成數(shù)據(jù)。 從模型學(xué)習(xí)的角度來(lái)說(shuō),有關(guān)學(xué)習(xí)方法又分為生成學(xué)習(xí)或者判別學(xué)習(xí),判別學(xué)習(xí)是為了提高模型的分類能力,比如神經(jīng)網(wǎng)絡(luò)主要是判別學(xué)習(xí),而生成學(xué)習(xí)是為了得到一類數(shù)據(jù)的表示模型。 二、模式識(shí)別研究現(xiàn)狀 1. 當(dāng)前主流方法 深度學(xué)習(xí)(深度神經(jīng)網(wǎng)絡(luò))現(xiàn)在是模式識(shí)別領(lǐng)域統(tǒng)治性的方法。深度學(xué)習(xí)最早提出是在2006年Hinton發(fā)表的一篇文章。這篇文章提出多層神經(jīng)網(wǎng)絡(luò)的逐層訓(xùn)練方法,克服層數(shù)較多時(shí)難以收斂的問題。80年代多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練的誤差反向傳播算法(BP算法)之后,對(duì)超過五層的神經(jīng)網(wǎng)絡(luò)訓(xùn)練難以收斂而且泛化性不好。逐層訓(xùn)練方法在這方面有了很大的改進(jìn)。早期深度學(xué)習(xí)主要在語(yǔ)音識(shí)別中取得成功,像循環(huán)神經(jīng)網(wǎng)絡(luò) LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò)) 也是在2006年提出的,在語(yǔ)音識(shí)別和手寫文字識(shí)別中產(chǎn)生了很大影響。 深度學(xué)習(xí)真正在人工智能領(lǐng)域產(chǎn)生廣泛影響是在 2012 年以后。這一年,深度卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模圖像分類中大幅超過了以往傳統(tǒng)方法的性能,從而引起模式識(shí)別和計(jì)算機(jī)視覺領(lǐng)域研究者的廣泛關(guān)注和跟蹤。 最近這十幾年神經(jīng)網(wǎng)絡(luò)方向提出了大量不同的模型結(jié)構(gòu)和學(xué)習(xí)算法,包括各種卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò),還有現(xiàn)在的 Transformer 等。 從模式分類角度說(shuō),大部分神經(jīng)網(wǎng)絡(luò)相當(dāng)于一個(gè)映射函數(shù),實(shí)現(xiàn)從輸入到輸出的一個(gè)映射。如果用于模式分類,輸入一個(gè)圖像,則把它直接映射到一個(gè)類別,或者映射到特征空間里面某個(gè)區(qū)域,實(shí)現(xiàn)分類。 基于這種函數(shù)映射的方式,只要有大量的標(biāo)記數(shù)據(jù)訓(xùn)練(估計(jì)函數(shù)的參數(shù)),就可以達(dá)到很高的分類性能,甚至超過我們?nèi)祟惖淖R(shí)別能力。 最近十幾年,深度學(xué)習(xí)之所以能夠取得巨大成功,主要在于計(jì)算能力的提升,可以用大量數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在 2012 年大規(guī)模圖像分類競(jìng)賽(ImageNet)中,用了100多萬(wàn)圖像樣本訓(xùn)練深度卷積網(wǎng)絡(luò),與之前傳統(tǒng)模式識(shí)別方法(基于人工特征提?。┫啾龋诸愓_率提高了 10 %以上。這是一個(gè)巨大的飛躍,因?yàn)檫^去傳統(tǒng)方法要提高 1 %都是很困難的。 現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)能夠從圖像里自動(dòng)提取特征,把特征提取和分類器進(jìn)行聯(lián)合學(xué)習(xí)或端到端的學(xué)習(xí),能夠提取到表達(dá)和判別能力更強(qiáng)的特征。深度學(xué)習(xí)在模式識(shí)別的其他任務(wù)上也有很大的進(jìn)展。 比如,物體檢測(cè)過去認(rèn)為是一個(gè)很難的問題, 90年代末開始人臉識(shí)別技術(shù)實(shí)用化,就要從圖像中檢測(cè)定位人臉,早期檢測(cè)方法基于滑動(dòng)窗分類,精度和速度都必較低。現(xiàn)在提出的很多基于深度神經(jīng)網(wǎng)絡(luò)的兩階段分類或者一階段分類的方法,實(shí)質(zhì)上也是把神經(jīng)網(wǎng)絡(luò)作為一個(gè)兩類分類器,在圖像不同區(qū)域判斷它是前景還是背景區(qū)域。現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)借助大算力和大數(shù)據(jù)訓(xùn)練,物體檢測(cè)的精度和速度都有很大提升。 圖像分割問題過去也是很難的,這是一個(gè)像素分類問題,就是把每個(gè)像素分類到不同的物體或背景區(qū)域。根據(jù)不同的需求,現(xiàn)在提出了所謂的語(yǔ)義分割、實(shí)例分割、全景分割等多種有效的方法,都取得了很大進(jìn)展。 上面說(shuō)的檢測(cè)、分割和目標(biāo)識(shí)別都是分類問題,現(xiàn)在一些更復(fù)雜的模式識(shí)別問題,例如圖像描述也可以用深度神經(jīng)網(wǎng)絡(luò)的端到端的方法實(shí)現(xiàn)。 圖像描述,就是給定一幅圖,用自然語(yǔ)言句子描述這個(gè)圖像的內(nèi)容。端到端的方法,就是底層用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)去提取特征,然后上面加一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò),即 LSTM 神經(jīng)網(wǎng)絡(luò)去生成語(yǔ)言。這兩個(gè)網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練,用大量圖像和語(yǔ)言配對(duì)的數(shù)據(jù)去訓(xùn)練神經(jīng)網(wǎng)絡(luò),就可以達(dá)到比較好的語(yǔ)言描述性能。最近也有一些可解釋性更好的深度神經(jīng)網(wǎng)絡(luò)方法,把自底向上的物體檢測(cè)與自頂向下的語(yǔ)言生成模型結(jié)合,先檢測(cè)到很多候選物體區(qū)域,然后對(duì)它們進(jìn)行關(guān)系分析的基礎(chǔ)上生成句子。 圖像分類、檢測(cè)、分割以及圖像描述等過去都被認(rèn)為很難的問題,最近不到十年時(shí)間,性能都提升得很快,而且很多技術(shù)在我們?nèi)粘I钪幸呀?jīng)被廣泛應(yīng)用,比如智能手機(jī)上用到的很多模式識(shí)別技術(shù),包括人臉識(shí)別、文字識(shí)別、語(yǔ)音識(shí)別等,網(wǎng)絡(luò)圖像檢索也做得非常好。 這種數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò),大部分是端到端的模型,是不是就能解決所有的問題?其實(shí)這種方法還有很多不足,還是有很多問題需要解決。一個(gè)問題就是深度神經(jīng)網(wǎng)絡(luò)需要標(biāo)記大量數(shù)據(jù)用于訓(xùn)練,而標(biāo)記數(shù)據(jù)的代價(jià)非常大。此外,神經(jīng)網(wǎng)絡(luò)這種端到端的學(xué)習(xí)方式,可解釋性比較差。人并不是這樣學(xué)習(xí)的,也不需要很多數(shù)據(jù),而且人識(shí)別模式的可解釋性比較強(qiáng)。比如,我們識(shí)別一個(gè)人不僅能識(shí)別出是誰(shuí),還能解釋為什么這個(gè)人是張三還是李四,這個(gè)人的眼睛、鼻子、臉,以及行為、身體有什么特點(diǎn)等都能給出一個(gè)詳細(xì)解釋,而現(xiàn)在的神經(jīng)網(wǎng)絡(luò)很難做到。 神經(jīng)網(wǎng)絡(luò)的解釋能力差也會(huì)引起識(shí)別的魯棒性差,也就是穩(wěn)定性比較差,識(shí)別結(jié)果容易受干擾。 現(xiàn)在看一些例子。在很多實(shí)際應(yīng)用中對(duì)識(shí)別的可靠性要求非常高,有些場(chǎng)合要求識(shí)別結(jié)果不能出錯(cuò),可以有部分拒識(shí)(不認(rèn)識(shí))。如手寫文字識(shí)別,現(xiàn)在基于深度學(xué)習(xí)得到了很高的識(shí)別精度,但還是會(huì)有少量錯(cuò)誤。對(duì)金額票據(jù)識(shí)別這樣的應(yīng)用是不允許出錯(cuò)的,如果能拒識(shí)一部分消除錯(cuò)誤,拒識(shí)的部分可以交給人工處理。而深度神經(jīng)網(wǎng)絡(luò)的拒識(shí)能力比人類要差很多,因?yàn)樗鼈兓诮y(tǒng)計(jì)分類,沒有結(jié)構(gòu)解釋能力,容易把似是而非的模式分錯(cuò)。 深度神經(jīng)網(wǎng)絡(luò)經(jīng)過大數(shù)據(jù)訓(xùn)練后,雖然識(shí)別正確率可能比人還高,但對(duì)于少部分容易錯(cuò)的地方除了不能夠拒識(shí),還會(huì)產(chǎn)生一些莫名其妙的錯(cuò)誤。如下圖所示,在對(duì)抗學(xué)習(xí)的場(chǎng)合,這個(gè)熊貓圖像加上少量噪聲,得到右邊的圖像在人看上去幾乎沒有變化,但是神經(jīng)網(wǎng)絡(luò)得到的識(shí)別結(jié)果就完全變了。 像后面這個(gè)圖像,神經(jīng)網(wǎng)絡(luò)描述為“一個(gè)小孩拿著棒球棒”,明顯是錯(cuò)的,而且邏輯上也不通,這么小的孩子不可能拿一根棒球棒;右上角這個(gè)交通標(biāo)志圖上只是加了幾個(gè)黑點(diǎn),就把它判斷成一個(gè)限速標(biāo)志。還有下面這些圖像描述結(jié)果也是不對(duì)的,倒數(shù)第二個(gè)是一個(gè)標(biāo)志牌,上面貼了一些貼紙,就被認(rèn)為是一臺(tái)冰箱。因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)沒有可解釋性,所以它的魯棒性也很差。 到現(xiàn)在為止,模式識(shí)別領(lǐng)域統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)占主導(dǎo)地位,對(duì)大部分分類問題都做得非常好,甚至把圖像描述問題也當(dāng)成分類問題來(lái)做。這種方式?jīng)]有結(jié)構(gòu)解釋能力。 結(jié)構(gòu)模式識(shí)別從上世紀(jì)六七十年代提出來(lái)了,其目的是試圖統(tǒng)一分類和理解,跟人的識(shí)別方式相似,具有可解釋性和小樣本泛化優(yōu)勢(shì)。計(jì)算機(jī)視覺領(lǐng)域早期提出的所謂基于模型的物體識(shí)別或者基于合成的分析,都是結(jié)構(gòu)方法。雖說(shuō)結(jié)構(gòu)方法過去幾十年一直都在研究,但并沒有被廣泛接受,因?yàn)殚_源平臺(tái)比較少,實(shí)現(xiàn)起來(lái)很困難,學(xué)習(xí)過程復(fù)雜,識(shí)別性能也不夠。但是,如果我們現(xiàn)在都只用神經(jīng)網(wǎng)絡(luò)這種端到端的映射方式,它未來(lái)提高的空間就非常?。欢ㄏ蚰J嚼斫夂驼J(rèn)知,必須要走結(jié)構(gòu)模式識(shí)別這條路。 2. 結(jié)構(gòu)模式識(shí)別早期進(jìn)展 上世紀(jì)七八十年代流行的句法模式識(shí)別,是希望用一個(gè)語(yǔ)法或者樹結(jié)構(gòu)或圖結(jié)構(gòu)表示模式,通過語(yǔ)法解析或結(jié)構(gòu)模式匹配進(jìn)行識(shí)別。這些工作過去很長(zhǎng)時(shí)間都沒有達(dá)到實(shí)用化,但是這些思想對(duì)我們現(xiàn)在的研究是很有啟發(fā)的。基于筆劃匹配的手寫漢字識(shí)別在八九十年代以來(lái)也有很多研究,包括我自己做的一個(gè)工作:因?yàn)楣P劃提取很困難,我們提出一個(gè)基于筆劃段動(dòng)態(tài)合并和匹配的方法。 基于圖的方法,到現(xiàn)在為止還是一種主流方法。早在1973年,美國(guó)的兩名科學(xué)家就在 IEEE Transaction on Computers上發(fā)表文章,提出Pictorial Structure(圖形結(jié)構(gòu)),就是一個(gè)物體由多個(gè)部件構(gòu)成,不同部件之間的關(guān)系用一個(gè)彈簧表示,這與我們今天的圖結(jié)構(gòu)很相似。 到了2005年,芝加哥大學(xué)的Felzenszwalb等人用概率圖模型實(shí)現(xiàn)這種圖結(jié)構(gòu)方法,用于人體姿態(tài)估計(jì)和人臉檢測(cè)。后來(lái)又發(fā)展出判別性的基于部件的模型,這個(gè)部件模型表示了一個(gè)物體的多個(gè)部件,每個(gè)部件的形狀、位置和物體整體形狀都用一個(gè)概率模型表示。如果一個(gè)物體有不同視角,它的表觀可能會(huì)有很大變化,這就用一個(gè)混合模型表示出來(lái),用于物體檢測(cè),取得了非常好的效果。 另一個(gè)影響比較大的圖方法叫做Constellation Model(星座模型),是加州理工學(xué)院提出的。這個(gè)模型有一個(gè)中心表示整體形狀,每個(gè)部件的位置、尺度和形狀以一個(gè)聯(lián)合的概念密度模型表示出來(lái),可以用于物體的檢測(cè)和識(shí)別。因?yàn)樗且粋€(gè)生成模型,可以實(shí)現(xiàn)小樣本泛化,每個(gè)類別在樣本數(shù)比較少的情況下,也可以得到比較好的性能。 十幾年前還有一個(gè)叫做Image Parsing 的工作,就是把圖像中不同的前景區(qū)域和背景區(qū)域,統(tǒng)一用一個(gè)圖來(lái)描述。在分析時(shí)先采用檢測(cè)器檢測(cè)物體和文本區(qū)域,產(chǎn)生一些自底向上的假設(shè),然后自頂向下的生成模型來(lái)分析它們的關(guān)系。這個(gè)工作還沒有用到深度學(xué)習(xí),所以它的分析精度是有限的。 現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)學(xué)習(xí)的能力很強(qiáng),但是可解釋性不夠,我們希望對(duì)于圖像場(chǎng)景分析這樣的問題,能夠做到可解釋同時(shí)精度又比較高,可以把傳統(tǒng)的結(jié)構(gòu)模型與深度神經(jīng)網(wǎng)絡(luò)結(jié)合,比如用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,做物體或部件檢測(cè),然后上層用一個(gè)結(jié)構(gòu)模型來(lái)表示這些物體或部件之間的關(guān)系。 3. 一些最新進(jìn)展 現(xiàn)在,圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和推理能力很強(qiáng),使用非常靈活,但是需要給定圖結(jié)構(gòu)。很多結(jié)構(gòu)模型的學(xué)習(xí)需要細(xì)粒度標(biāo)注的訓(xùn)練數(shù)據(jù),有些也可以實(shí)現(xiàn)弱監(jiān)督學(xué)習(xí)。還有一個(gè)值得注意的方向,就是有一些結(jié)構(gòu)可解釋的神經(jīng)網(wǎng)絡(luò),采用模塊化的結(jié)構(gòu),可自動(dòng)學(xué)習(xí)可分解的部件。這里我介紹一些最近有代表性的關(guān)于結(jié)構(gòu)理解的工作,包括可解釋性神經(jīng)網(wǎng)絡(luò)、深度圖匹配、公式識(shí)別、圖像場(chǎng)景理解等,這些方向每個(gè)都形成了一系列的工作。 可解釋性神經(jīng)網(wǎng)絡(luò)的代表是Hinton等人提出的膠囊網(wǎng)絡(luò),網(wǎng)絡(luò)中的每個(gè)膠囊是一個(gè)模塊,可以檢測(cè)物體和部件;而且不同膠囊之間相互獨(dú)立,可以識(shí)別圖像中重疊的部件或者重疊的物體。 另一個(gè)是最近提出來(lái)的組合性神經(jīng)網(wǎng)絡(luò)(Compositional Network), 它是一個(gè)類似于兩層的“與或”圖表示,可以把一個(gè)物體的不同部件檢測(cè)出來(lái),而且在部分部件被遮擋的情況下也能檢測(cè)到。這個(gè)模型可以從弱標(biāo)注的數(shù)據(jù)學(xué)習(xí),只要標(biāo)注物體的位置,不需要標(biāo)注部件。在有遮擋的情況下,它的性能明顯優(yōu)于常規(guī)的物體檢測(cè)網(wǎng)絡(luò)。 圖匹配過去幾十年一直都有研究,其中有兩個(gè)關(guān)鍵難題,一個(gè)是組合優(yōu)化,也就是如何克服指數(shù)復(fù)雜度的問題。另一個(gè)就是它的距離度量,過去是靠人工設(shè)計(jì),現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)可以把距離度量自動(dòng)學(xué)習(xí)出來(lái),但是需要大量有節(jié)點(diǎn)對(duì)應(yīng)標(biāo)記的圖數(shù)據(jù)來(lái)訓(xùn)練,當(dāng)然有時(shí)可以用合成數(shù)據(jù)來(lái)代替。 結(jié)構(gòu)分析方法如果用于零樣本識(shí)別(把從已知類別樣本學(xué)習(xí)到的模型用于識(shí)別沒有訓(xùn)練樣本的新類別)可以產(chǎn)生更好的泛化性能。這是我們實(shí)驗(yàn)室做的基于圖的零樣本視頻分類的工作。因?yàn)橐曨l里涉及到很多物體和原子行為,我們用圖網(wǎng)絡(luò)表示不同物體之間的關(guān)系、不同類別之間的關(guān)系和物體與行為之間的關(guān)系,那么這種結(jié)構(gòu)關(guān)系可泛化到新類別上。 數(shù)學(xué)公式識(shí)別也是很復(fù)雜的結(jié)構(gòu)模式識(shí)別問題,現(xiàn)在手寫公式識(shí)別最好的方法的整體識(shí)別正確率只能達(dá)到百分之五六十。因?yàn)橐粋€(gè)公式有很長(zhǎng)的一串符號(hào),要全部識(shí)別正確非常困難。所以采用可解釋性的結(jié)構(gòu)識(shí)別模型,能同時(shí)識(shí)別和定位公式中的符號(hào)。 過去傳統(tǒng)的方法就是基于自底向上的字符分割,然后再去做識(shí)別,但是總體識(shí)別精度必較低。前幾年主流的方法是用一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它的解碼器從輸入圖像直接解碼出公式的字符串,但沒有字符定位。這種沒有字符定位的公式識(shí)別方法,除非識(shí)別率達(dá)到100%,否則是不適用的,因?yàn)殡y以對(duì)錯(cuò)誤的部分進(jìn)行定位和編輯。 我們現(xiàn)在做的一個(gè)方法,就是用圖到圖的映射,這里每個(gè)輸入的筆劃表示一個(gè)節(jié)點(diǎn),從而整個(gè)公式構(gòu)成一個(gè)輸入圖。我希望輸出的圖中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)符號(hào),邊界表示符號(hào)之間關(guān)系,這就得到一個(gè)可解釋性的結(jié)果。這種方法經(jīng)過訓(xùn)練后可以達(dá)到最高的識(shí)別精度,而且可解釋性非常好。這個(gè)模型的訓(xùn)練還需要把公式里符號(hào)的位置標(biāo)出來(lái),我們目前正在研究它的弱監(jiān)督學(xué)習(xí)方法。 圖像場(chǎng)景理解也有一些新進(jìn)展。這個(gè)斯坦福大學(xué)李飛飛研究組的工作從圖像與文本之間配準(zhǔn)的角度訓(xùn)練一個(gè)語(yǔ)言生成模型用于圖像描述。場(chǎng)景圖的生成,就是把圖像里的不同物體和背景區(qū)域用一個(gè)圖表示出來(lái),每個(gè)節(jié)點(diǎn)表示一個(gè)物體或者一個(gè)背景區(qū)域,邊表示它們的關(guān)系,其結(jié)構(gòu)一目了然。圖像處理的底層用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)提取特征,檢測(cè)候選物體上傳到圖神經(jīng)網(wǎng)絡(luò)進(jìn)行分析。 我們把類似的方法用到交通標(biāo)志圖解析。標(biāo)志圖上有很多符號(hào)和文字,在駕駛時(shí)要找到“我要往哪去”這樣的信息,就要理解每個(gè)符號(hào)的意思及符號(hào)之間的關(guān)系。圖像文本匹配現(xiàn)在也是一個(gè)比較復(fù)雜的問題,因?yàn)閳D像里的物體順序與文本里的詞順序不一致,所以要學(xué)這個(gè)配準(zhǔn)關(guān)系。我實(shí)驗(yàn)室同事提出的這是一個(gè)自底向上和自頂向下相結(jié)合的方法。 視覺問答現(xiàn)在是一個(gè)比較被關(guān)注的問題,就是讓機(jī)器看一幅圖,對(duì)給出的語(yǔ)言提問從圖中找到答案,有些答案可以直接從圖中找到,有些則可能要利用一些背景知識(shí)或常識(shí)。 早幾年有些方法也是端到端的方法,比如這個(gè)模型有兩個(gè)階段,首先用一個(gè)神經(jīng)網(wǎng)絡(luò)分析問題的句子,生成一個(gè)解題策略(叫做layout policy),然后這個(gè)策略動(dòng)態(tài)生成一些模塊網(wǎng)絡(luò),動(dòng)態(tài)地到圖像里去找答案。最近中山大學(xué)研究組發(fā)表一個(gè)可解釋性視覺問答方法,把問題句子表示成語(yǔ)義依存樹,遍歷樹的節(jié)點(diǎn)從圖像中動(dòng)態(tài)尋找答案。 總之,現(xiàn)在基于深度學(xué)習(xí)的方法,推動(dòng)模式識(shí)別和計(jì)算機(jī)視覺前進(jìn)了一大步。那么當(dāng)基于大數(shù)據(jù)訓(xùn)練使得模式分類性能提高之后,剩下的問題就回到了模式識(shí)別最初想做的模式描述,即模式的結(jié)構(gòu)理解。只有實(shí)現(xiàn)了模式結(jié)構(gòu)理解才可能做到可靠和魯棒,而且結(jié)構(gòu)理解的方法對(duì)于小樣本學(xué)習(xí)、開放環(huán)境適應(yīng)、可解釋性等都會(huì)有很大幫助。 三、未來(lái)值得研究的方向 從最近的一些研究進(jìn)展可以看出,為了解決復(fù)雜的模式識(shí)別問題,統(tǒng)計(jì)與結(jié)構(gòu)模型的混合、神經(jīng)網(wǎng)絡(luò)+結(jié)構(gòu)模型、可解釋性神經(jīng)網(wǎng)絡(luò)、視覺+語(yǔ)言等研究越來(lái)越受到關(guān)注。從中也可以看出,早期很多基于句法模式識(shí)別和結(jié)構(gòu)模式識(shí)別的方法,對(duì)我們現(xiàn)在和未來(lái)的工作都值得借鑒,或者值得重新發(fā)掘。 未來(lái)值得研究的方向包括:
最后呼應(yīng)一下今天講的題目:從初級(jí)感知到高級(jí)認(rèn)知。現(xiàn)在模式分類,也就是一種初級(jí)感知,已經(jīng)做得非常好,但還有很多問題沒有解決,它的魯棒性、可靠性、自適應(yīng)性、小樣本學(xué)習(xí)泛化等方面還需要深入研究。到高級(jí)感知層面,就是要對(duì)模式進(jìn)行結(jié)構(gòu)理解,如物體結(jié)構(gòu)理解、場(chǎng)景理解,相應(yīng)的結(jié)構(gòu)模型表示、學(xué)習(xí)、推理等有一系列研究問題;更高級(jí)的層次是感知和認(rèn)知結(jié)合起來(lái),就是高級(jí)認(rèn)知,包括語(yǔ)義理解、語(yǔ)義推理、語(yǔ)義應(yīng)用與決策等。 |
|
來(lái)自: taotao_2016 > 《物理》