今年12月9日,第六屆全球人工智能與機(jī)器人大會(huì)(GAIR 2021)在深圳正式啟幕,140余位產(chǎn)學(xué)領(lǐng)袖、30位Fellow聚首,從AI技術(shù)、產(chǎn)品、行業(yè)、人文、組織等維度切入,以理性分析與感性洞察為軸,共同攀登人工智能與數(shù)字化的浪潮之巔。 大會(huì)次日,IEEE/IAPR Fellow,京東集團(tuán)副總裁,京東探索研究院副院長(zhǎng)梅濤在GAIR大會(huì)上做了《從感知智能到認(rèn)知智能的視覺(jué)計(jì)算》的報(bào)告,他指出視覺(jué)計(jì)算的感知研究雖然已經(jīng)相對(duì)成熟,某些人工智能(AI)任務(wù)已經(jīng)能夠通過(guò)圖靈測(cè)試,例如在內(nèi)容合成與圖像識(shí)別,但在視頻分析領(lǐng)域,視頻數(shù)據(jù)內(nèi)容多樣化以及視頻語(yǔ)義的不清晰等原因?qū)е略擃I(lǐng)域還存在大量挑戰(zhàn)性問(wèn)題。 同時(shí),在認(rèn)知領(lǐng)域,視覺(jué)計(jì)算已經(jīng)有一些進(jìn)展,例如Visual Genome、VCR等數(shù)據(jù)集已經(jīng)布局結(jié)構(gòu)知識(shí)建模;而在推理層面,國(guó)內(nèi)學(xué)者已經(jīng)嘗試通過(guò)聯(lián)合解譯和認(rèn)知推理深入理解場(chǎng)景或事件。 以下是演講全文,AI科技評(píng)論做了不改變?cè)獾恼恚?nbsp; 今天的演講題目是《從感知智能到認(rèn)知智能的視覺(jué)計(jì)算》。在開(kāi)始之前,先用兩個(gè)圖靈測(cè)試的例子大致說(shuō)明AI的進(jìn)展。 首先計(jì)算機(jī)視覺(jué)不僅在識(shí)別領(lǐng)域,在內(nèi)容合成領(lǐng)域已經(jīng)達(dá)到通過(guò)圖靈測(cè)試的標(biāo)準(zhǔn)。正如上圖所示,人類(lèi)已經(jīng)很難在一組圖片中將兩張機(jī)器合成的圖片挑選出來(lái)。 另外一個(gè)圖靈測(cè)試的例子是“看圖說(shuō)話”:給定一張圖片,描述圖片的內(nèi)容。下面兩句話分別由人(第一句)和機(jī)器(第二句)生成。很顯然,如果不仔細(xì)看圖片,可能會(huì)潛意識(shí)的認(rèn)為機(jī)器比人寫(xiě)的詳細(xì)。 1.a dog is lifted among the flowers 2. a dog wearing a hat sitting within a bunch of yellow flowers 如果仔細(xì)觀察圖片,就會(huì)發(fā)現(xiàn)確實(shí)有一只手把小狗舉了起來(lái)。這也說(shuō)明:不太經(jīng)常發(fā)生的現(xiàn)象,機(jī)器很難描述,其原因和機(jī)器學(xué)習(xí)的內(nèi)容相關(guān),以及機(jī)器沒(méi)有邏輯推理能力。 通過(guò)上述兩個(gè)例子我們可以看出:在感知領(lǐng)域,AI已經(jīng)超越人類(lèi);而在認(rèn)知領(lǐng)域,它還欠缺一些火候。 上圖是計(jì)算機(jī)視覺(jué)在過(guò)去五六十年取得的進(jìn)展,2012年深度學(xué)習(xí)“大火”之前,計(jì)算機(jī)完成視覺(jué)任務(wù)通常有兩個(gè)步驟:特征工程和模型學(xué)習(xí)。 特征工程的特點(diǎn)是完全依靠人類(lèi)智慧,例如設(shè)計(jì)Canny edge、Snak、Eigenfaces等參數(shù)特征,同時(shí)這些方法已經(jīng)獲得了大量的引用,Canny已經(jīng)被引用了38000次,Snak 18000次,SIFT更是已經(jīng)超過(guò)了64000次。 2012年之后,深度學(xué)習(xí)興起,顛覆了幾乎所有的計(jì)算機(jī)視覺(jué)任務(wù)。其特點(diǎn)是將傳統(tǒng)的特征工程和模型學(xué)習(xí)合為一體,即能夠在學(xué)習(xí)的過(guò)程中進(jìn)行特征設(shè)計(jì)。 深度學(xué)習(xí)火熱的另一個(gè)標(biāo)志是每年有大量的論文投到計(jì)算機(jī)視覺(jué)頂會(huì)(CVPR、ICCV、ECCV等),同時(shí)如果這些方法表現(xiàn)“杰出”,就能夠獲得大量的流量,例如GoogleNet VGG在不到8年的時(shí)間里獲得了10萬(wàn)次引用;2015年的ResNet更是在更短的時(shí)間獲得了接近10萬(wàn)次的引用。 這說(shuō)明深度學(xué)習(xí)領(lǐng)域在飛速發(fā)展,而且進(jìn)入這個(gè)領(lǐng)域的人越來(lái)越多。一方面不僅深度學(xué)習(xí)網(wǎng)絡(luò)在不斷“更新?lián)Q代”,圖像、視頻等數(shù)據(jù)集也在不斷增長(zhǎng),甚至有些數(shù)據(jù)集規(guī)模已經(jīng)過(guò)億。 其中,深度學(xué)習(xí)的一個(gè)趨勢(shì)是“跨界”。在2019年,Transformer在自然語(yǔ)言處理領(lǐng)域的性能被證明“一枝獨(dú)秀”,現(xiàn)在已經(jīng)有大量學(xué)者開(kāi)始研究如何將其納入視覺(jué)領(lǐng)域,例如微軟亞洲研究院swin transformer相關(guān)工作獲得了ICCV的最佳論文獎(jiǎng)。 上圖展示了隨著研究范式的變化,數(shù)據(jù)集的變化趨勢(shì)。無(wú)論是數(shù)據(jù)集的類(lèi)別還是數(shù)據(jù)集的規(guī)模都在不斷增大,有些數(shù)據(jù)集更是超過(guò)了10億級(jí)別。目前類(lèi)別最多的是UCF101數(shù)據(jù)集,其中包括101個(gè)類(lèi)。同時(shí),大規(guī)模也帶來(lái)了一個(gè)弊端:一些高校和小型實(shí)驗(yàn)室無(wú)法進(jìn)行模型訓(xùn)練。 特定領(lǐng)域進(jìn)展如何?在圖像識(shí)別領(lǐng)域,最廣為人知莫過(guò)于ImageNet競(jìng)賽。其任務(wù)是給定一張圖,預(yù)測(cè)出五個(gè)相關(guān)的標(biāo)簽。隨著深度學(xué)習(xí)網(wǎng)絡(luò)的層數(shù)越來(lái)越深,識(shí)別的錯(cuò)誤率越來(lái)越低,到2015年, ResNet已經(jīng)它達(dá)到了152層,并且已經(jīng)超過(guò)了人類(lèi)識(shí)別圖像的能力。 在視頻分析領(lǐng)域。Kinetics-400 視頻分析任務(wù)反應(yīng)了該領(lǐng)域的進(jìn)展,從2017年和2019年出現(xiàn)了各種適合視頻任務(wù)的神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò)大小、深度并不一致,而且從準(zhǔn)確率、識(shí)別精度上看,也沒(méi)有一致的結(jié)果。換句話說(shuō),該領(lǐng)域存在大量的潛力(open question)。至于原因,個(gè)人認(rèn)為有兩種: 1.視頻內(nèi)容非常多樣化,而且是時(shí)空連續(xù)的數(shù)據(jù)。 2.同樣的語(yǔ)義,在視頻中會(huì)有不同的含義。例如不同語(yǔ)氣和不同表情下對(duì)同一個(gè)詞的輸出。 過(guò)去10~20年,視覺(jué)感知領(lǐng)域存在很多主題。如上圖所示,從最小力度的像素級(jí)別到視頻級(jí)別,基本上可以歸為幾大研究領(lǐng)域:語(yǔ)義分隔、物體檢測(cè)、視頻動(dòng)作行為識(shí)別、圖像分類(lèi)、Vision and language。其中,Vision and language最近五年比較火熱,其要求不僅從圖視頻內(nèi)容里面生成文字描述,并且也可以反過(guò)來(lái)從文字描述生成視頻或者圖片的內(nèi)容。 總結(jié)起來(lái),目前視覺(jué)研究的主要方向還是進(jìn)行RGB視頻和圖像研究,在不遠(yuǎn)的將來(lái),成像的方式會(huì)發(fā)生變化,那時(shí)研究的數(shù)據(jù)將不僅是2D,更會(huì)過(guò)渡3D,甚至更多的多模態(tài)的數(shù)據(jù)。 在視覺(jué)理解領(lǐng)域,通用的視覺(jué)理解非常簡(jiǎn)單:例如區(qū)分貓和狗,區(qū)分車(chē)和人。但在自然界里,要真正的做到對(duì)世界的理解,其實(shí)要做到非常精細(xì)的粒度的圖像識(shí)別。一個(gè)直觀的例子是鳥(niǎo)類(lèi)識(shí)別,理想中的機(jī)器需要識(shí)別10萬(wàn)種鳥(niǎo)類(lèi),才能達(dá)到人類(lèi)對(duì)“理解世界”的要求。如果再精細(xì)一些,需要達(dá)到商品SKU細(xì)粒度識(shí)別。 注:一瓶200毫升和300毫升的礦泉水就是不同粒度的SKU。 過(guò)去幾年,京東在這方面做了一些探索。探索路徑包括:detection的方式,detection結(jié)合attention的方式,以及自監(jiān)督的方式。涉及論文包括CVPR2019 的“Destruction and Construction Learning ”以及CVPR 2020的“Self-supervised”相關(guān)工作。 CVPR 2019:Destruction and Construction Learning for Fine-grained Image Recognition 論文地址:https://openaccess./content_CVPR_2019/papers/Chen_Destruction_and_Construction_Learning_for_Fine-Grained_Image_Recognition_CVPR_2019_paper.pdf CVPR 2020:Look-into-Object: Self-supervised Structure Modeling for Object Recognition 論文地址:https:///abs/2003.14142 視頻領(lǐng)域非常有挑戰(zhàn),當(dāng)年我想借鑒ResNet,畢竟在圖像識(shí)別領(lǐng)域它是非常有創(chuàng)新的網(wǎng)絡(luò),因?yàn)槠淅锩姘瑂kip level的調(diào)整。因此,當(dāng)時(shí)我想把2D的CNN直接應(yīng)用到3D領(lǐng)域。 其實(shí),相關(guān)工作已經(jīng)有人嘗試,但存在一定的困難。例如Facebook發(fā)現(xiàn),如果沿著xyz三個(gè)軸進(jìn)行卷積,參數(shù)會(huì)爆炸,所以很難提高模型性能。因此在2015年,F(xiàn)acebook只設(shè)計(jì)了一個(gè)11層的3D卷積網(wǎng)絡(luò)。 我的嘗試是基于ResNet進(jìn)行3D卷積設(shè)計(jì),但也遇到了和Facebook同樣的困難,即參數(shù)爆炸。因此,在CVPR 2017年的一項(xiàng)工作中,我利用一個(gè)1*3*3的二維空間卷積和3*1*1的一維時(shí)域卷積來(lái)模擬常用的3*3*3三維卷積。 通過(guò)簡(jiǎn)化,相比于同樣深度的二維卷積神經(jīng)網(wǎng)絡(luò)僅僅增添了一定數(shù)量的一維卷積,在參數(shù)數(shù)量、運(yùn)行速度等方面并不會(huì)產(chǎn)生過(guò)度的增長(zhǎng)。與此同時(shí),由于其中的二維卷積核可以使用圖像數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,對(duì)于已標(biāo)注視頻數(shù)據(jù)的需求也會(huì)大大減少。目前該論文引用超過(guò)1000次,得到了行業(yè)的認(rèn)可。 ![]() CVPR 2017:Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks 論文地址:https:///abs/1711.10305 其他研究領(lǐng)域也有很多問(wèn)題有待開(kāi)發(fā)。例如在3D視覺(jué)研究方面,不僅需要語(yǔ)義分割,還需要估計(jì)物體的姿態(tài);在Image to Language研究中,不僅需要給定一張圖片生成一段描述文字,還需要知道物體之間的空間關(guān)系語(yǔ)義關(guān)系。 AI一直被認(rèn)為是改變工業(yè)界的范式,2019年P(guān)WC(麥肯錫)曾經(jīng)發(fā)布過(guò)一個(gè)報(bào)告:AI對(duì)整個(gè)全球的經(jīng)濟(jì)的貢獻(xiàn),在2030年之前,每一年會(huì)是14%的提升。并且在中國(guó),增長(zhǎng)空間是26%。 將AI應(yīng)用到工業(yè)界,基本需要滿足三個(gè)條件中的任何一個(gè):降低成本、提高效率、提升用戶(hù)體驗(yàn)。市值萬(wàn)億美金級(jí)別的公司,例如微軟和蘋(píng)果,其共同的特點(diǎn)在于企業(yè)會(huì)全面、大規(guī)模、一次性的推廣AI技術(shù)。 大規(guī)模推廣AI技術(shù)時(shí),誕生了許多很有意思的應(yīng)用,例如“拍照購(gòu)物”,核心技術(shù)是Photo-to-search,該領(lǐng)域已被深耕多年,但真正能發(fā)揮的場(chǎng)景是電商。以京東為例,它的拍照購(gòu)物準(zhǔn)確率以經(jīng)比四年前提高許多,用戶(hù)轉(zhuǎn)化率提升了十幾倍。 另一個(gè)電商零售中的例子是“智能搭配”,其目的不僅是讓AI推薦同款商品,還要讓AI提供穿搭建議。例如當(dāng)用戶(hù)購(gòu)買(mǎi)上衣時(shí),AI自動(dòng)搭配一個(gè)裙子或者一雙鞋,并且生成一段描述,告訴用戶(hù)“為何如此搭配”。該功能上線之后,其帶來(lái)的點(diǎn)擊率超過(guò)了人工搭配。 智能導(dǎo)播應(yīng)用也是AI比較擅長(zhǎng)的。例如足球比賽中會(huì)有很多固定的相機(jī),相機(jī)中的視頻會(huì)傳遞到轉(zhuǎn)播車(chē),然后會(huì)有20~30個(gè)工作人員不斷的制作視頻,提供轉(zhuǎn)播流,每個(gè)人看到的轉(zhuǎn)播流都是相同的。所謂智能導(dǎo)播是指:用AI學(xué)習(xí)人類(lèi)導(dǎo)播的方式,然后根據(jù)每個(gè)用戶(hù)的喜好,輸出相應(yīng)的內(nèi)容。喜歡足球的用戶(hù)會(huì)著重推送精彩的射門(mén)、動(dòng)作;喜歡球星的用戶(hù)會(huì)著重推薦球員的特寫(xiě),從而達(dá)到千人千面的效果。 ![]() 智能導(dǎo)播涉及的技術(shù)比較廣泛,例如:動(dòng)作/事件識(shí)別、人臉識(shí)別、姿態(tài)估計(jì)、高光檢測(cè)、相機(jī)視圖切換等等。值得一提的是,二十年前,我在微軟實(shí)習(xí)時(shí)候,導(dǎo)師就安排過(guò)相應(yīng)的任務(wù),但是由于數(shù)據(jù)和算力的限制,沒(méi)有做到很好的效果。兩年前,我們才在京東上線該功能。 元宇宙的概念很火熱,京東也在數(shù)字人方面做了一些嘗試。日前也憑借跨模態(tài)分析技術(shù)、多模態(tài)交互數(shù)字人技術(shù)分別斬獲ACM國(guó)際多媒體頂級(jí)會(huì)議的最佳演示獎(jiǎng)(Demo)。 傳統(tǒng)的數(shù)字人只能進(jìn)行“文字交互”,而今天的數(shù)字人希望能夠模擬真人進(jìn)行對(duì)話,其特點(diǎn)在于形象、逼真、實(shí)時(shí)反應(yīng)等等。目前,數(shù)字人技術(shù)已經(jīng)成功在市長(zhǎng)熱線中部署。 通用AI一直是人類(lèi)的夢(mèng)想,邁向通用AI的過(guò)程中,在視覺(jué)方面必須要從感知過(guò)度到認(rèn)知,如此智能視覺(jué)系統(tǒng)才能進(jìn)行決策。 但其中會(huì)遇到很多挑戰(zhàn),例如魯棒性,直接表現(xiàn)在自動(dòng)駕駛領(lǐng)域,汽車(chē)相撞、識(shí)別錯(cuò)誤等等都表明系統(tǒng)不夠魯棒。模型和數(shù)據(jù)偏見(jiàn)也是學(xué)界經(jīng)常討論的焦點(diǎn),前段時(shí)間AI領(lǐng)域的大牛Yann LeCun在推特上因?yàn)椤捌?jiàn)來(lái)自數(shù)據(jù)還是來(lái)自模型”的發(fā)言被diss退網(wǎng)。 認(rèn)知智能和感知智能的區(qū)別主要有兩點(diǎn),在目標(biāo)層面,傳統(tǒng)AI希望增強(qiáng)人類(lèi)思維并提供準(zhǔn)確結(jié)果,而認(rèn)知AI希望模仿人類(lèi)行為和推理;而在能力層面,傳統(tǒng)AI希望找到學(xué)習(xí)模式或揭示隱藏信息;而認(rèn)知AI希望能夠模型人類(lèi)思維從而找到解決方案。顯然,認(rèn)知AI將來(lái)會(huì)有很多用途,例如可信系統(tǒng)、模型解釋等等。 實(shí)現(xiàn)認(rèn)知AI,有三個(gè)核心問(wèn)題要解決:第一,需要考慮如何對(duì)結(jié)構(gòu)知識(shí)進(jìn)行建模;第二,如何讓模型可解釋?zhuān)坏谌?,如何讓系統(tǒng)擁有推理能力。 針對(duì)結(jié)構(gòu)知識(shí)建模,學(xué)界目前已經(jīng)有一些嘗試,例如斯坦福大學(xué)李飛飛開(kāi)發(fā)的Visual Genome數(shù)據(jù)集,華盛頓大學(xué)發(fā)布的VCR數(shù)據(jù)集等等。 推理方面進(jìn)展如何?北京通用AI研究院朱松純教授最近在《中國(guó)工程院院刊》中發(fā)表論文稱(chēng):通過(guò) 對(duì)一張簡(jiǎn)單圖片的分解,計(jì)算機(jī)視覺(jué)系統(tǒng)應(yīng)該能夠同時(shí)進(jìn)行以下工作:1.重建3D場(chǎng)景估算相機(jī)參數(shù)、材料和照明條件;2.以屬性、流態(tài)和關(guān)系對(duì)場(chǎng)景進(jìn)行層次分析;3.推理智能體(如本例中的人和狗)的意圖和信念;4.預(yù)測(cè)它們?cè)跁r(shí)序上的行為;5.恢復(fù)不可見(jiàn)的元素,如水和不可觀測(cè)的物體狀態(tài)等。 ![]() 論文題目:Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense 論文地址:https:///abs/2004.09044 最后,以gartner的一張趨勢(shì)預(yù)見(jiàn)圖結(jié)束演講。每一個(gè)技術(shù)的開(kāi)始都會(huì)經(jīng)歷缺口、泡沫、泡沫破滅以及谷底、理性回歸等幾個(gè)階段。正如上圖所示,通用AI里面的可解釋性、可信任都還在爬升階段,而計(jì)算機(jī)視覺(jué)已經(jīng)到了第四階段的尾聲,這意味著未來(lái)的兩三年,計(jì)算機(jī)視覺(jué)會(huì)邁向技術(shù)成熟階段,而且會(huì)得到大規(guī)模的商用,普惠人類(lèi)生活。 |
|
來(lái)自: taotao_2016 > 《AI》