 隨著人臉識別為代表的“看臉”技術(shù)已經(jīng)逐漸走向成熟,越來越多的科學家正在攻克這個難題。利用AI算法,捕捉面部特征所承載的多維信息,分析推斷一個人精神狀況,從人工智能的角度就變成了輸入表情,輸出性格、情緒、心理活動的“函數(shù)”映射問題。其中輸入的特征可以是微表情,也可以是視線等;輸出結(jié)果可以是喜怒哀樂等情緒。舉例來說,荷蘭阿姆斯特丹大學的尼克·瑟比博士曾利用現(xiàn)代的深度學習方法對蒙娜麗莎的“情緒'進行破解,發(fā)現(xiàn)蒙娜麗莎有83%的快樂,9%的厭惡,6%的恐懼,還有2%的憤怒。蒙娜麗莎情緒分析或許有些“玩”的意味,但是它背后所采用的技術(shù)對于醫(yī)學、情感陪伴、金融保險都有非常重要的意義。例如客觀化、易于實施的自閉癥兒童早期診斷技術(shù)、能讀懂老人情感和狀態(tài)的機器人交互技術(shù)、對司機危險駕駛行為的監(jiān)控和報技術(shù)等等。具體來看,目前醫(yī)學上在精神疾病的診斷更多依賴于量表測試和醫(yī)生面診,診斷結(jié)果更偏向主觀性??床【歪t(yī)時,中醫(yī)通過“望聞問切”的“望”來了解患者的病征,作出診斷;而心理醫(yī)生面診時也會通過觀察病人面容來判斷病人在精神層面的狀態(tài)。以抑郁癥患者為例,傳統(tǒng)方法下,醫(yī)生通常會采取三種檢查手段來判斷病人是否患有抑郁癥以及患病的程度,分別是:面診、量表測試和腦電波測試。而采用計算機視覺技術(shù)可有助實現(xiàn)非接觸性檢查。我們先來看人工智能在抑郁癥分析上的應(yīng)用。AI在自閉癥兒童早期診斷上,整個過程大致有兩個步驟:首先是利用各種傳感器,記錄社交行為或個體行為過程;然后通過AI技術(shù)分析兒童的行為特征。兩個步驟各有難點,例如眼神捕捉的傳感器就不能用普通的攝像頭,而需要比較貴重的眼動儀。采用AI分析技術(shù)的時候,需要考慮視點特征,例如看圖時的關(guān)注點模式,視線的移動模式;表情特征,例如表情豐富度,表情模仿能力,表情解讀能力;社交特征,例如眼神對視多少,互動方式等等。這里面用的技術(shù)包括:視線估計技術(shù),表情識別技術(shù)面部動作識別數(shù)據(jù)挖掘技術(shù)等等。目前關(guān)于此類分析,已經(jīng)得出了一些孤獨癥(ASD)視點特征結(jié)論:基于此,AI 在抑郁癥診斷上的應(yīng)用也不斷凸顯,來自澳大利亞堪培拉大學以及新南威爾士大學和ANU等就采用人工定義特征的方法分別對30個重度抑郁癥患者和30個健康人進行了測試。具體而言,人工定義的特征包括語音與語言特征,例如詞匯數(shù)量,停頓數(shù),說話時長;眼神特征,例如東張西望,眨眼率;頭部姿態(tài)特征,例如頭朝向變化率,各個朝向的時長。此項測試實驗結(jié)果表明,如果用副語言特征就會做到83%,用眼動行為能做到73%,用頭部估計能做到63%,融合之后能夠做到88%的精度。因為只有60個人的數(shù)據(jù),且有30個是重度抑郁癥,所以這個結(jié)果差強人意。但人工定義特征更多的是傳統(tǒng)的“專家模式”,2018年,采用深度學習的方法,《IEEE Transactions on Affective Computing》期刊中的一項工作將表征信息和動態(tài)信息分兩路饋送到CNN網(wǎng)絡(luò)里面,然后輸出一個抑郁分數(shù)(Depression Score)。訓練數(shù)據(jù)是AVEC2013的一個子集,包含82個人的150段視頻。整個結(jié)果做到了7.58的MAE精度。更進一步,斯坦福大學的李飛飛,2018在NeurIPS上也曾介紹了一項基于3D表情和語音的抑郁癥評估,核心是用多模態(tài)的數(shù)據(jù)進行分析。模型由兩個技術(shù)部分組成:(i)一個句子級的“概要”嵌入(嵌入的目的是“概括”一個可變長度的序列,將它變?yōu)楣潭ù笮〉臄?shù)字向量。)和(ii)一個因果卷積網(wǎng)絡(luò)(C-CNN)。實驗分為兩部分。首先與現(xiàn)有測量抑郁癥癥狀嚴重程度的工作進行了比較,預(yù)測PHQ評分,并輸出關(guān)于患者是否患有重度抑郁癥的二元分類,通常PHQ評分大于或等于10。對模型進行消融研究之后特異性和敏感度分別做到了82.6%和83.3%。除了抑郁癥,學界也在想辦法通過看臉分析心率,作為人體最基礎(chǔ)的一種生理信號之一,能反映人的身體健康狀況甚至情緒狀態(tài)。傳統(tǒng)的心率測量通常依賴于接觸式的傳感器,比如較為精準的心電圖以及便攜式的指夾式心率儀等,這些方法心率估計的精度通常較好,但同時因為需要接觸人體皮膚,限制了其使用的便利性。遠距離/非接觸式光體積變化描記圖法估計能夠克服這個限制,背后的原理非常清楚,即每一次心跳都會有相應(yīng)的血流量變化對應(yīng),這表現(xiàn)在臉上,即皮膚對光線吸收的周期性變化。當然,這個信號非常微弱。此類工作在國際上已經(jīng)有一段時間的發(fā)展了。2008年是一個節(jié)點,在此之前主要還是做接觸式的心率分析。2008年之后開始有一些工作,基于攝像頭拍攝人的面部,通過周期性變化來估計心跳的次數(shù)。最初的方式是基于獨立元分析:先找出心率的周期性信號,然后通過傅里葉變換、頻率分析等,估計出周期/頻率。上述的工作主要是基于物理模型,從臉部皮膚中分割出一個典型的區(qū)域,然后提取顏色變化信息,進行頻譜分析,然后估計人的生理特征。深度學習的出現(xiàn)再次改變了這個領(lǐng)域的研究方法。2018年,中科院計算所山世光研究員提出了一種基于深度學習的方法:直接把提取信號送到神經(jīng)網(wǎng)絡(luò)中進行學習。具體而言,其提出的是一個名為RhythmNet的端到端的可訓練心率評估器,利用AI和光電容積脈搏波描記法來應(yīng)對頭部運動和光線變化方面的挑戰(zhàn)。整個過程分為三部分:在ImageNet上預(yù)訓練,然后將數(shù)據(jù)饋送到深度神經(jīng)網(wǎng)絡(luò)里面,最后對真實人臉心率信號精調(diào)。但是訓練過程中數(shù)據(jù)量小成了約束。當時最大的人臉心率數(shù)據(jù)集也不超過50人,深度模型容易過擬合。于是他想到人為加上弱周期性的信號去完成預(yù)訓練,如此便能生成大量的數(shù)據(jù)。實驗結(jié)果在標準數(shù)據(jù)集上HRrmse做到了4.49(最好的指標是6.23)。但是用來訓練的數(shù)據(jù)存在一個問題——人的心率分布是不均衡的。大多數(shù)人的心率都集中在60到90之間。120、130此類的數(shù)據(jù)非常少。用這樣的數(shù)據(jù)做訓練,顯然會存在偏差。山世光采用的方法是對人臉心率數(shù)據(jù)增廣,即在時域中進行上、下采樣,這樣訓練集里面的心率的數(shù)據(jù)范圍就會更加的廣泛,且能獲得相對更均勻的心率數(shù)據(jù)。對微表情的研究,方法上類似人臉識別,包含檢測和識別兩個具體問題。具體來說,就是先從一段長視頻中把發(fā)生微表情的視頻片段檢測出來,然后識別該微表情屬于哪一類微表情。微表情檢測,就是指在一段視頻流中,檢測出是否包含微表情,并標記微表情的起點(onset)、峰值(apex)和終點(offset)。起點(onset) 是指微表情出現(xiàn)的時間;峰值(apex) 是指微表情幅度最大的時間; 終點(offset) 是指微表情消失的時間。微表情識別是指給定一個已經(jīng)分割好的微表情片斷,通過某種算法,識別該微表情的情緒種類(例如厭惡、悲傷、驚訝、憤怒、恐懼、快樂等)。如同三維動態(tài)表情識別一樣,其處理的對象是視頻片斷,而不只是單幅圖像。對其處理過程中,不僅要考慮空間上的模式,還要考慮時間上的模式。所以許多微表情識別的算法都考慮了時空模式。事實上對于微表情研究,最難的是如何收集足夠多的、質(zhì)量高的微表情數(shù)據(jù)集。目前,微表情現(xiàn)有的數(shù)據(jù)庫樣本量都非常小,公開發(fā)表的微表情樣本只有不到800個。因此微表情研究是典型的小樣本問題。這也是造成當前基于深度學習的方法在微表情問題上無法完全發(fā)揮出它應(yīng)有威力的主要原因。中科院計算所山世光提到過一項基于視頻流的自監(jiān)督特征表達方法,通過巧妙利用自監(jiān)督約束信號,得到提純的面部動作特征用于微表情識別。區(qū)別于當前人臉區(qū)域分塊、注意力機制等方法學習人臉局部區(qū)域的AU特征,這類方法在訓練階段需要利用精確標注的AU標簽,由于目前業(yè)界發(fā)布的AU數(shù)據(jù)集人數(shù)及圖像總量不足,采用監(jiān)督學習方法訓練得到的模型往往呈現(xiàn)出在特定數(shù)據(jù)集上的過擬合現(xiàn)象,他們提出了一種能夠在不依賴AU標簽的前提下,從人臉視頻數(shù)據(jù)中自動學習AU表征的方法(Twin-Cycle Autoencoder,簡稱TCAE)。TCAE用于后續(xù)的AU識別任務(wù)時,只需要利用訓練數(shù)據(jù)訓練一個分類器即可,顯著減少了所需的訓練數(shù)據(jù),并提升了模型的泛化能力。考慮到兩幀人臉圖像之間的運動信息包含了AU以及頭部姿態(tài)的運動分量,TCAE通過利用巧妙的自監(jiān)督約束信號,使得模型能夠分離出AU變化引起的運動分量,以及頭部姿態(tài)變化引起的運動分量,從而得到提純的AU特征。與其他監(jiān)督方法,TCAE可以利用大量的無標注人臉視頻,這類視頻是海量的。與半監(jiān)督或者弱監(jiān)督方法相比, TCAE采用了自監(jiān)督信號進行模型訓練,避免了對數(shù)據(jù)或者標簽的分布做出任何假設(shè)。無論是抑郁癥分析,還是微表情識別,從國內(nèi)、國外的研究進展看,視覺智能已經(jīng)從最初的看臉走向了對人的更深層次的分析。更為準確的說,人臉識別在過去的5年時間里面,有了一個跨越式的進步,人臉識別之戰(zhàn)基本上已經(jīng)接近尾聲,以后更多的考慮如何將應(yīng)用落地,如何將技術(shù)應(yīng)用到各站業(yè)務(wù)場景。via 從看臉到讀心:深度理解人的視覺技術(shù)進展http://www./Live/detail?id=29041
ACL 2020原定于2020年7月5日至10日在美國華盛頓西雅圖舉行,因新冠肺炎疫情改為線上會議。為促進學術(shù)交流,方便國內(nèi)師生提早了解自然語言處理(NLP)前沿研究,AI 科技評論將推出「ACL 實驗室系列論文解讀」內(nèi)容,同時歡迎更多實驗室參與分享,敬請期待!
|