來源: 智東西 40 多年前,諾貝爾獎得主 Herbert Simon 在認知心理學方面強調(diào),解決問題論要結(jié)合情感的影響。情感的識別和表達對于信息的交流和理解是必需的,也是人類最大的心理需求之一。人類的認知、行為等幾乎都要受到情感的驅(qū)動,并影響著人際互動以及群體活動。在人與人的交往中, 情感的交流還常被用來完成人的意圖的傳遞。 因此,在智能人機交互的研究中,擁有對情感的識別、分析、理解、表達的能力也應成為智能機器必不可少的一種功能。 什么是情感計算讓計算機具有情感能力的觀點并不新鮮,它與“機器人” 一詞幾乎同時出現(xiàn)。1985 年,人工智能的奠基人之一 Minsky 就明確指出: “問題不在于智能機器能否有情感,而在于沒有情感的機器能否實現(xiàn)智能” 。但當時,賦予計算機或機器人以人類式的情感,主要還是科幻小說中的素材,在學術界罕有人關注。1995 年情感計算的概念由 Picard 首次提出,并于 1997 年正式出版《Affective Computing(情感計算)》。在書中,她指出“情感計算就是針對人類的外在表現(xiàn),能夠進行測量和分析并能對情感施加影響的計算” ,開辟了計算機科學的新領域,其思想是使計算機擁有情感,能夠像人一樣識別和表達情感,從而使人機交互更自然。 簡單來說,情感計算研究就是試圖創(chuàng)建一種能感知、識別和理解人的情感,并能針對人的情感做出智能、靈敏、友好反應的計算系統(tǒng)。顯然,情感計算是個復雜的過程,不僅受時間、地點、環(huán)境、人物對象和經(jīng)歷的影響,而且要考慮表情、語言、動作或身體的接觸。 在人機交互中,計算機需要捕捉關鍵信息,覺察人的情感變化,形成預期,進行調(diào)整, 做出反應。例如通過對不同類型的用戶建模(如操作方式、表情特點、態(tài)度喜好、認知風格、知識背景等),以識別用戶的情感狀態(tài),利用有效的線索選擇合適的用戶模型,并以適合當前用戶的方式呈現(xiàn)信息。 在對當前的操作做出及時反饋的同時,還要對情感變化背后的意圖形成新的預期,并激活相應的數(shù)據(jù)庫,及時主動地提供用戶需要的新信息。 舉例來說,麻省理工學院媒體實驗室的情感計算小組研制的情感計算系統(tǒng)通過記錄人面部表情的攝像機和連接在人身體上的生物傳感器來收集數(shù)據(jù),然后由一個“情感助理”來調(diào)節(jié)程序以識別人的情感。假設你對電視講座的一段內(nèi)容表現(xiàn)出困惑,情感助理會重放該片段或者給予解釋。而目前國內(nèi)情感計算的研究重點在于通過各種傳感器獲取有人的情感所引起的生理及行為特征信號,確定情感類別的關鍵特征,建立“情感模型”,從而創(chuàng)建個人情感計算系統(tǒng)。 情感計算是一個高度綜合化的研究和技術領域。通過計算科學與心理科學、認知科學的結(jié)合,研究人與人交互、人與計算機交互過程中的情感特點,設計具有情感反饋的人與計算機的交互環(huán)境,將有可能實現(xiàn)人與計算機的情感交互。情感計算研究將不斷加深對人的情感狀態(tài)和機制的理解,并提高人與計算機界面的和諧性,即提高計算機感知情境,理解人的情感意圖,做出適當反應的能力,其主要研究內(nèi)容如下圖所示:
情感計算是一個多學科交叉的嶄新的研究領域,它涵蓋了傳感器技術、計算機科學、認知科學、心理學、行為學、生理學、哲學、社會學等方面。情感計算的最終目標是賦予計算機類似于人的情感能力。要達到這個目標,許多技術問題有待解決。這些技術問題的突破對各學科的發(fā)展都產(chǎn)生巨大的推動作用。以下分別從情感計算的傳統(tǒng)研究方法和新興研究方法對技術發(fā)展進行探討。 1、 傳統(tǒng)的研究傳統(tǒng)的情感計算方法是按照不同的情感表現(xiàn)形式分類的,分別是:文本情感分析、語音情感分析、視覺情感分析。 1.1 文本情感計算20世紀90年代末,國外的文本情感分析已經(jīng)開始。早期, Riloff和Shepherd在文本數(shù)據(jù)的基礎上進行了構(gòu)建語義詞典的相關研究。 McKeown發(fā)現(xiàn)連詞對大規(guī)模的文本數(shù)據(jù)集中形容詞的語義表達的制約作用,進而對英文的形容詞與連詞做情感傾向研究。自此之后,越來越多的研究開始考慮特征詞與情感詞的關聯(lián)關系。 Turney等使用點互信息的方法擴展了正負面情感詞典,在分析文本情感時使用了極性語義算法,處理通用的語料數(shù)據(jù)時準確率達到了74%。在近些年的研究中, Narayanan等結(jié)合各種特征及其相關聯(lián)信息,提出了基于分句、整句、結(jié)果句的分類方案,獲得了很好的效果。 Pang等以積極情感和消極情感為維度,對電影評論進行了情感分類。他分別采用了支持向量機、最大熵、樸素貝葉斯算法進行分類實驗,發(fā)現(xiàn)支持向量機的精確度達到了80%。隨著研究的不斷深入,學者在對情感分析算法進行改進的同時,也將其應用到不同的行業(yè)中進行了實踐。 文本情感計算的過程可以由 3 部分組成:文本信息采集、情感特征提取和情感信息分類。文本信息采集模塊通過文本抓取工具(如網(wǎng)頁爬蟲工具)獲得情感評論文本,并傳遞到下一個情感特征提取模塊,然后對文本中自然語言文本轉(zhuǎn)化成計算機能夠識別和處理的形式,并通過情感信息分類模塊得到計算結(jié)果。文本情感計算側(cè)重研究情感狀態(tài)與文本信息之間的對應關系,提供人類情感狀態(tài)的線索。具體地,需要找到計算機能提取出來的特征,并采用能用于情感分類的模型。因此,關于文本情感計算過程的討論,主要集中在文本情感特征標注(信息采集) 、情感特征提取和情感信息分類這三個方面 。 1、文本情感特征標注:情感特征標注是對情感語義特征進行標注,通常是將詞或者語義塊作為特征項。情感特征標注首先對情感語義特征的屬性進行設計,如褒義詞、貶義詞、加強語氣、一般語氣、悲傷、高興等等;然后通過機器自動標注或者人工標注的方法對情感語義特征進行標注, 形成情感特征集合。情感詞典是典型的情感特征集合,也是情感計算的基礎。在大多數(shù)研究中,有關情感計算的研究通常是將情感詞典直接引入自定義詞典中。 運用情感詞典計算出文本情感值是一種簡單迅速的方法,但準確率有待提高。在實際的情感計算中,會因為具體的語言應用環(huán)境而有所不同。例如, “輕薄” 一詞通常認為是否定詞,但是在電腦、手機卻被視為肯定詞匯。同時,文本中常會出現(xiàn)否定前置、雙重否定以及文本口語化和表情使用等,這些都將會對文本情感特征的提取和判斷產(chǎn)生較大的影響。因此在進行文本情感提取時,需要對文本及其對應的上下文關系、 環(huán)境關系等進行分析。 2、情感特征提取 :文本包含的情感信息是錯綜復雜的,在賦予計算機以識別文本情感能力的研究中,從文本信號中抽取特征模式至關重要。在對文本預處理后,初始提取情感語義特征項。特征提取的基本思想是根據(jù)得到的文本數(shù)據(jù), 決定哪些特征能夠給出最好的情感辨識。通常算法是對已有的情緒特征詞打分,接著以得分高低為序,超過一定閾值的特征組成特征子集。特征詞集的質(zhì)量直接影響最后結(jié)果,為了提高計算的準確性,文本的特征提取算法研究將繼續(xù)受到關注。長遠看來,自動生成文本特征技術將進一步提高,特征提取的研究重點也更多地從對詞頻的特征分析轉(zhuǎn)移到文本結(jié)構(gòu)和情感詞上。 3、情感信息分類 :文本情感分類技術中,主要采用兩種技術路線:基于規(guī)則的方法和基于統(tǒng)計的方法。在 20世紀 80 年代,基于規(guī)則的方法占據(jù)主流位置,通過語言學家的語言經(jīng)驗和知識獲取句法規(guī)則,以此作為文本分類依據(jù)。但是,獲取規(guī)則的過程復雜且成本巨大,也對系統(tǒng)的性能有負面影響,且很難找到有效的途徑來提高開發(fā)規(guī)則的效率。 20 世紀 90 年代之后,人們更傾向于使用統(tǒng)計的方法,通過訓練樣本進行特征選擇和參數(shù)訓練,根據(jù)選擇的特征對待分類的輸入樣本進行形式化,然后輸入到分類器進行類別判定,最終得到輸入樣本的類別。 1.2 語音情感計算最早的真正意義上的語音情感識別相關研究出現(xiàn)在 20 世紀 80 年代中期,它們開創(chuàng)了使用聲學統(tǒng)計特征進行情感分類的先河。緊接著,隨著 1985 年 Minsky 教授“讓計算機具有情感能力” 觀點的提出,以及人工智能領域的研究者們對情感智能重要性認識的日益加深,越來越多的科研機構(gòu)開始了語音情感識別研究的探索。在 20 世紀 80 年代末至 90 年代初期,麻省理工學院多媒體實驗室構(gòu)造了一個“情感編輯器” 對外界各種情感信號進行采集,綜合使用人體的生理信號、面部表情信號、語音信號來初步識別各種情感,并讓機器對各種情感做出適當?shù)暮唵畏磻?/span> 1999 年, Moriyama 提出語音和情感之間的線性關聯(lián)模型,并據(jù)此在電子商務系統(tǒng)中建造出能夠識別用戶情感的圖像采集系統(tǒng)語音界面,實現(xiàn)了語音情感在電子商務中的初步應用。 整體而言,語音情感識別研究在該時期仍舊處于初級階段, 主要側(cè)重于情感的聲學特征分析這一方面,作為研究對象的情感語音樣本也多表現(xiàn)為規(guī)模小、自然度低、語義簡單等特點,雖然有相當數(shù)量的有價值的研究成果相繼發(fā)表,但是并沒有形成一套被廣泛認可的、系統(tǒng)的理論和研究方法。進入 21 世紀以來,隨著計算機多媒體信息處理技術等研究領域的出現(xiàn)以及人工智能領域的快速發(fā)展,語音情感識別研究被賦予了更多的迫切要求,發(fā)展步伐逐步加快。 2000 年,在愛爾蘭召開的 ISCA Workshop on Speech and Emotion 國際會議首次把致力于情感和語音研究的學者聚集在一起。近 10 余年來,語音情感識別研究工作在情感描述模型的引入、情感語音庫的構(gòu)建、情感特征分析等領域的各個方面都得到了發(fā)展。 下面將從語音情感數(shù)據(jù)庫的采集、語音情感標注以及情感聲學特征分析方面介紹語音情感計算。 1、語音情感數(shù)據(jù)庫的采集 :語音情感識別研究的開展離不開情感語音數(shù)據(jù)庫的支撐。情感語音庫的質(zhì)量高低,直接決定了由它訓練得到的情感識別系統(tǒng)的性能好壞。評價一個語音情感數(shù)據(jù)庫好壞的一個重要標準是數(shù)據(jù)庫中語音情感是否具備真實的表露性和自發(fā)性。目前,依據(jù)語音情感激發(fā)類型的不同,語音情感數(shù)據(jù)庫可分為表演型、誘發(fā)型和自發(fā)型三種。 具體來說,表演型情感數(shù)據(jù)庫通過專業(yè)演員的表演,把不同情感表達出來。在語音情感識別研究初期,這一采集標準被認為是研究語音情感識別比較可靠的數(shù)據(jù)來源,因為專業(yè)演員在表達情感時,可以通過專業(yè)表達獲得人所共知的情感特征。比如,憤怒情感的語音一般會具有很大的幅值和強度,而悲傷情感的語音則反之。由于這一類型的數(shù)據(jù)庫具有表演的性質(zhì),情感的表達會比真實情感夸大一點,因此情感不具有自發(fā)的特點。依據(jù)該類型數(shù)據(jù)庫來學習的語音情感識別算法,不一定能有效應用于真實生活場景中。第二種稱之為誘發(fā)型情感數(shù)據(jù)庫。被試者處于某一特定的環(huán)境,如實驗室中,通過觀看電影或進行計算機游戲等方式,誘發(fā)被試者的某種情感。目前大部分的情感數(shù)據(jù)庫都是基于誘發(fā)的方式建立的。誘發(fā)型情感數(shù)據(jù)庫產(chǎn)生的情感方式相較于表演型情感數(shù)據(jù)庫,其情感特征更具有真實性。最后一種類型屬于完全自發(fā)的語音情感數(shù)據(jù)庫,其語料采集于電話會議、電影或者電話的視頻片段,或者廣播中的新聞片段等等。由于這種類型的語音情感數(shù)據(jù)最具有完全的真實性和自發(fā)性,應該說最適合用于實用的語音情感識別。但是,由于這些語音數(shù)據(jù)涉及道德和版權因素,妨礙了它在實際語音情感識別中的應用。 2、語音情感數(shù)據(jù)庫的標注 :對于采集好的語音情感庫,為了進行語音情感識別算法研究,還需要對情感語料進行標注。標注方法有兩種類型: 離散型情感標注法指的是標注為如生氣、高興、悲傷、害怕、驚奇、討厭和中性等,這種標注的依據(jù)是心理學的基本情感理論。基本情感論認為,人復雜的情感是由若干種有限的基本情感構(gòu)成的,就像我們自古就有“喜、怒、哀、樂,恐、悲、 驚” 七情的說法。 不同的心理學家對基本情感有不同的定義,由此可見,在心理學領域?qū)厩楦蓄悇e的定義還沒有一個統(tǒng)一的結(jié)論,因此不同的語音情感數(shù)據(jù)庫包含的情感類別也不盡相同。這不利于在不同的語音情感數(shù)據(jù)庫上,對同一語音情感識別算法的性能進行評價。此外,眾所周知,實際生活中情感的類別遠遠不止有限幾類。基于離散型情感標注法的語音情感識別容易滿足多數(shù)場合的需要,但無法處理人類情感表達具有連續(xù)性和動態(tài)變化性的情況。在實際生活中,普遍存在著情感變化的語音,比如前半句包含了某一種情感,而后半句卻包含了另外一種情感,甚至可能相反。 例如,某人說話時剛開始很高興,突然受到外界刺激,一下子就生氣了。對于這種在情感表達上具有連續(xù)和動態(tài)變化的語音,采用離散型情感標注法來進行語音情感識別就不合適了。因為此時語音的情感,己不再完全屬于某一種具體的情感。 維度情感空間論基于離散型情感標注法的缺陷,心理學家們又提出了維度情感空間論,即對情感的變化用連續(xù)的數(shù)值進行表示。不同研究者所定義的情感維度空間數(shù)目有所不同,如二維、三維甚至四維模型。針對語音情感,最廣為接受和得到較多應用的為二維連續(xù)情感空間模型,即“激活維-效價維” (Arousal-Valence) 的維度模型。 “激活維” 反映的是說話者生理上的激勵程度或者采取某種行動所作的準備,是主動的還是被動的; “效價維” 反映的是說話者對某一事物正面的或負面的評價。隨著多模態(tài)情感識別算法的研究,為了更細致的地描述情感的變化,研究者在“激活維-效價維” (Arousal-Valence) 二維連續(xù)情感空間模型的基礎上,引入“控制維” , 即在“激活維-效價維-控制維(Arousal-Valence/Pleasure-Power/Dominance) ”三維連續(xù)情感空間模型上對語音情感進行標注和情感計算。需要強調(diào)的是,離散型和連續(xù)型情感標注之間,它們并不是孤立的,而是可以通過一定映射進行相互轉(zhuǎn)換。 情感聲學特征分析 :情感聲學特征分析主要包括聲學特征提取和聲學特征選擇、聲學特征降維。采用何種有效的語音情感特征參數(shù)用于情感識別,是語音情感識別研究最關鍵的問題之一,因為所用的情感特征參數(shù)的優(yōu)劣直接決定情感最終識別結(jié)果的好壞 。 聲學特征提取。 目前經(jīng)常提取的語音情感聲學特征參數(shù)主要有三種:韻律特征、音質(zhì)特征以及譜特征。 在早期的語音情感識別研究文獻中,針對情感識別所首選的聲學特征參數(shù)是韻律特征,如基音頻率、振幅、發(fā)音持續(xù)時間、語速等。這些韻律特征能夠體現(xiàn)說話人的部分情感信息,較大程度上能區(qū)分不同的情感。因此,韻律特征已成為當前語音情感識別中使用最廣泛并且必不可少的一種聲學特征參數(shù)除了韻律特征,另外一種常用的聲學特征參數(shù)是與發(fā)音方式相關的音質(zhì)特征參數(shù)。三維情感空間模型中的“激發(fā)維”上比較接近的情感類型,如生氣和高興,僅使用韻律特征來識別是不夠的。 音質(zhì)特征包括共振峰、頻譜能量分布、 諧波噪聲比等,不僅能夠很好地表達三維中的“效價維”信息,而且也能夠部分反映三維中的“控制維”信息。因此,為了更好地識別情感,同時提取韻律特征和音質(zhì)特征兩方面的參數(shù)用于情感識別,已成為語音情感識別領域聲學特征提取的一個主要方向。譜特征參數(shù)是一種能夠反映語音信號的短時功率譜特性的聲學特征參數(shù), Mel 頻率倒譜系數(shù)(Mel-scale Frequency Cepstral Coefficients,MFCC)是最具代表性的譜特征參數(shù),被廣泛應用于語音情感識別。由于譜特征參數(shù)及其導數(shù),僅反映語音信號的短時特性,忽略了對情感識別有用的語音信號的全局動態(tài)信息。近年來,為了克服譜特征參數(shù)的這種不足之處,研究者提出了一些改進的譜特征參數(shù),如類層次的譜特征、調(diào)制的譜特征和基于共振峰位置的加權譜特征等。 聲學特征選擇。 為了盡量保留對情感識別有意義的信息,研究者通常都提取了較多的與情感表達相關的不同類型的特征參數(shù),如韻律特征、音質(zhì)特征、譜特征等。 任意類型特征都有各自的側(cè)重點和適用范圍, 不同的特征之間也具有一定的互補性、相關性。此外,這些大量提取的特征參數(shù)直接構(gòu)成了一個高維空間的特征向量。這種高維性質(zhì)的特征空間,不僅包含冗余的特征信息,導致用于情感識別的分類器訓練和測試需要付出高昂的計算代價,而且情感識別的性能也不盡如人意。因此,非常有必要對聲學特征參數(shù)進行特征選擇或特征降維處理,以便獲取最佳的特征子集,降低分類系統(tǒng)的復雜性和提高情感識別的性能。 特征選擇是指從一組給定的特征集中,按照某一準則選擇出一組具有良好區(qū)分特性的特征子集。特征選擇方法主要有兩種類型:封裝式(Wrapper)和過濾式(Filter)。Wrapper 算法是將后續(xù)采用的分類算法的結(jié)果作為特征子集評價準則的一部分,根據(jù)算法生成規(guī)則的分類精度選擇特征子集。 Filter 算法是將特征選擇作為一個預處理過程,直接利用數(shù)據(jù)的內(nèi)在特性對選取的特征子集進行評價,獨立于分類算法。 聲學特征降維。 特征降維是指通過映射或變換方式將高維特征空間映射到低維特征空間,已達到降維的目的。特征降維算法分為線性和非線性兩種。最具代表性的兩種線性降維算法,如主成分分析 PCA(Principal Component Analysis)和線性判別分析 LDA(Linear DiscriminantAnalysis),已經(jīng)被廣泛用于對語音情感特征參數(shù)的線性降維處理。也就是, PCA 和 LDA 方法被用來對提取的高維情感聲學特征數(shù)據(jù)進行嵌入到一個低維特征子空間,然后在這降維后的低維子空間實現(xiàn)情感識別,提高情感識別性能。 近年來,新發(fā)展起來的基于人類認知機理的流形學習方法比傳統(tǒng)的線性 PCA 和 LDA 方法更能體現(xiàn)事物的本質(zhì),更適合于處理呈非線性流形結(jié)構(gòu)的語音情感特征數(shù)據(jù)。但這些原始的流形學習方法直接應用于語音情感識別中的特征降維,所取得的性能并不令人滿意。主要原因是他們都屬于非監(jiān)督式學習方法,沒有考慮對分類有幫助的已經(jīng)樣本數(shù)據(jù)的類別信息。盡管流形學習方法能夠較好地處理非線性流形結(jié)構(gòu)的語音特征數(shù)據(jù),但是流形學習方法的性能容易受到其參數(shù)如鄰域數(shù)的影響,而如何確定其最佳的鄰域數(shù),至今還缺乏理論指導,一般都是根據(jù)樣本數(shù)據(jù)的多次試驗結(jié)果來粗略地確定。因此,對于流形學習方法的使用,如何確定其最佳參數(shù),還有待深入研究。 1.3 視覺情感計算表情作為人類情感表達的主要方式,其中蘊含了大量有關內(nèi)心情感變化的信息,通過面部表情可以推斷內(nèi)心微妙的情感狀態(tài)。但是讓計算機讀懂人類面部表情并非簡單的事情。 人臉表情識別是人類視覺最杰出的能力之一。 而計算機進行自動人臉表情識別所利用的主要也是視覺數(shù)據(jù)。 無論在識別準確性、 速度、 可靠性還是穩(wěn)健性方面, 人類自身的人臉表情識別能力都遠遠高于基于計算機的自動人臉表情識別。 因此,自動人臉表情識別研究的進展一方面依賴計算機視覺、 模式識別、人工智能等學科的發(fā)展, 另一方面還依賴對人類本身識別系統(tǒng)的認識程度,特別是對人的視覺系統(tǒng)的認識程度。 早在 20 世紀 70 年代,關于人臉表情識別的研究就已經(jīng)展開,但是早期主要集中在心理學和生物學方面。隨著計算機技術的發(fā)展,人臉表情識別技術逐漸發(fā)展起來,至上世紀 90 年代,該領域的研究已經(jīng)非?;钴S。大量文獻顯示表情識別與情感分析已從原來的二維圖像走向了三維數(shù)據(jù)研究,從靜態(tài)圖像識別研究專項實時視頻跟蹤。 下面將從視覺情感信號獲取、情感信號識別以及情感理解與表達方面介紹視覺情感計算。 視覺情感信號獲取 :表情參數(shù)的獲取, 多以二維靜態(tài)或序列圖像為對象, 對微笑的表情變化難以判斷, 導致情感表達的表現(xiàn)力難以提高, 同時無法體現(xiàn)人的個性化特征,這也是表情識別中的一大難點。 以目前的技術, 在不同的光照條件和不同頭部姿態(tài)下, 也不能取得滿意的參數(shù)提取效果。由于三維圖像比二維圖像包含更多的信息量, 可以提供魯棒性更強, 與光照條件和人的頭部姿態(tài)無關的信息, 用于人臉表情識別的特征提取工作更容易進行。因此, 目前最新的研究大多利用多元圖像數(shù)據(jù)來進行細微表情參數(shù)的捕獲。 該方法綜合利用三維深度圖像和二維彩色圖像, 通過對特征區(qū)深度特征和紋理彩色特征的分析和融合, 提取細微表情特征, 并建立人臉的三維模型, 以及細微表情變化的描述機制。 視覺情感信號識別:視覺情感信號的識別和分析主要分為面部表情的識別和手勢識別兩類: 對于面部表情的識別, 要求計算機具有類似于第三方觀察者一樣的情感識別能力。由于面部表情是最容易控制的一種,所以識別出來的并不一定是真正的情感,但是,也正由于它是可視的,所以它非常重要,并能通過觀察它來了解一個人試圖表達的東西。到目前為止, 面部表情識別模型都是將情感視為離散的, 即將面部表情分成為數(shù)不多的類別, 例如“高興” 、 “悲傷” 、 “憤怒” 等。 1971 年, Ekman 和 Friesen 研究了 6 種基本表情(高興、悲傷、驚訝、恐懼、憤怒和厭惡), 并系統(tǒng)地建立了上千幅不同的人臉表情圖像庫。六種基本表情的具體面部表現(xiàn)如下表 所示。 1978 年, 他們研究了情感類別之間的內(nèi)在關系, 開發(fā)了面部動作編碼系統(tǒng)(FACS)。系統(tǒng)描述了基本情感以及對應的產(chǎn)生這種情感的肌肉移動的動作單元。他們根據(jù)人臉的解剖學特點,將其劃分成大約 46 個既相互獨立又相互聯(lián)系的運動單元(AU) ,并分析了這些運動單元的運動特征及其所控制的主要區(qū)域以及與之相關的表情,給出了大量的照片說明。面部識別器一般要花五分鐘來處理一種面部表情, 準確率達到 98%。 馬里蘭大學的 Yeser Yacoob 和 Larry Davis 提出了另一種面部表情識別模型,它也是基于動作能量模版,但是將模版、子模版(例如嘴部區(qū)域)和一些規(guī)則結(jié)合起來表達情感。例如,憤怒的表情在從眼睛區(qū)域提取的子模版中,特別是眉毛內(nèi)斂、下垂,在嘴巴區(qū)域子模版中,特別是嘴巴緊閉, 兩個子模板結(jié)合起來, 就很好表達了憤怒這一情感。后續(xù)的研究總體上結(jié)合生物識別方法及計算機視覺進行, 依據(jù)人臉特定的生物特征,將各種表情同臉部運動細節(jié)(幾何網(wǎng)格的變化) 聯(lián)系起來, 收集樣本, 提取特征,構(gòu)建分類器。 但是目前公開的用于表情識別研究的人臉圖像數(shù)據(jù)庫多是采集志愿者刻意表現(xiàn)出的各種表情的圖像, 與真實情形有出入。
對于手勢識別來說, 一個完整的手勢識別系統(tǒng)包括三個部分和三個過程。 三個部分分別是:采集部分、 分類部分和識別部分; 三個過程分別是: 分割過程、 跟蹤過程和識別過程。 采集部分包括了攝像頭、 采集卡和內(nèi)存部分。 在多目的手勢識別中, 攝像頭以一定的關系分布在用戶前方。 在單目的情況下, 攝像頭所在的平面應該和用戶的手部運動所在的平面基本水平。分類部分包括了要處理的分類器和結(jié)果反饋回來的接收比較器。 用來對之前的識別結(jié)果進行校正。識別部分包括了語法對應單位和相應的跟蹤機制, 通過分類得到的手部形狀通過這里一一對應確定的語義和控制命令。 分割過程包括了對得到的實時視頻圖像進行逐幀的手部分割, 首先得到需要關注的區(qū)域, 其次在對得到的區(qū)域進行細致分割, 直到得到所需要的手指和手掌的形狀。跟蹤過程包括對手部的不斷定位和跟蹤,并估計下一幀手的位置。 識別過程通過對之前的知識確定手勢的意義, 并做出相應的反應, 例如顯示出對應的手勢或者做出相應的動作, 并對不能識別的手勢進行處理, 或者報警或者記錄下特征后在交互情況下得到用戶的指導。 手勢識別的基本框架如下圖所示:
2、新興的研究2.1 網(wǎng)絡海量數(shù)據(jù)的情感計算隨著時代的發(fā)展,網(wǎng)絡賦予情感計算新的、更大的數(shù)據(jù)平臺,打開了情感計算的新局面。網(wǎng)絡系統(tǒng)由于溝通了人類的現(xiàn)實世界和虛擬世界,可以持續(xù)不斷地對數(shù)量龐大的樣本進行情感跟蹤,每天這些映射到網(wǎng)絡上的情緒不計其數(shù),利用好這些數(shù)據(jù)反過來就可以驗證心理學結(jié)論,甚至反哺心理學。由于大數(shù)據(jù)的分布范圍極其廣泛,樣本數(shù)量非常龐大,采用單一的大數(shù)據(jù)處理方法往往得不到有效的情感要素,統(tǒng)計效果較差。但是,如果將大數(shù)據(jù)和心理學結(jié)合起來,局面就會大不一樣:心理學中,不同情感可以采用維度標定,如冷暖或軟硬,同時各種心理效應影響人類對事物的情感判斷,如連覺效應、視覺顯著性、視覺平衡等,在大數(shù)據(jù)中引入心理學效應和維度,對有效數(shù)據(jù)進行心理學情感標準劃分,使得數(shù)據(jù)具有情感維度,這樣就會讓計算機模擬人類情感的準確性大大提升。網(wǎng)絡海量數(shù)據(jù)的情感主要有以下幾個社會屬性: 情感隨群體的變化:在社交網(wǎng)絡,如論壇、網(wǎng)絡社區(qū)等群體聚集的平臺上流露出群體的情感,通過這些情感展現(xiàn)可以達到影響其他個人的行為。 情感隨圖片的變化:在社交媒體出現(xiàn)大量的圖片,這些圖片的顏色、光度、圖片內(nèi)容等各不相同。圖片的特征直接影響到了觀看者的情感。 情感隨朋友的變化:在社交平臺上,朋友發(fā)表的微博、微信狀態(tài)等容易展現(xiàn)個人的情感。朋友間的關系比陌生人間的關系更加深入,所以朋友的情感更容易引起情感變化,在海量數(shù)據(jù)中,個人情感容易優(yōu)先受朋友情感的影響。 情感隨社會角色的變化:在社交網(wǎng)絡中,個人在不同的群體所處的角色也不一樣,個人情感流露時也會跟著所處的角色不一樣而展現(xiàn)不同的情感。 情感隨時間的演變:人的情緒是變化無常的,所處的環(huán)境不一樣,則表現(xiàn)出來的情感也將不一樣。即使是同一件事,不同的情景下展現(xiàn)的情感也會不一樣。另外,事件的發(fā)展是個動態(tài)的過程,隨著事件的演變,人的情感也會跟著變化。 2.2 多模態(tài)計算雖然人臉、姿態(tài)和語音等均能獨立地表示一定的情感,但人的相互交流卻總是通過信息的綜合表現(xiàn)來進行。所以, 只有實現(xiàn)多通道的人機界面,才是人與計算機最為自然的交互方式,它集自然語言、語音、手語、人臉、唇讀、頭勢、體勢等多種交流通道為一體,并對這些通道信息進行編碼、壓縮、集成和融合,集中處理圖像、音頻、視頻、文本等多媒體信息。多模態(tài)計算是目前情感計算發(fā)展的主流方向。每個模塊所傳達的人類情感的信息量大小和維度不同。在人機交互中,不同的維度還存在缺失和不完善的問題。因此,人機交互中情感分析應盡可能從多個維度入手,將單一不完善的情感通道補上,最后通過多結(jié)果擬合來判斷情感傾向。 在多模態(tài)情感計算研究中,一個很重要的分支就是情感機器人和情感虛擬人的研究。美國麻省理工學院、日本東京科技大學、美國卡內(nèi)基·梅隆大學均在此領域做出了較好的演示系統(tǒng)。目前中科院自動化所模式識別國家重點實驗室已將情感處理融入到了他們已有的語音和人臉的多模態(tài)交互平臺中,使其結(jié)合情感語音合成、人臉建模、視位模型等一系列前沿技術,構(gòu)筑了栩栩如生的情感虛擬頭像,并積極轉(zhuǎn)向嵌入式平臺和游戲平臺等實際應用。 目前, 情感識別和理解的方法上運用了模式識別、人工智能、語音和圖像技術的大量研究成果。例如:在情感語音聲學分析的基礎上,運用線性統(tǒng)計方法和神經(jīng)網(wǎng)絡模型,實現(xiàn)了基于語音的情感識別原型;通過對面部運動區(qū)域進行編碼,采用 HMM 等不同模型,建立了面部情感特征的識別方法;通過對人姿態(tài)和運動的分析,探索肢體運動的情感類別等等。不過,受到情感信息捕獲技術的影響, 以及缺乏大規(guī)模的情感數(shù)據(jù)資源,有關多特征融合的情感理解模型研究還有待深入。隨著未來的技術進展,還將提出更有效的機器學習機制。 人才1、 全球?qū)W者概況學者分布地圖對于進行學者調(diào)查、分析各地區(qū)競爭力現(xiàn)況尤為重要, 下圖為情感計算領域全球頂尖學者分布狀況。 其中, 顏色越趨近于紅色, 表示學者越集中;顏色越趨近于綠色,表示學者越稀少。 從地區(qū)角度來看,北美洲、歐洲是情感計算領域?qū)W者分布最為集中的地區(qū),亞洲東部地區(qū)次之, 南美洲和非洲學者極為匱乏。從國家角度來看, 情感計算領域的人才在美國最多,中國次之,意大利、法國等洲國家也有較多的學者數(shù)量,整體上講其它國家與美國的差距較大。
情感計算領域?qū)W者的 h-index 分布如下圖所示,分布情況整體呈階梯狀,大部分學者的 hindex 分布在中低區(qū)域,其中 h-index 在<10 的區(qū)間人數(shù)最多,有 524 人, 占比 43.4%, 50-60 區(qū)間人數(shù)最少, 有 46 人, 占比 3.8%。
各國情感計算 TOP學者的流失和引進是相對比較均衡的,其中美國是情感計算領域人才流動大國,人才輸入和輸出幅度領先于其他國家,且從數(shù)據(jù)來看人才流出大于人才流入。英國、加拿大和印度等國人才遷徙流量小于美國;中國人才流入略高于人才流出。人才的頻繁流入流出,使得該領域的學術交流活動增加,帶動了人才質(zhì)量提升的同時,也促進了領域理論及技術的更新迭代, 逐漸形成一種良性循環(huán)的過程。
2、 國內(nèi)學者概況AMiner 選取情感計算領域國內(nèi)專家學者繪制了學者國內(nèi)分布地圖,如下圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在情感計算領域的人才數(shù)量最多,東部及南部沿海地區(qū)的也有較多的人才分布,相比之下,內(nèi)陸地區(qū)信情感計算領域人才較為匱乏,這也從一定程度上說明了情感計算領域的發(fā)展與該地區(qū)的地理位置和經(jīng)濟水平都是息息相關的。同時,通過觀察中國周邊國家的學者數(shù)量情況,特別是與日本、東南亞等亞洲國家相比,中國在情感計算領域頂尖學者數(shù)量方面具有較為明顯的優(yōu)勢。 圖 8 是我國情感計算領域頂尖學者最多的 10 個省份。
情感計算應用近年來, Picard 領導的美國麻省理工學院多媒體實驗室相繼提出了近 50 種情感計算應用項目。例如,將情感計算應用于醫(yī)療康復,協(xié)助自閉癥者,識別其情感變化,理解患者的行為;在教育中應用情感計算,實現(xiàn)對學習狀態(tài)的采集及分析,指導教學內(nèi)容的選擇及教學進度進行;還可以將情感計算應用于生活中,計算機能夠感知用戶對音樂的喜好, 根據(jù)對情感反應的理解判斷,為用戶提供更感興趣的音樂播放等。 1、 課堂教學在美國,公立學校的預算限制引發(fā)大規(guī)模的教師裁員和教室擁擠不堪。教師工作時間緊張,還要考慮和滿足每個學生的需求。結(jié)果就是,那些課業(yè)困難的孩子容易受到忽視。因為只要孩子不提出問題,老師就不會關注到他。 在過去三年里,有企業(yè)把面部識別技術應用到了第一線教學當中。在 SensorStar 實驗室,他們用相機捕捉學生上課反應,并且輸入到計算機里面,運用算法來確定學生注意力是否轉(zhuǎn)移。通過面部識別軟件 EngageSense,計算機能夠測量微笑、皺眉和聲音來測定學生課堂參與度。孩子們的眼睛是專注于老師的嗎? 他們是在思考還是發(fā)呆?他們是微笑還是皺著眉頭?或者他們只是覺得困惑?還是無聊?測量之后,老師將會收到一份反饋報告,基于面部分析, 報告會告訴老師他們的學生學習興趣何時最高、何時最低。這樣,老師能夠?qū)ψ约旱慕虒W方案做出調(diào)整,滿足更多學生的需求。此外,比爾和梅林達蓋茨基金會資助了傳感器手鐲(sensor bracelets)的開發(fā),這可以用來追蹤學生的參與水平。腕部設備能夠發(fā)送小電流,通過在神經(jīng)系統(tǒng)響應刺激時測量電荷的細微變化便可以得知學生的課程興奮程度。 心理學家 Paul Ekman 將面部識別技術研究提升到了一個新的層次。他對 5000 多種面部運動進行了分類,以幫助識別人類情緒。他的研究為 Emotient Inc、 Affectiva Inc 和 Eyeris 等公司提供了幫助,這些公司將心理學和數(shù)據(jù)挖掘相結(jié)合,檢測人的細微表情,并對人的反應進行分類。目前為止,面部識別技術的重點是協(xié)助聯(lián)邦執(zhí)法和市場調(diào)研。不過,圣地亞哥市的研究人員也在醫(yī)療行業(yè)試用這項技術,測定孩子接受外科手術之后的疼痛程度。 2、 機器學習定制學生課堂學習內(nèi)容TechCrunch 公司的員工設計了在線教育平臺,來提供一對一指導和精熟學習( masterylearning)。這是應用創(chuàng)新型思維,通過實時的評估和定制化的學習方式,有效地解決本杰明提出的著名的“Sigma 2 Problem” 。深度學習系統(tǒng)將學生學習效果數(shù)據(jù)進行分類,并且在此基礎上制定相關的教學內(nèi)容。該系統(tǒng)還可以推薦附加練習,并且根據(jù)學生個人能力和教學要求,實時推薦課程內(nèi)容,調(diào)整教學速度 。 北卡羅來納州州立大學研究員開發(fā)了一種軟件,通過攝像頭捕捉和分析學生面部表情,以此改變在線課程。 目前,大多數(shù)情感計算技術還僅僅停留在學術研究領域。 但也已經(jīng)有公司開始應用這項技術,并能成功地分辨學生表情,并根據(jù)他們的學習能力和方式,來自動調(diào)整適合的學習內(nèi)容和環(huán)境。英特爾公司正是這其中的一員。有了這些學生表情數(shù)據(jù),可以讓“Emoshape”這樣的情感計算智能系統(tǒng),自動分析情感,并做出適當回復。這些系統(tǒng)具備了解決個體問題的能力,也使老師能夠提供高度個性化的內(nèi)容來激發(fā)學生的學習興趣。 人工智能和大數(shù)據(jù)已經(jīng)促成了大部分行業(yè)的技術革新,從電子商務到交通、金融、醫(yī)療。人工智能和大數(shù)據(jù)已經(jīng)在教育方面取得進展。 盡管有些反對的聲音,比如說如何保護學生隱私、如何提高教學效率等, 但需要指出的是,這些技術的應用并不是要代替老師,而是扮演輔助老師的角色,識別學生的個體需求,以制定更加智能的教學方案。 3、 情緒監(jiān)測為了深度挖掘人類情感的奧秘, 美國麻省理工學院計算機科學與人工智能實驗室打造了用無線信號監(jiān)測情緒的 EQ-Radio。在沒有身體感應器和面部識別軟件輔助的情況下, EQ-Radio通過測量呼吸和心跳的微小變化, 利用無線信號捕捉到一些肉眼不一定能察覺的人類行為,判斷一個人到底處于以下四種情緒中的哪一種:激動、開心、生氣或者憂傷,正確率高達 87%。美國麻省理工學院教授和該項目的負責人 Dina Katabi 預測,這個系統(tǒng)會被運用于娛樂、消費者行為和健康護理等方面:電影工作室和廣告公司也可以用這個系統(tǒng)來測試觀眾實時的反應;而在智能家居的環(huán)境中,該系統(tǒng)可以通過捕捉與人的心情有關的信息,調(diào)節(jié)室內(nèi)溫度,或者建議你應該呼吸一些新鮮空氣。 現(xiàn)有的情緒監(jiān)控方法大多依賴于視聽設備或者是安裝在人身上的感應器,這兩種技術都有缺點:面部表情并不一定符合內(nèi)心狀態(tài),而安裝在身上的感應器(比如胸帶和心電監(jiān)護儀)會造成各種不便,而且一旦它們的位置稍微移動,監(jiān)測到的數(shù)據(jù)就不精確了。 EQ-Radio 會發(fā)送能監(jiān)測生理信息的無線信號,該信號最終會反饋給設備本身。其中的算法可以分析心跳之間的微小變化,從而判斷人們的情緒。消極情緒會被判定為“憂傷” , 而正面 且高漲的情緒會被判定為“激動” 。盡管這樣的測量會因人而異,但其中還是有內(nèi)在統(tǒng)一性。通過了解人們處于不同的情緒狀態(tài)下,他們的心跳會如何變化,我們就可以對他所處的情緒狀態(tài)進行有效的判斷。 在他們設計的實驗中,參與實驗者選擇他們記憶中最能代表激動、開心、生氣、憂傷以及毫無情感的一段視頻或音樂。在掌握了這段時長兩分鐘的視頻里的五種情緒設置后, EQ-Radio可以精確地通過一個人的行為判斷他處于這四種情緒中的哪一種。與微軟研發(fā)的基于視覺和面部表情的 Emotion API 相比, EQ-Radio 在識別喜悅、憂傷和憤怒這三個情緒上精確度更高。同時,這兩種系統(tǒng)在判斷中性情緒時的精準度差不多,因為毫無情緒的臉總是更容易被識別。 目前,對美國麻省理工學院計算機科學與人工智能實驗室而言,最艱巨的任務就是擺脫不相關數(shù)據(jù)的干擾。比如,為了分析心率,他們要抑制呼吸可能帶來的影響,因為呼吸時,人的肺部起伏比他心跳時的心臟起伏要大。
4、 醫(yī)療康復近年來,情感計算運用于自閉癥治療得到越來越多的關注。例如, 美國麻省理工學院情感計算團隊正在開發(fā)世界上第一個可穿戴的情感計算技術設備:一個具有社交智能的假肢,用來實時檢測自閉癥兒童的情感, 幫助機器人使用自閉癥兒童獨有的數(shù)據(jù), 來評估這些互動過程中每個孩子的參與度和興趣。 這個裝置用一個小型照相機,分析孩子的面部表情和頭部運動來推斷他們的認知情感狀態(tài)。還有一種叫“galvactivator” 的工具,通過測量穿戴者的皮膚電流數(shù)據(jù),推斷孩子的興奮程度。這個像手套一樣的設備可以利用發(fā)光二極管描繪出人體生理機能亢奮程度的圖譜。這種可視化的展現(xiàn)方式,能夠清晰地展示出人的認知情感水平。 NAO 機器人和個性化的機器學習在治療自閉癥患者上也表現(xiàn)出很大的優(yōu)越性: 人類治療師會向孩子展示一張照片或者閃存卡片,用來表示不同的情緒,以教會他們?nèi)绾巫R別恐懼、 悲傷或喜悅的表情。治療師隨后對機器人進行編程, 向孩子們展示這些相同的情緒,并且在孩子與機器人交往時觀察孩子。孩子們的行為提供了寶貴的反饋信息,機器人和治療師可以根據(jù)反饋信息繼續(xù)學習。 研究人員在這項研究中使用了 SoftBank Robotics NAO 類人機器人。NAO 將近 2 英尺高,類似于裝甲超級英雄,通過改變眼睛的顏色、 肢體的運動以及聲音的音調(diào)來表達不同的情緒。參加這項研究的 35 名自閉癥兒童中,有 17 人來自日本, 18 人來自塞爾維亞,年齡從 3 歲到 13歲不等。他們在 35 分鐘的會議中以各種方式對機器人做出反應,從看起來無聊和困倦,到在房間里興奮地跳來跳去,拍手,大笑或觸摸機器人。研究中的大多數(shù)孩子對機器人的看法是,它不僅僅是一個玩具,應該尊重 NAO,因為它是一個真實的人。另外,人類用許多不同的方式改變自己的表情,但機器人則通過同樣的方式來改變表情,這對孩子來說更加有利,因為孩子可以通過非常有條理的方式學習如何表達表情 。 麻省理工學院的研究小組意識到, 具有深度學習能力的治療機器人能夠更好感知兒童的行為的。深度學習系統(tǒng)使用分層的多層數(shù)據(jù)處理來處理其任務,每一個連續(xù)的層都是對原始數(shù)據(jù)抽象的表示。 盡管自 20 世紀 80 年代以來深度學習的概念已經(jīng)出現(xiàn),但直到最近才有足夠的計算能力來實現(xiàn)這種人工智能。深度學習已被用于自動語音和對象識別程序中, 這種應用非常適合解決面部、 身體和聲音等多重特征的問題,從而更好地理解抽象的概念,如兒童的參與感。 對于治療機器人,研究者構(gòu)建了一個個性化框架,可以從收集的每個孩子的數(shù)據(jù)中學習。研究人員拍攝了每個孩子的臉部表情、 頭部和身體動作、 姿勢和手勢, 記錄了兒童手腕上顯示器的心率、 體溫和皮膚汗液反應作為數(shù)據(jù)。這些機器人的個性化深度學習網(wǎng)絡是根據(jù)這些視頻、音頻和生理數(shù)據(jù)的層次, 針對孩子的自閉癥診斷和能力、 文化和性別的信息構(gòu)建的。研究人員將機器人對兒童行為的估計與五位人類專家的估計數(shù)字進行了比較,這些專家連續(xù)對孩子的錄像和錄音進行編碼,以確定孩子在會議期間高興或不安程度,是否感興趣以及孩子的表現(xiàn)。比較發(fā)現(xiàn),機器人對兒童行為的估計要比專家更加具體清晰。 5、 輿情監(jiān)控網(wǎng)絡調(diào)查法、 統(tǒng)計規(guī)則法和文本內(nèi)容挖掘是三種經(jīng)常被使用的網(wǎng)絡輿情分析方法。大數(shù)據(jù)時代的來臨使傳統(tǒng)的輿情分析方式發(fā)生改變,大數(shù)據(jù)時代數(shù)據(jù)量突增、 數(shù)據(jù)產(chǎn)生的速度極快、冗余信息占比高的特性不僅給輿情分析帶來新的發(fā)展機遇, 也帶來了新的難度和挑戰(zhàn)。基于簡單調(diào)查和統(tǒng)計的輿情分析方法將無法適用于大數(shù)據(jù)環(huán)境下的網(wǎng)絡社區(qū)文本。當前國內(nèi)外對輿情分析技術的研究也大多以大數(shù)據(jù)環(huán)境為背景,與傳統(tǒng)輿情分析技術相比,大數(shù)據(jù)時代網(wǎng)絡社區(qū)的輿情分析技術更多地集中于對數(shù)據(jù)的獲取, 并采取文本數(shù)據(jù)分析、數(shù)據(jù)挖掘、語義分析等技術獲取輿情信息。 當前國內(nèi)外的輿情分析技術研究主要集中于話題識別與話題跟蹤、意見領袖識別以及情感傾向判別這三個方面。 話題識別與話題跟蹤首先在文本中識別出新話題, 接下來在一段時間內(nèi)檢測并實時跟蹤話題,實現(xiàn)該話題的再現(xiàn),研究其隨時間發(fā)展的演化過程。聚類方法常用于進行話題識別。在國外研究中,話題檢測與跟蹤(TDT)是了解社交媒體熱點話題及其演變過程的重要手段。 意見領袖的發(fā)現(xiàn)和識別重點在于評價指標的制定以及模型的構(gòu)建。例如,曹玖新等將網(wǎng)絡社區(qū)用戶看作一個個節(jié)點,根據(jù)節(jié)點之間信息的交互和傳播過濾, 從用戶結(jié)構(gòu)、行為和情感三個特征維度挖掘意見領袖。 情感傾向判別在輿情研究中最為常見,首先收集 web 金融領域的文本數(shù)據(jù)屬性, 接下來構(gòu)建金融領域的情感詞典, 最后結(jié)合語義分析,將語義規(guī)則應用到情感及情感強度識別當中,提升了分類器的準確率 M。王永等人將傾向分析應用到客戶評論信息挖掘當中,結(jié)合情感詞之間的依存關系計算面向產(chǎn)品特征的情感傾向得分,從網(wǎng)絡評論中獲取有價值的商業(yè)信息。國外針對 Twitter 的情感傾向分析研究居多,用以獲取有價值的信息和輿論導向,例如,結(jié)合語言規(guī)則特征可以分別獲取正面和負面的 Twitter 文章,反應公眾的輿情態(tài)度。 趨勢1、 論文研究發(fā)展趨勢Trend analysis(http://trend.)基于 AMiner 的 2 億篇論文數(shù)據(jù)進行深入挖掘,包括對技術來源、熱度、發(fā)展趨勢進行研究,進而預測未來的技術前景。技術趨勢分析描述了技術的出現(xiàn)、變遷和消亡的全過程,可以幫助研究人員理解領域的研究歷史和現(xiàn)狀,快速識別研究的前沿熱點問題。 下圖是當前情感計算領域的熱點技術趨勢分析,通過 Trend analysis 分析挖掘可以發(fā)現(xiàn)當前該領域的熱點研究話題 Top10 是 Affective Computing、 Social Robot、 Emotion Recognition、 Human Computer Interaction、 Feature Extraction、 Support Vector Machine、 Facial Expression、 Human RobotInteraction、 Behavioural Sciences Computing、 Face Recognition。
根據(jù)Trend analysis的分析我們可以發(fā)現(xiàn), 該領域當前最熱門的話題是Affective Computing,從全局熱度來看, Affective Computing 的話題熱度雖然有所起伏, 但從 20 世紀 90 年代開始,熱度迅速上升,甚至在五年內(nèi)超過了此前的話題 Top 1 Emotion Recognition, 并且至今其話題熱度始終保持在 Top1,論文的發(fā)表數(shù)量也較多;Social Robot 的研究熱度跟隨 Affective Computing同期上升,近幾年話題熱度更是超越 Emotion Recognition 成為 Top2 話題;另外,前期比較熱門的 Feature Extraction 經(jīng)過了一段時間的低迷期后,也回到了 Top3 的位置。 2、 情感計算技術預見研究者根據(jù)情感計算領域近十年的相關論文,利用大數(shù)據(jù)分析、機器學習、人工智能等技術手段,建立算法模型及研發(fā) demo 系統(tǒng),分析挖掘出該領域的技術發(fā)展熱點。 技術預見圖中點的大小表示該技術的熱點(主要由相關論文數(shù)量的多少決定,相關論文越多,熱度越高,點越大),各技術之間的連線表示 2 個技術關鍵詞同時在 N 篇論文中出現(xiàn)過(當前 N 的取值為 5)。
根據(jù)情感計算技術預見圖,可以得出情感計算領域相關度最高的技術有 3 項,分別為:feature extraction、 human computer interaction 和 emotion recognition。 按照技術前沿度,可以列出相關的主要技術關鍵詞,以及該技術歷年的變化趨勢(論文發(fā)表數(shù)量變化趨勢),及重要代表性成果。具體如下圖所示 :
圖 15 中我們可以看出,情感計算領域預測前沿度比較高的前四熱詞有:autism spectrumdisorder(前沿度為 1428)、 support vector machine(前沿度為 1096)、 deep learning(前沿度為 1058)和 semantic web(前沿度為 1031)。 如果說目前的傳統(tǒng)計算機(包括應用現(xiàn)有智能計算方法的計算機)只包含了反映理性思維(Thinking)的“腦(Brain)”,那么,情感計算將為該機器增添了具有感性思維(Feeling)的“心(Heart)”(這是應用文學方式對機器進行擬人化比喻。按認知科學講,感性思維仍源于腦活動)。可以認為,情感計算是在人工智能理論框架下的一個質(zhì)的進步。因為從廣度上講它擴展并包容了情感智能,從深度上講情感智能在人類智能思維與反應中體現(xiàn)了一種更高層次的智能。情感計算必將為計算機的未來應用展現(xiàn)一種全新的方向。 轉(zhuǎn)載自:人工智能學家
|
|