中共中央政治局4月25日下午就加強人工智能發(fā)展和監(jiān)管進行第二十次集體學(xué)習(xí)。西安交通大學(xué)教授鄭南寧同志就這個問題進行講解,提出工作建議。 今天刊登一則鄭院士做的一個報告,講得非常好,難怪能給政治局講課。以下為報告全文: 大家好,今天我報告的題目是“機器行為與具身智能”。 首先,我們來看一個相對簡單的十字路口場景,場景中有行人、有非機動車和機動車,我們看一看它的動態(tài)場景是如何構(gòu)成的?十字路口的交通場景是不可預(yù)測的,但場景中的每個對象或稱之為Object直覺的判斷和他們對相互之間的行為關(guān)系的理解,形成了這樣一個相互關(guān)聯(lián)的穩(wěn)定系統(tǒng)。 人在這些場景中能夠迅速的理解和判斷各個對象在空間及其行為的關(guān)聯(lián)性。而自動駕駛也必須要能夠抽象和表述這種關(guān)聯(lián)性,才能做出準確地判斷,而事實上我們要讓機器機基于規(guī)律對交通場景的動態(tài)變化進行事先編碼是做不到的,我們需要研究在這種交互場景中,多個自主體的自適應(yīng)行為。 舉例來看,在F1比賽中,工作人員利用團隊協(xié)作可以迅速地完成車輛輪胎的替換工作,如何利用機器人集群協(xié)作完成某項任務(wù)并給出科學(xué)的解釋,是一個值得探討的問題。 討論1:機器行為模仿與解釋 解釋行為是一個比產(chǎn)生行為更為困難的任務(wù),因為幾乎人類所有的行為都是從環(huán)境中學(xué)來的,即刺激反應(yīng)的結(jié)果。并不都像思維和情感這樣的內(nèi)部事件,一臺圖靈機能以一種無法與人類區(qū)別的方式活動,但產(chǎn)生出這樣的行為模仿并不足以模擬人的智能,因為兩者是一個完全不同的問題。解釋必須盡可能清晰地給出潛在的概括,并將它們與某些普遍的原理聯(lián)系起來,這就是認知過程的理解。 如果我們從人工智能技術(shù)的發(fā)展來看,我們可以把人工智能技術(shù)的發(fā)展分為如下階段: ![]() 第一階段,統(tǒng)稱之為“專家學(xué)習(xí)系統(tǒng)”,專家系統(tǒng)是將領(lǐng)域知識和規(guī)則交給機器去搜索。 第二階段,簡稱為“特征工程”,所謂特征工程是講事先定義的特征和答案交給機器去學(xué)習(xí)。 第三階段,是將原始數(shù)據(jù)和標簽交給機器,利用深度神經(jīng)網(wǎng)絡(luò)讓機器自動學(xué)習(xí)特征。在這一階段人工智能取得了驚人的發(fā)展,特別是機器在語音和圖像識別與分類能力方面超過了人類。 當(dāng)前人工智能發(fā)展朝著第四階段的方向發(fā)展,人類只需要將任務(wù)和目標交給機器,機器就可以像人類一樣感知和理解世界,人與人之間或社會會與物理世界自然交互,也就是說在這一階段探索具有人類意識的人工智能系統(tǒng),像人類一樣在廣泛的任務(wù)和環(huán)境中進行學(xué)習(xí)和適應(yīng),實現(xiàn)通用人工智能。 通用人工智能理論上是具有自我意識、自主思考、學(xué)習(xí)計劃、解決問題以及理解復(fù)雜概念的能力,它可以在新的未曾遇到的情景下適應(yīng)并執(zhí)行任務(wù),這需要廣泛的背景知識和常識,還有抽象思維和判斷等人類智能所有的關(guān)鍵特征,這是一個充滿著不確定性的未來目標。 討論2:機器行為面臨的挑戰(zhàn) 人工通用智能現(xiàn)在不僅僅在技術(shù)上面臨著重大挑戰(zhàn),而且還面臨著道德倫理、社會和法律等一系列重大問題。 研究復(fù)雜動態(tài)不確定環(huán)境中的機器行為,存在著兩個基本問題: 一、條件問題,是我們不可能枚舉出一個行為的所有先決條件; 二、分枝問題,是我們不可能枚舉出一個行為有可能產(chǎn)生的所有隱性結(jié)果。 傳統(tǒng)的人工智能基本理論框架是建立在演繹邏輯和語義描述與形式化方法的基礎(chǔ)上,形式化的方法不可能為所有的對象或行為建立模型。 機器行為研究面臨的挑戰(zhàn),就是如何使人工智能系統(tǒng)具有合作性的行為。 德國心理學(xué)家設(shè)計了一個兒童心理學(xué)實驗,實驗中一位一歲半的兒童和媽媽坐在同一個房間的角落里,一位成年人走進房間想打開柜門,他一遍遍的撞擊著柜門,這時神奇的場景發(fā)生了,并沒有人直接向這位孩子求助,也沒有人向他發(fā)出指令,但一歲半的孩子搖搖晃晃走過來,幫助這個成年人打開了柜門。 該實驗試圖想證明孩子可以自發(fā)的幫助別人,但這個實驗卻對人工智能提出了一個重大挑戰(zhàn),我們能否通過理解這個一歲半孩子的腦內(nèi)所想,讓機器人也能具有這樣的智能性、靈活性與合作性行為? ![]() 這個實驗告訴我們,智能機器不能從工程機器的角度去理解它們,而且要將其視為一系列有自己行為模式及生態(tài)反應(yīng)的個體或機器群體。 另外一個實例,給出一段西安絕句“海棠不惜胭脂色、獨立蒙蒙細雨中”。讓計算機語言理解的程序和人,分別從一個圖像數(shù)據(jù)庫中找出最貼切這段詩的圖像。計算機找出了這樣一幅圖,海棠上掛滿著雨滴,正真是“海棠不惜胭脂色、獨立蒙蒙細雨中”。而人卻給出右邊這幅圖,一位亭亭玉立的少女在蒙蒙的細雨中沒有打傘,行走在幽靜的小道上。被測試的人在內(nèi)心把這位少女比作海棠,在這樣的雨天這位少女全然不顧風(fēng)雨的存在。人類理解詩歌往往是在內(nèi)心深處將想象力帶入現(xiàn)實,通過自身的認知去欣賞。 ![]() 這首西安絕句是宋代詩人陳與義所寫的《春寒》,當(dāng)時金兵入侵,南宋小朝廷處于山河破碎風(fēng)飄絮,詩人南渡避難,借助在巴陵友人的后院,自號“園公”。2月的巴陵幾乎天天下雨,料峭的春寒還未結(jié)束,此時詩人流離失所,漂泊無依,不由地聯(lián)想起自身的境遇進行感懷,寫下了這首詩。 在這里,我們看到一幅圖像到了人類觀察者的腦中,在他的內(nèi)心深處將想象力帶入了現(xiàn)實,圖像變成了生動的場景故事。這里簡單的語言與圖像的聯(lián)想,說明許多重要的AI應(yīng)用,例如機器視覺和自然語言理解需要大量對世界的認識信息。 為此,計算機需要掌握知識,這是幾乎所有AI研究者都同意的觀點。想象是人的一種虛構(gòu)的能力,也就是人可以想象不存在事物的能力,但如何更加有效地把知識傳授給機器人,依然是我們今天面臨的一大挑戰(zhàn)。 討論3:機器行為的研究范圍 諾貝爾獎獲得者西蒙教授,在《人工科學(xué)》這本書中指出:自然科學(xué)是關(guān)于自然體和自然現(xiàn)象的科學(xué)知識,也有人工科學(xué)關(guān)于人工物體和人工現(xiàn)象的知識。 ![]() 如今,大量的智能機器應(yīng)用于人類社會的各個角落,幾乎所有層面。機器行為研究關(guān)注的是智能機器,而非傳統(tǒng)的機械。它的研究范圍有:機器行為生成的人工設(shè)計,智能體如何憑借經(jīng)驗產(chǎn)生行為。還有機器行為的可解釋性,智能體如何根據(jù)場景響應(yīng)機器行為。 機器行為一旦失去監(jiān)督所帶來的潛在危害是什么? 這些問題與智能體和人工智能行為的信任是密切關(guān)聯(lián)的。諾貝爾獎得主、荷蘭動物學(xué)家Tinbergen提出:想要全面地理解一個演化出來的特性,我們需要回答四個問題: ![]() 1、行為生成的機制,智能體生成行為的機制基于其算法和執(zhí)行環(huán)境的特點,我們利用可解釋性技術(shù)可以來理解特定行為模式背后的特定機制; 2、行為的發(fā)展,智能體的行為是隨著時間的推移而發(fā)展,這就需要研究機器是如何獲得特定個體或機體行為。行為發(fā)展可以是工程選擇的結(jié)果,也可能是來自智能體的經(jīng)驗; 3、行為的功能,行為分析需要了解特定行為是如何影響智能體全生命周期功能,研究行為對智能體特定功能的影響; 4、行為的進化,智能體容易受到進化歷史和與其他智能體交互的影響,從這個角度來看,研究機器行為需要關(guān)注智能體的進化。 以上這四個問題就構(gòu)成了演化思維的四個工具,需要強調(diào)的是發(fā)展并不僅僅意味著一種行為的出現(xiàn),而是發(fā)展過程中行為機制的變化。 討論智能個體如何獲得特定的行為,即機器行為的發(fā)展。這里有三個基本的途徑: ![]() 第一個途徑:人類通過算法直接賦予機器行為的發(fā)展; 第二個途徑:利用特定的交互訓(xùn)練,刺激、塑造機器行為; 第三個途徑:機器通過自身的經(jīng)驗獲得某些行為,比如說機器可以通過記憶或強化學(xué)習(xí)等方式自主獲得某種行為的能力。 機器行為的進化過程中,機器行為可以在發(fā)展中與所處環(huán)境和人不斷地交互,朝著環(huán)境和人特定的方向進化。 ![]() 同時由于機器不同于生命體,它的進化可以突破某種生命體的局限性,而且可進化的機器行為可以傳播至群體廣泛的機器行為存在,也可能受到某些限制,阻止其傳播,機器可表現(xiàn)出非常不同于有機進化的軌跡。比如進化后的無人駕駛算法,可以共享至無人駕駛汽車群體,實現(xiàn)行為能力的傳播。 對此,我們對人與智能機器的行為關(guān)聯(lián)做一個小結(jié): 1、機器塑造了人類行為:在社會系統(tǒng)中引入智能機器可以改變?nèi)祟愋袨榈姆绞?,智能機器具有改變社會結(jié)構(gòu)的潛力。 2、人類塑造了機器行為:人類通過對人工智能系統(tǒng)進行主動輸入或被動行為觀察的訓(xùn)練來塑造機器行為,使用算法直接來改變機器的行為。 3、人機混合協(xié)同行為:大多數(shù)人工智能算法在復(fù)雜的混合系統(tǒng)中與人類共存的領(lǐng)域發(fā)揮著重要作用,如何分析和刻畫這類復(fù)雜系統(tǒng)中人機交互的屬性和行為,包括合作、競爭和協(xié)調(diào)都是至關(guān)重要的問題。 討論4:具身智能和行為生成 具身智能是一種機器自主感知環(huán)境、學(xué)習(xí)和理解行動的能力,從生物進化的角度來看,地球上所有智力活動都是生物通過自己的身體與環(huán)境交互后,通過自身學(xué)習(xí)與進化遺留下來的智力遺產(chǎn)。 ![]() 智能是具身化和情境化的,具身智能強調(diào)智能生物的智能化程度和它的身體結(jié)構(gòu)存在著很強的相關(guān)性,也就是說身體不是等待加載算法的機器,而是身體本身應(yīng)該參與算法的進化。 非具身學(xué)習(xí)和具身學(xué)習(xí)對比是有差異的。非具身學(xué)習(xí)一般通過“大模型無監(jiān)督預(yù)訓(xùn)練+小樣本有監(jiān)督微調(diào)”范式訓(xùn)練神經(jīng)網(wǎng)絡(luò),訓(xùn)練得到的深度學(xué)習(xí)模型可以直接部署到不同的硬件環(huán)境,即算法的學(xué)習(xí)獨立于硬件與環(huán)境,性能表現(xiàn)完全取決于模型的泛化能力。而具身學(xué)習(xí)通過在虛擬環(huán)境中訓(xùn)練大模型得到常識表征,在具體場景中通過強化學(xué)習(xí)來完成模型的進化,模型可以在特定的硬件和環(huán)境中完成自主的適配。 ![]() 由于大模型利用了超大規(guī)模的訓(xùn)練數(shù)據(jù),并且包含大量參數(shù),使得它具備了超強的泛化能力與優(yōu)秀的應(yīng)用性能。大模型的具身智能行為生成可以分為兩大部分:一、人機交互;二、系統(tǒng)與環(huán)境的交互在人機交互部分,人與自然語言或圖文信息的形式,將任務(wù)需求輸入到多模態(tài)大模型中,模型對不同形式的輸入進行特征的嵌入后,完成任務(wù)理解和概念推演,并生成知識和決策,最后由機器人生成面向任務(wù)指令的相應(yīng)行為。 ![]() 在系統(tǒng)與環(huán)境交互部分,機器人首先利用自身傳感器,完成對情境的具身感知,然后根據(jù)大模型的學(xué)習(xí)結(jié)果對情境產(chǎn)生行為,最終完成行為的輸出。 討論5:基于表征學(xué)習(xí)與因果推理的具身智能計算框架 要想使機器具有類人的認知能力,首先要建立事件模型,將物體、事件、事實等知識進行有效表征,進而構(gòu)建一個持續(xù)學(xué)習(xí)的系統(tǒng),在解決一個具體任務(wù)時,機器根據(jù)感知數(shù)據(jù)、意識先驗、表征學(xué)習(xí)、知識庫進行推理,尋找完成任務(wù)的最優(yōu)策略。 ![]() 意識先驗的概念比較抽象,當(dāng)你處在一個情景中,試圖去理解它,你會意識到它某些現(xiàn)實層面的情景或過去的經(jīng)歷。意識先驗是在原始輸入和某些更高級表征基礎(chǔ)上形成的抽象層次。 討論6:動態(tài)開放環(huán)境中的人機協(xié)同的具身智能 ![]() 為了讓具身智能表現(xiàn)的更像人類智能,還需要在動態(tài)開放的環(huán)境中強化人機協(xié)同。以往的運動策略學(xué)習(xí)傾向于把人排除在外,僅由試錯、搜索獲得盡可能大的長期累積回報的策略,無法適應(yīng)開放動態(tài)的環(huán)境。 而人在回路的決策學(xué)習(xí),由任務(wù)、目標引導(dǎo)搜索,實現(xiàn)行為決策的類人化。此外,還可以通過嵌入式視覺學(xué)習(xí)、模仿學(xué)習(xí)和交互學(xué)習(xí),引入人的作用。 動態(tài)開放環(huán)境中人機協(xié)同具身智能的一種基本框架。人在回路的人機協(xié)同決策可以使具身智能向人類學(xué)習(xí)。自動駕駛系統(tǒng)通過行為克隆向人類駕駛員學(xué)習(xí),自動駕駛系統(tǒng)通過10個小時的學(xué)習(xí)已具有基本的駕駛行為,但仍然無法避障和應(yīng)對突發(fā)事件。 自動駕駛面臨著哪些挑戰(zhàn)? ![]() 自動駕駛是開放環(huán)境中一類重要典型具身智能系統(tǒng),在復(fù)雜交通環(huán)境下,自動駕駛安全要有可靠的駕駛行為。 首先,它需要解決復(fù)雜交通場景中的“周密感知”,無論天氣或照明情況如何,必須在所有條件下檢測道路特征。 其次,它需要進行“預(yù)行為”的理解,因為人類駕駛員都是根據(jù)預(yù)行為傳達行駛意圖。 再次,它需要對“意外遭遇”做出應(yīng)對,而簡單的基于規(guī)則的自動駕駛不可能提前為每個場景編碼。 最后,“網(wǎng)絡(luò)安全”,如軟件的漏洞或黑客的惡意行為等等。 自動駕駛行為是如何生成的? ![]() 首先,系統(tǒng)結(jié)合經(jīng)驗與常識、場景理解以及交通態(tài)勢評估,并利用模型對結(jié)構(gòu)化道路場景和非結(jié)構(gòu)化道路場景進行預(yù)訓(xùn)練,生成導(dǎo)航路徑。 隨后,基于具身智能完成目標狀態(tài)采樣、待選運動路徑生成和最優(yōu)運動路徑選擇,進行運動規(guī)劃,最后生出合理的、可執(zhí)行的駕駛行為。 重點討論自動駕駛行為決策,將思維抽象為符號計算對人工智能的發(fā)展產(chǎn)生了重大的推動作用,但為所有的交通對象建立模型是不可能的。 帶來這些困難的一個直接原因是:許多交通場景的復(fù)雜性和動態(tài)性,并不都是可觀測和可控的,行駛過程中對異常情況的處理能力,是無法通過事先大量樣本訓(xùn)練得到,而且也無法獲得大量的負樣本,交通事故就是一大類負樣本,而人類駕駛員開車是將車外的無窮狀態(tài)空間約簡為動態(tài)變化的“可行駛”的“二域狀態(tài)空間”,自動駕駛行為決策就是要尋找一個可行駛區(qū)域。 因此,從認知層面要解決的問題,就是如何把復(fù)雜未知的現(xiàn)實世界,變化成有限空間環(huán)境的語義理解,我們把它稱之為一種直觀的理解。 怎樣定義自動駕駛這個問題? 需要把場景感知和情景認知區(qū)別開來。 ![]() 所謂場景是指某個交通場合在一個特定的時間和特定的空間中,具體情景或景象,可以定義為一種實體,當(dāng)然這種實體的描述是通過傳感器的數(shù)據(jù)來獲得的。 情境是指某一段時間和空間許多具體情形的概括,情境的境是指構(gòu)成和隱含在場景中,相互交織的因素及其相互之間的關(guān)系,所以情境計算是對場景中各個對象在空間的行為交互關(guān)系解釋,交通場景中各種物體或?qū)ο罂臻g關(guān)系和行為的描述在自動駕駛中就顯得非常重要了。 如何發(fā)展一種具有進化的、自主學(xué)習(xí)的自動駕駛系統(tǒng)? 需要從認知的角度去了解人類駕駛員是如何注意并獲取交通環(huán)境信息的。而交通環(huán)境信息是如何在大腦中存儲和加工的,特別是在產(chǎn)生駕駛行為的背后存在怎樣的內(nèi)部表征。 ![]() 首先,我們來看看人類駕駛員如何注意并獲取交通環(huán)境的信息。在交通場景認知的選擇性注意中,目標的重要性是一種高級屬性,它包含目標的物理屬性、運動屬性、行為屬性。 其次,我們以交通場景的注意、記憶和學(xué)習(xí)過程為例,簡單討論人類對交通場景認知的加工機制。人的大腦對感覺記憶中的一些特定信息的注意即選擇,對注意到的信息進行組織,再通過學(xué)習(xí)在短期記憶中建立聯(lián)系,將長期記憶的信息傳遞到短期記憶,以連接傳入的數(shù)據(jù),即整合。最后將短期記憶的內(nèi)容進行編碼,轉(zhuǎn)換為長期記憶。 在組織、整合與編碼之間存在著交互機制,實際上人在知道發(fā)生了什么之前,他的注意力已被顯著性對象所捕獲,人類駕駛員對交通場景的理解是在記憶和先驗知識的基礎(chǔ)上進行的模式匹配。 自動駕駛算法需要在一定程度上引入人類對交通場景認知的加工機制,人類對變化非常敏感,突然變化,比如說顏色、紋理、大小、位置、運動,對注意力影響最大。 注意機制已經(jīng)成為構(gòu)建自動駕駛AI架構(gòu)的靈感來源。 產(chǎn)生駕駛行為的背后存在怎樣的內(nèi)部表征問題? 人類駕駛員在駕駛過程中是將車窗外無窮狀態(tài)空間約簡為動態(tài)變化的“可行駛”和“不可行駛”的“二域狀態(tài)空間”,并根據(jù)常識和交通規(guī)則,以及對交通場景的感知來產(chǎn)生相應(yīng)的駕駛行為。 ![]() 因此,自動駕駛需要對交通環(huán)境進行分層的認知表征,它們分別是空間定位層、行為模型層、知識策略層和任務(wù)驅(qū)動層,這樣就可以從認知的層面將復(fù)雜、未知的現(xiàn)實世界變換成有效的自覺物體的語義推理。 如何構(gòu)建自動駕駛環(huán)境的“認知地圖“? 構(gòu)建自動駕駛認知地圖需要包括車輛、交通標識、障礙物、行人等構(gòu)成的可行駛區(qū)域的基本屬性。同時要有遞歸網(wǎng)絡(luò)所學(xué)習(xí)到的關(guān)于預(yù)注意機制、駕駛意圖等高級認知屬性,把車輛當(dāng)前狀態(tài)與交通知識作為認知地圖的一部分。 ![]() 要根據(jù)場景動態(tài)的變化,來形成實踐上的認知地圖的訓(xùn)練。依賴認知地圖就可以使自動駕駛系統(tǒng)從類人的角度去理解交通場景正在發(fā)生的動態(tài)隨機變化。 這里進一步給出一種具有選擇性注意機制的自動駕駛認知計算實現(xiàn)架構(gòu)。在這個計算架構(gòu)中,利用卷積神經(jīng)網(wǎng)絡(luò)提取場景的顯著性空間特征,這些特征與先驗知識相結(jié)合,形成一種對時間可視化認知地圖,通過長短期記憶的注意機制,界定認知地圖中物體間的關(guān)聯(lián),然后通過價值迭代模型將對環(huán)境的認知映射到行為空間,給出行駛決策。 仿真測試也是自動駕駛重要的關(guān)鍵技術(shù)之一,自動駕駛汽車在大規(guī)模商業(yè)化應(yīng)用前需要進行大量的測試,相關(guān)研究報告指出:在不犯錯誤的情況下,自動駕駛汽車需要行駛4.4億公里,才能證明其在車禍致死率和人類駕駛員的水平相當(dāng)。 ![]() 假設(shè)由100輛自動駕駛汽車,每天測試24小時,一年測試365天,測試平均時速60公里每小時,需要耗時8.37年。相當(dāng)于一輛車在地球與月球之間往返572次,顯然采用實際道路測試將耗費大量時間。而仿真測試可以提供一種高效率、低成本的自動駕駛測試。 作為自動駕駛重要的關(guān)鍵技術(shù),仿真測試需要關(guān)注的一大挑戰(zhàn)為異常交通場景的感知與處理,由于異常交通場景出現(xiàn)概率低、缺乏測試數(shù)據(jù),因此需要利用圖形學(xué)、計算機視覺生成多樣化測試數(shù)據(jù),在仿真環(huán)境中對自動駕駛車輛進行充分快速的測試驗證。 這里我們給出了一種基于大模型的自動駕駛仿真技術(shù)的基本框架,應(yīng)用機器學(xué)習(xí)可以生成多樣性交通場景來評價自動駕駛系統(tǒng)在不同交通場景下的駕駛性能,如安全性、舒適性、協(xié)調(diào)性,以及算法的可靠性,以及是否遵守相關(guān)法律法規(guī)。該基本框架由數(shù)據(jù)集包括注入的真實傳感器數(shù)據(jù)、機器場景描述、測試場景分類、典型場景選擇與表征、典型場景生成,包含一些副樣本等五大部分組成。 ![]() 這里是自動駕駛仿真系統(tǒng)測試生成多樣性交通場景,如前車變道,對交通場景標識識別,夜間會車,以及前方突然出現(xiàn)行人。我們團隊開展自動駕駛研究二十余年,走到今天我們?nèi)〉昧撕艽蟮倪M步,但實現(xiàn)完全自動駕駛依然是一個令人興奮而又望而生畏的艱難挑戰(zhàn)。 ![]() 最后給出一個移動智能體在開放環(huán)境下基于視覺和激光雷達生成導(dǎo)航路徑的短視頻。 今天我的報告就到這里,謝謝大家! |
|