對話François：AI在游戲里打敗了人類就算大新聞？可能我們都錯了

楚科奇0118 2020-03-20

展開全文

大數(shù)據(jù)文摘出品

來源：theverge

編譯：lin、木槿、夏雅薇

衡量AI的智能程度是計算機科學(xué)領(lǐng)域中最為棘手和最重要的問題之一，如果你不知道自己建造的機器是否比昨天更聰明，那如何知道自己正在取得進展呢？

乍一看，這似乎不是一個問題。有人會說顯然人工智能正在變得更加智能，你只需要看該領(lǐng)域涌入的金錢和人才。歷史里程碑上記錄著人工智能在圍棋上擊敗人類，現(xiàn)如今滿大街都是可以解決十年前問題的應(yīng)用程序，比如圖像識別。這難道不是進步嗎？

智能對于AI到底意味著什么？

還有人說這些成就并不是衡量智能化程度的好標(biāo)準(zhǔn)，在國際象棋和圍棋上擊敗人類確實令人印象深刻，但是如果最聰明的計算機只會解決小孩或者老鼠能解決的問題，這樣的成就又有什么意義呢？

這是一位叫做Fran?ois Chollet的AI研究人員提出的批評意見，他是谷歌的軟件工程師和機器學(xué)習(xí)社區(qū)中的知名人士，他創(chuàng)建了Keras，Keras是一種廣泛使用的程序，可用于開發(fā)神經(jīng)網(wǎng)絡(luò)（當(dāng)代AI的精髓）。他還撰寫了許多有關(guān)機器學(xué)習(xí)的教科書，并維護了一個受歡迎的Twitter供稿，在其中分享他在該領(lǐng)域的觀點。

他在最近發(fā)表一篇題為“關(guān)于智能的度量”論文中提出一個觀點，人工智能領(lǐng)域需要重新關(guān)注什么是智能，什么不是智能；如果想在通用人工智能方面取得進步，研究人員需要分析諸如電玩游戲和棋盤游戲流行的原因，并且開始思考到底什么技能使人類變得更聰明，例如概括和適應(yīng)能力。

論文鏈接：

https:///abs/1911.01547

在接受The Verge的電子郵件采訪時，他闡述了對這個主題的看法，并解釋為什么他堅信人工智能的成就被歪曲了，我們未來應(yīng)該如何衡量智能以及為什么諸如馬斯克等人講述的超級智能AI的恐怖故事對公眾的影響力如此之大。

為了方便閱讀，我們對這次的采訪進行了不改變原意的編輯，和文摘菌一起來看看吧~

黑色小圓動圖分割線

在你的論文中，你描述了兩種塑造AI領(lǐng)域的不同智能概念，第一種將智能表示為在各種任務(wù)中表現(xiàn)出色；另一種智能則將適應(yīng)性和概括性作為優(yōu)先特質(zhì)，這可以提升AI應(yīng)對新挑戰(zhàn)的能力。哪種概念是目前的主流，對應(yīng)的影響是什么？

人工智能領(lǐng)域的前三十年中，最有影響力的是前者，將智能作為一組靜態(tài)程序和明確的知識庫。目前，智能的概念已經(jīng)有偏向后者的趨勢，在AI社區(qū)中智能概念化的主導(dǎo)方式是“白板”，一個更加貼切的比喻是“新初始化的深度神經(jīng)網(wǎng)絡(luò)”。這個框架幾乎沒有受到挑戰(zhàn)，甚至沒受到審查。這些問題有大概30年的學(xué)術(shù)歷史，而我對這個領(lǐng)域的了解也不是很多，大多數(shù)人都是在2016年以后才進入深度學(xué)習(xí)領(lǐng)域的。

擁有這樣的知識壟斷絕對不是一件好事，特別是對于沒有很好解決的科學(xué)問題。它限制了大家對這個問題的想象空間。研究人員現(xiàn)在才開始意識到這個問題。

在你的論文中，你還提到一個案例，在這個案例里，需要對智能更完善的定義，AI才能提升表現(xiàn)，研究人員專注于研究諸如電玩游戲和棋盤游戲的靜態(tài)測試中的性能好壞。為什么你覺得這種衡量方法不夠智能？

關(guān)鍵在于，你一旦選擇了一個衡量標(biāo)準(zhǔn)，你就會使用一切可以使用的捷徑。比如說你選擇下棋作為智力的衡量標(biāo)準(zhǔn)（從70年代到90年代都是這樣做的），那么最終你得到的是一個會下棋的系統(tǒng)。這對其他事情就沒什么幫助，你最終會進行樹搜索和極大極小化，但是這并不能說明你對人工智能有多了解了。如今，在諸如dota或StarCraft之類的電玩游戲中，將游戲技能作為智能程度的指標(biāo)也陷入了同樣的誤區(qū)。

對人類而言技能和智力是密切相關(guān)的。人腦可以利用智力來獲取特定任務(wù)的技能，一個真正擅長下國際象棋的人會被認(rèn)為非常聰明，因為我們都假設(shè)他們是從零開始，必須利用他們的智力來學(xué)習(xí)下棋。他們不是天生就會下棋，所以我們知道他們可以將這種普遍的智能引導(dǎo)到其他任務(wù)上，并且同樣高效地完成其他任務(wù)，這就是一般性的意義。

機器沒有人的這種限制，機器完全可以被設(shè)計成專門用來下棋的。因此，我們對人類所做的推論（可以下棋，就是聰明的）就被推翻了，我們的擬人化假設(shè)不再適用。通常智能可以生成特定任務(wù)的技能，但是沒有從特殊到普遍的反向路徑。因此，在機器中技能與智能相互獨立，只要你獲取足夠和任務(wù)相關(guān)的數(shù)據(jù)或者足夠的工程資源就可以獲得處理任何任務(wù)的技能，但是這不會讓機器更接近一般智能。

所以問題的關(guān)鍵在于沒有任何一項任務(wù)可以使高技能成為智能的標(biāo)志，除非該任務(wù)實際是一個元任務(wù)，這樣它就涉及到在處理相關(guān)未知問題時獲取新的技能，這正是我提出的智能衡量標(biāo)準(zhǔn)。

當(dāng)前的這些衡量標(biāo)準(zhǔn)無法幫助我們開發(fā)更通用、靈活的AI，那為什么它們還如此受歡迎？

毫無疑問，在特定的知名電子游戲中擊敗人類冠軍的成就主要是這些項目背后的新聞報道推動的。如果公眾對這些令人影響深刻的里程碑不感興趣，那么研究人員也就不會花這么多時間在這些事上。

新聞報道讓我們關(guān)注電玩游戲中的AI。我對此表示悲哀，因為研究應(yīng)該解決開放的科學(xué)問題，而不是過度關(guān)注公關(guān)。如果我打算使用深度學(xué)習(xí)以非常高的水平玩好魔獸爭霸Ⅲ，那么可以肯定的是，只要我有足夠的人才和計算能力就可以實現(xiàn)，類似的任務(wù)大約花費幾千萬美元。

但是一旦完成，我將學(xué)到什么有關(guān)于智力或泛化的知識嘛？沒有，什么都沒有，充其量我會掌握有關(guān)拓展深度學(xué)習(xí)的工程知識。因此，我不會把這看作科學(xué)研究，因為它不會教給我們新知識，也沒有回答尚未解決的問題。如果問題是“我們可以以超人的水平玩X嗎？”，答案是肯定的，只要可以生成足夠密集的訓(xùn)練樣本并將其輸入到具有足夠計算力的深度學(xué)習(xí)模型中就可以，這是我們早就知道的事實（實際上，在Dota2和StarcraftⅡ比賽中，AI尚未奪冠的時候我就說過）。

你認(rèn)為這些項目的實際成就是什么？項目成果多大程度被誤解或歪曲？

我看到的一個明顯的錯誤表述是，這些高技能的游戲系統(tǒng)代表著AI系統(tǒng)的真正進步，可以處理現(xiàn)實世界的復(fù)雜性和不確定性”問題，比如OpenAI在其Dota2機器人玩家OpenAI Five的新聞稿中聲稱的那樣。

事實上他們做不到，如果他們做到了，那將是一個非常有價值的研究領(lǐng)域。以O(shè)penAI Five為例：它一開始就無法處理Dota 2的復(fù)雜性，因為它只被訓(xùn)練了16個角色，無法覆蓋擁有超過100個角色的游戲。它被訓(xùn)練了超過45,000個游戲年，其次請注意訓(xùn)練數(shù)據(jù)需求是如何與任務(wù)復(fù)雜性相結(jié)合而增長-然而最終的模型卻非常脆弱：在AI對公眾開放之后的幾天內(nèi)，非頂級真人玩家就能夠找到了戰(zhàn)勝它的策略。

如果你希望有朝一日能夠處理現(xiàn)實世界的復(fù)雜性和不確定性，你需要開始問一些問題，例如什么是泛化？我們?nèi)绾魏饬亢妥畲蠡瘜W(xué)習(xí)系統(tǒng)的泛化能力？這與在大型神經(jīng)網(wǎng)絡(luò)中投入10倍以上的數(shù)據(jù)和計算才可以將其能力提高一點點完全呈正交性。那么什么方式可以更有效地衡量AI的智能程度呢？

簡而言之，我們需要停止對事先已知的任務(wù)（如國際象棋，Dota或《星際爭霸》）進行技能評估，而應(yīng)開始評估技能習(xí)得能力。這意味著僅給機器未知的新任務(wù)，測量其相關(guān)領(lǐng)域的知識水平，并測量系統(tǒng)的采樣效率（即學(xué)會這個任務(wù)需要多少數(shù)據(jù)）。為了達(dá)到給定的技能水平，所需的信息（先驗知識和經(jīng)驗）越少，系統(tǒng)就越智能。如今的AI系統(tǒng)實際上根本不那么智能。

另外，我認(rèn)為我們對機器智能的測度應(yīng)該更加明確它與人類智能的相似性，因為可能存在不同類型的智能，而當(dāng)我們談?wù)撘话阒悄軙r，我們實際上就是在隱含地談?wù)擃惾说闹悄?。這涉及試圖了解人類天生具有哪些先驗知識。人類擁有著無與倫比的學(xué)習(xí)效率-只需要很少的經(jīng)驗就能掌握新技能-但人類不是從零開始學(xué)的。除了一生積累的技能和知識，他們還利用先天先驗知識。

我最近的論文提出了一個新的基準(zhǔn)數(shù)據(jù)集ARC，它看起來很像IQ測試。ARC是一組推理任務(wù)，其中每個任務(wù)都是通過一小段演示序列（通常是三個）來解釋的，你應(yīng)該從這幾個演示中學(xué)習(xí)如何完成任務(wù)。ARC的立場是，系統(tǒng)用于評估的每個任務(wù)都應(yīng)該是全新的，并且只包含與人類先驗知識相適應(yīng)的知識。例如，它不應(yīng)使用語言。目前，ARC對于人來講是完全可解的，無需任何口頭解釋或事先培訓(xùn)，但迄今為止我們嘗試過的任何AI技術(shù)都無法達(dá)成。這是一個明顯的信號，我們需要新的想法。

如果繼續(xù)在問題上投入更多算力，你覺得人工智能還有發(fā)展嗎？有人認(rèn)為，從歷史上看，這是提高性能的最好方法。而其他人則認(rèn)為，如果我們沿著這條路走下去，很快會看到收益遞減。

如果要執(zhí)行某個特定任務(wù)，算力這條路絕對是正確的。在垂直任務(wù)上投入更多的訓(xùn)練數(shù)據(jù)和計算能力將提高機器解決該任務(wù)的性能。但它不會對如何實現(xiàn)人工智能的通用性有任何貢獻(xiàn)。

如果你有足夠大的深度學(xué)習(xí)模型，并且在任務(wù)的輸入-輸出跨空間的密集采樣中對其進行訓(xùn)練，它將學(xué)會解決任務(wù)的方法-無論是Dota也好，或者StarCraft，你可以為其取名。這非常有價值。在機器感知問題中幾乎具有無限的應(yīng)用。唯一的問題是，所需的訓(xùn)練數(shù)據(jù)量是任務(wù)復(fù)雜度的組合函數(shù)，因此，即使是略微復(fù)雜的任務(wù)也可能變得非常昂貴。

以自動駕駛汽車為例。數(shù)以百萬計的訓(xùn)練情況不足以使端到端深度學(xué)習(xí)模型學(xué)會安全駕駛汽車。這就是為什么還沒有L5自動駕駛的原因。其次，最先進的自動駕駛系統(tǒng)主要是使用深度學(xué)習(xí)將這些人工設(shè)計的模型與傳感器數(shù)據(jù)相連接的符號模型。如果深度學(xué)習(xí)可以泛化，我們也許會在2016年就可以有L5自動駕駛，它會采用大型神經(jīng)網(wǎng)絡(luò)的形式。

最后，考慮到當(dāng)前AI系統(tǒng)的局限性，似乎值得問一下有關(guān)超級智能的概念，有人擔(dān)心功能強大的AI可能在不久的將來對人類造成極大傷害的恐懼。你認(rèn)為這種恐慌是合理的嗎？

我不覺得超級智能的敘述是有根據(jù)的。我們從未創(chuàng)建過一個自主的智能系統(tǒng)。也絕對沒有跡象表明我們可以在可預(yù)見的未來創(chuàng)建一個。（這不是當(dāng)前AI的發(fā)展方向。）而且，即使我們最終在不久的將來創(chuàng)造出了一個，我們也無法推測它可能具有什么特征。打個比方，這有點像在1600年問：“彈道學(xué)發(fā)展這么快！如果我們擁有能消滅整個城市的大炮該怎么辦？我們?nèi)绾未_保它只會殺死壞人？” 這個問題本身就有問題，在缺乏對該系統(tǒng)基本了解的情況下討論這個問題，充其量只是哲學(xué)探討。

這些對于超級智能的恐懼，掩蓋了AI有可能在當(dāng)今變得非常危險的事實。普通的人工智能已經(jīng)有很多隱患了。我寫過關(guān)于使用AI來實現(xiàn)算法推廣系統(tǒng)的文章。其他人寫過算法偏差的危害，以及在武器系統(tǒng)中使用AI或?qū)I作為極權(quán)主義控制工具。

有一個關(guān)于1453年君士坦丁堡被圍困的故事。這座城市在與奧斯曼帝國軍隊作戰(zhàn)時，其學(xué)者和統(tǒng)治者卻在爭論天使的性別。好吧，我們花越多的精力專注討論天使的性別或假設(shè)的超級智能AI的價值取向，我們用來處理當(dāng)今AI技術(shù)所面臨的緊迫問題的精力就越少。一位著名的技術(shù)領(lǐng)導(dǎo)者喜歡將超智能AI描述為對人類的生存威脅。好吧，這些想法會成為頭條新聞，但你卻不討論因部署不夠準(zhǔn)確，自動駕駛系統(tǒng)引起的撞車和人員傷亡等道德問題。

如果真像你所說的目前尚無科學(xué)依據(jù)支持這些言論，那為什么超級智能的說法這么受歡迎？

我認(rèn)為這是一個好故事，人們?nèi)菀妆缓霉适挛?。它與末世論的宗教故事相似并非偶然，因為經(jīng)年累月的不斷發(fā)展和選擇淘汰，宗教故事已經(jīng)可以引起人們的強烈共鳴并形成有效傳播。出于同樣的原因，你也可以在科幻電影和小說中找到這種敘述。它被用在小說中的原因，類似于宗教敘事的原因，也可以用來解釋為什么這變成了AI的一種流行解讀：因為這是一個好故事。人們需要故事來理解世界。對此類故事的需求遠(yuǎn)比了解智能的本質(zhì)需求或了解什么推動技術(shù)進步的需求強得多。