來源:cs.princeton.ed 編輯:小芹、大明 【新智元導(dǎo)讀】普林斯頓大學(xué)教授最新報告《如何區(qū)分AI“萬靈假藥”》近日火了,很多宣稱采用AI算法預(yù)測社會后果的技術(shù),實際不比線性回歸模型好多少。你怎么看AI“萬靈假藥”?來新智元 AI 朋友圈和AI大咖們一起討論吧。AI不是萬靈藥,但越來越多的人把它說成是萬靈藥,在這些人的鼓吹下,更多的人可能真的會把AI當(dāng)成萬靈藥。 那么,如何在周圍人都在吹的氛圍下冷靜下來,分辨真假?近日,普林斯頓大學(xué)計算機系A(chǔ)rvind Narayanan副教授撰寫了一份報告,題目就是《如何區(qū)分AI“萬靈假藥”》。 
報告全文要點如下: 1、有很多與AI無關(guān)的東西都被打上AI標(biāo)簽,目前已經(jīng)誕生的真正的、有社會影響力的AI技術(shù)無意間充當(dāng)了這些冒牌貨的保護(hù)傘。 2、很多宣稱采用AI算法的技術(shù)涉及對社會后果的預(yù)測。事實是,我們并不能預(yù)測未來,但當(dāng)涉及AI時,這個常識似乎就我們無視了。 3、在風(fēng)險行為預(yù)測上,手動評分要比AI評分靠譜得多。比如違規(guī)駕駛,人工計分,到一定程度吊銷駕照,這個計分還是要交給人來做。 作者首先舉了個例子。下邊這個網(wǎng)站宣稱,只用一段30秒的短視頻,就能評估出你的職業(yè)前途和工作的穩(wěn)定程度。聽起來是不是很神奇?只要拍一段視頻傳上去,網(wǎng)站就會自動評估出多個指標(biāo),可視化呈現(xiàn)后給出一個綜合評分。 
它聲稱,評估分?jǐn)?shù)結(jié)果和視頻中的你說的內(nèi)容甚至都沒關(guān)系,完全是AI算法根據(jù)肢體語言、講話的方式和風(fēng)格這些東西得出的。 而實際上,這只是個加了外殼的“隨機數(shù)生成器”。你的職業(yè)是否穩(wěn)定,全看運氣。 為什么這種包裝成AI的假貨這么多? 第一、 現(xiàn)在的“AI”是個時髦的保護(hù)傘,和AI沾邊可以提升身價。 第二、 一些AI技術(shù)確實實現(xiàn)了真正的、獲得大眾認(rèn)可的巨大進(jìn)步。 第三、 大部分群眾不懂AI,企業(yè)可以把任何東西貼上AI標(biāo)簽,再賣出去。 這個例子只是說明在HR領(lǐng)域的問題,實際上在其他領(lǐng)域內(nèi),這種對AI技術(shù)的故意夸大的現(xiàn)象可能更嚴(yán)重。在這份報告中,作者將現(xiàn)在的AI應(yīng)用模式大體分為3類。 第一類:認(rèn)知類AI技術(shù)。主要包括內(nèi)容識別(包括反圖片搜索)、人臉識別、基于醫(yī)療影像的輔助診斷、文本-語音轉(zhuǎn)換,以及DeepFake等。作者認(rèn)為,這類技術(shù)基本上屬于貨真價實的快速技術(shù)進(jìn)步,甚至DeepFake的過于逼真表現(xiàn)還引發(fā)了人們在道德上的擔(dān)憂。 作者認(rèn)為,這類AI技術(shù)造假或吹??臻g不大的主要原因是結(jié)果和判斷標(biāo)準(zhǔn)的確定性。無論是人臉識別還是文本-語音轉(zhuǎn)換,其對錯標(biāo)準(zhǔn)是非常明確的。 第二類:自動化判斷類AI技術(shù)。包括垃圾郵件檢測、盜版內(nèi)容檢測、論文自動評分、內(nèi)容推薦等。這類應(yīng)用盡管還遠(yuǎn)遠(yuǎn)稱不上完善,但是正在進(jìn)步,應(yīng)用前景在逐步拓寬。 對于這類AI來說,判斷標(biāo)準(zhǔn)開始變得有些模糊,一篇文章寫得好不好,一封電郵是不是垃圾郵件,對于這些問題,不同的人可能會有不同的看法,AI會逐步學(xué)習(xí)人類的判斷和推理方式,但往往免不了犯錯。 第三類:社會后果預(yù)測類AI。包括職業(yè)表現(xiàn)預(yù)測、慣犯行為預(yù)測、政策預(yù)測、恐怖襲擊預(yù)測等。作者認(rèn)為,這類AI基本上其真實性都是值得懷疑的。 作者認(rèn)為,在我們自己尚且不能預(yù)測未來的情況下,卻要把這個任務(wù)交給AI,并根據(jù)結(jié)果來制定政策,這種選擇有違常識,而且很可能造成不良后果。 AI預(yù)測社會后果?效果比線性回歸好不了多少
第三類AI應(yīng)用有關(guān)預(yù)測社會后果,它們大多數(shù)時候從根本上就是可疑的:
預(yù)測犯罪慣犯 預(yù)測工作表現(xiàn) 預(yù)測警務(wù) 預(yù)測恐怖主義風(fēng)險 預(yù)測問題兒童 本文也主要集中在第三類AI應(yīng)用,因為這部分騙子最多。前面展示了一些工具,聲稱可以用來預(yù)測工作適合性。同樣,保釋決定是基于對累犯的算法預(yù)測做出的。此外,依據(jù)一種分析社交媒體帖子并預(yù)測恐怖主義風(fēng)險的算法,有人在邊境被拒之門外。這些問題很難,因為我們無法預(yù)測未來。這應(yīng)該是常識。但當(dāng)人工智能涉足其中時,人們似乎決定要擱置常識。Shazam(一款音樂識別應(yīng)用) 反向圖片搜索 人臉識別 基于醫(yī)學(xué)成像的醫(yī)療診斷 語音轉(zhuǎn)文本 Deepfakes
垃圾郵件檢測 版權(quán)侵犯 自動論文評分 仇恨語音檢測 內(nèi)容推薦
預(yù)測累犯 預(yù)測工作成功 預(yù)測警務(wù) 預(yù)測恐怖主義風(fēng)險 預(yù)測問題兒童 當(dāng)然,這與AI的用途(所有的機器人技術(shù)、游戲……不在此列)相去甚遠(yuǎn)。然而,重點是說明對于不同類型的任務(wù),精度的限制在數(shù)量和質(zhì)量上是如何不同的。接下來將展示,第三類應(yīng)用中不管投入多少數(shù)據(jù),都并沒有真正的改進(jìn)。 普林斯頓大學(xué)社會學(xué)家Matthew Salganik等人此前發(fā)布《脆弱家庭與兒童福利研究》,涉及457名研究人員,并形成了一個數(shù)據(jù)集,開展機器學(xué)習(xí)挑戰(zhàn)賽。“脆弱家庭(未婚家長與孩子組成的家庭)與孩子福利”項目跟蹤研究了1998-2000年出生在美國大城市的近5000名兒童(大約四分之三是未婚父母所生),這些兒童所在的“家庭”比普通家庭面臨更大的分裂和貧困的危險。研究圍繞四個方面展開:(1)未婚父母,尤其是父親的條件和能力是什么?(2)未婚父母關(guān)系的本質(zhì)是什么?(3)這些家庭出生的孩子是怎樣生活的?(4)政策和環(huán)境條件如何影響這樣的家庭和兒童? 該項目的人口研究數(shù)據(jù)檔案辦公室公開提供六組相關(guān)數(shù)據(jù)。 據(jù)我所知,這是衡量社會結(jié)果可預(yù)見性的最嚴(yán)格的努力。 他們收集了關(guān)于每個孩子和家庭的大量數(shù)據(jù),這些數(shù)據(jù)是基于多年來的深入訪談和多次重復(fù)的家庭觀察得出的。脆弱家庭挑戰(zhàn)賽(FFC)的設(shè)置與許多其他機器學(xué)習(xí)競賽類似。任務(wù)是基于訓(xùn)練實例學(xué)習(xí)背景數(shù)據(jù)與結(jié)果數(shù)據(jù)之間的關(guān)系。比賽期間以準(zhǔn)確性排行榜進(jìn)行評估,并在比賽結(jié)束后基于留存數(shù)據(jù)進(jìn)行評估。從出生到9歲的所有背景數(shù)據(jù),以及15歲的一些訓(xùn)練數(shù)據(jù),他們的任務(wù)是準(zhǔn)確預(yù)測以下關(guān)鍵類別的結(jié)果:完美預(yù)測對應(yīng)于決定系數(shù)R^2趨近于1。預(yù)測每個實例的平均值對應(yīng)于R^2趨近于0(即模型根本沒有學(xué)會區(qū)分實例)。大多數(shù)人的直覺認(rèn)為R^2的值在0.5到0.8之間。許多組織這次挑戰(zhàn)的專家都抱有很高的期望。然而,實際結(jié)果卻令人大失所望:R^2的值介于0.03到0.23之間。要知道:數(shù)百名專業(yè)的的AI/ML研究人員和學(xué)生參與了挑戰(zhàn),他們被激勵去最大化預(yù)測的準(zhǔn)確性,而且,每個家庭都被賦予了1.3萬個特征。這些是表現(xiàn)最好的模型。相比之下,只有4個變量的線性回歸模型,所得到的結(jié)果并不比AI模型差多少(上圖綠色線)。這是癥結(jié)所在?;貧w分析已經(jīng)有一百年的歷史了。同樣的發(fā)現(xiàn)在其他許多領(lǐng)域都有。上圖是一個“預(yù)測再次犯罪”的AI。注意這是正確率,而不是R^2,所以65%只比隨機稍好一點。實際的準(zhǔn)確性可能更低,因為雖然這個工具聲稱可以預(yù)測累犯,但實際上它預(yù)測的是再次被逮捕,因為這是有數(shù)據(jù)記錄的。因此,至少算法的一些預(yù)測性能來自于能夠預(yù)測的警務(wù)偏差。觀點:在預(yù)測社會后果方面,人工智能并不比僅使用幾個特征的人工評分好多少。這是一個可以證偽的觀點。當(dāng)然,如果出現(xiàn)相反的證據(jù),我愿意改變我的想法,或者給這個說法加上適當(dāng)?shù)恼f明。但鑒于目前的證據(jù),這似乎是最謹(jǐn)慎的觀點。駕照上的扣分可以被看作是預(yù)測事故風(fēng)險的一種方法。一些研究發(fā)現(xiàn),這樣的系統(tǒng)校準(zhǔn)得相當(dāng)好。我們早就知道,在很多領(lǐng)域,如果我們真正想做的只是預(yù)測(通常不是),那么簡單的公式比人類的預(yù)測更準(zhǔn)確,即使是經(jīng)過多年訓(xùn)練的專家。Daniel Kahneman 解釋說,這是因為人類的預(yù)測往往是“嘈雜的”:給定相同的輸入,不同的人(甚至是同一個人在不同的時間)會做出截然不同的預(yù)測。使用統(tǒng)計公式則消除了噪音。與人工評分規(guī)則相比,人工智能預(yù)測有很多缺點。最重要的是缺乏可解釋性。想象一下這樣一個系統(tǒng),當(dāng)你每次被交警攔下時,交警將你的數(shù)據(jù)輸入電腦,而不是從駕照上扣分。大多數(shù)時候你可以自由駕駛,但突然某天,黑盒系統(tǒng)告訴你,你不能再開車了。不幸的是,我們今天在很多領(lǐng)域都有這樣的系統(tǒng)。人工智能擅長某些任務(wù),但無法預(yù)測社會后果。 我們必須抵制意圖混淆這一事實的巨大商業(yè)利益。 在大多數(shù)情況下,手動評分規(guī)則同樣準(zhǔn)確,更加透明,值得考慮。
|