日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

AI眼中的世界是什么樣子?谷歌新研究找到了機器的視覺概念

 長沙7喜 2019-10-20

選自arXiv

作者:Amirata Ghorbani等
機器之心編譯
參與:魔王
來自斯坦福大學和谷歌大腦的研究人員為基于概念的解釋方法提出了一些原則和要求,在整個數(shù)據(jù)集上識別更高層次的人類可理解概念。此外,研究者還開發(fā)了一種可以自動提取視覺概念的新型算法 ACE。
  • 論文地址:https:///pdf/1902.03129.pdf

  • GitHub 地址:https://github.com/amiratag/ACE

隨著機器學習模型廣泛用于制定重要決策,可解釋性成為研究領(lǐng)域的重要主題。目前大多數(shù)解釋方法通過特征重要性得分來提供解釋,即識別每個輸入中重要的特征。然而,如何系統(tǒng)性地總結(jié)和解釋每個樣本的特征重要性得分是很有難度的。近日,來自斯坦福大學和谷歌大腦的研究人員為基于概念的解釋提出了一些原則和要求,它們超出了每個樣本的特征(per-sample feature),而是在整個數(shù)據(jù)集上識別更高層次的人類可理解概念。研究者開發(fā)了一種可以自動提取視覺概念的新型算法 ACE。該研究進行了一系列系統(tǒng)性實驗,表明 ACE 算法可發(fā)現(xiàn)人類可理解的概念,這些概念與神經(jīng)網(wǎng)絡(luò)的預測結(jié)果一致且非常重要。
機器學習模型的可解釋性
機器學習模型預測的可解釋性已經(jīng)成為一項重要的研究課題,在某些案例中更是成為法律要求。工業(yè)界也將可解釋性作為「負責任地使用機器學習」的一個主要組成部分,可解釋性并非屬于「錦上添花」,而是「不可或缺」。
機器學習解釋方法的大部分近期文獻圍繞深度學習模型展開。專注于為機器學習模型提供解釋的方法通常遵循以下常規(guī)操作:對模型的每個輸入,用移除(zero-out、模糊處理、shuffle 等)或擾動的方式改變單個特征(像素、子像素、詞向量等),以逼近用于模型預測的每個特征的重要性。這些「基于特征」的解釋方法存在多個缺陷。一些研究嘗試證明這些方法并不可靠 [14, 3, 15]。
因此,近期很多研究開始以高級人類「概念」的形式提供解釋 [45, 20]。這類方法不為單個特征或像素分配重要性,它們的輸出就揭示了重要概念。
谷歌大腦的研究貢獻
來自斯坦福大學和谷歌大腦的研究者列舉了基于概念的解釋方法應(yīng)該滿足的幾項通用原則,并開發(fā)了一種系統(tǒng)框架來自動識別對人類有意義且對機器學習模型很重要的高級概念。該研究提出的新方法叫做 Automated Concept-based Explanation (ACE),其工作原理是:在不同的數(shù)據(jù)上累積相關(guān)的局部圖像分割部分。研究者將該方法的高效實現(xiàn)應(yīng)用于一種廣泛使用的目標識別模型,并進行量化人類實驗和評估,結(jié)果證明:ACE 滿足基于概念的解釋方法的原則,且能夠為機器學習模型提供有趣的洞察。
方法
解釋算法通常具備三個主要組件:訓練好的分類模型、來自同一個分類任務(wù)的測試數(shù)據(jù)點集合,以及向特征、像素、概念等分配重要性的重要性計算步驟。
該研究提出了一種新方法 ACE。它是一種全局解釋方法,可在無需人類監(jiān)督的情況下在分類器中解釋整個類。
ACE 逐步詳解

圖 1:ACE 算法。

(a) 來自同一類別的圖像集。使用多種分辨率分割每個圖像,形成屬于同一類別的圖像分割部分的集合。(b) 當前最優(yōu) CNN 分類器瓶頸層的激活空間被用作相似度空間。在將每個圖像分割部分的大小重新調(diào)整至模型標準輸入大小后,相似的圖像分割部分被聚集在激活空間中,而異常值則被移除以提升聚類的一致性。(d) 每個概念的 TCAV 重要性得分基于其樣本分割部分計算得出。
ACE 使用訓練好的分類器和某個類別的圖像集作為輸入,然后提取該類別呈現(xiàn)出的概念,并返回每個概念的重要性。在圖像數(shù)據(jù)中,概念以像素組(圖像分割部分)的形式呈現(xiàn)。為了提取類別中的所有概念,ACE 的第一步是分割類別圖像(見圖 1a)。為了從簡單的細粒度概念(如紋理和顏色)和更復雜和粗粒度的概念(如物體部分和物體整體)中捕捉完整的概念層次,每個圖像都按照多個分辨率進行分割。實驗使用了三種不同的分辨率來捕捉三種層次的紋理、物體部分和物體整體。
ACE 的第二步是,將相似的分割部分歸類為同一個概念的示例。為了衡量這些圖像分割部分的相似性,研究者使用 [44] 的結(jié)果證明,在大型數(shù)據(jù)集(如 ImageNet)訓練出的當前最優(yōu)卷積神經(jīng)網(wǎng)絡(luò)中,最后層激活空間中的歐式距離是一種高效的感知相似性度量指標。然后將每個圖像分割部分傳輸?shù)?CNN,并映射至激活空間。執(zhí)行映射后,使用圖像分割部分之間的歐式距離將相似部分聚類為同一個概念的示例。為了保存概念一致性,移除每個簇中的異常部分,這些圖像分割部分具備較低的相似性(見圖 1b)。
ACE 的最后一步是從上一步得到的概念集合中返回重要的概念。該研究使用 TCAV [20] 基于概念的重要性得分(見圖 1c)。
實驗和結(jié)果
研究者使用 ACE 解釋在 ILSVRC2012 數(shù)據(jù)集(ImageNet)上訓練得到的 Inception-V3 模型。研究者從 1000 個類別中選出 100 個類的子集,并對其應(yīng)用 ACE。
在實驗中,50 張圖像足以提取出足夠多的概念示例,這可能是因為這些概念頻繁出現(xiàn)在圖像中。圖像分割步驟使用 SLIC 來執(zhí)行,因為其速度和性能在使用 3 種分辨率進行圖像分割時都表現(xiàn)不錯(15、50 和 80)。至于相似性度量,研究者檢測了 Inception-V3 架構(gòu)多個層的歐式距離,最終選擇了 mixed_8 層。正如之前研究 [20] 所介紹的那樣,前面的層更擅長紋理和顏色的相似性度量,后面的層更擅長物體層次的相似性度量,而 mixed_8 層實現(xiàn)了最佳的權(quán)衡。聚類時采用 k 折聚類,并利用歐式距離移除異常部分。
結(jié)果

圖 2:ACE 對三個 ImageNet 類的輸出。從每個類別的 top-4 重要概念中隨機選取了三個(下面是原圖,上面是從中分割出的示例)。例如,我們可以看到網(wǎng)絡(luò)分類器 police van 使用了警車的輪胎和 logo。

圖 5:對模型的洞察。每個圖像上方的文本表示原始類別以及我們對提取概念的主觀解釋,如「Volcano」類和「Lava」類。a)直觀關(guān)聯(lián)。b)非直觀關(guān)聯(lián)。c)一個物體的不同部分被作為多個獨立卻重要的概念。

圖 6:組合重要概念。

研究者測試,如果隨機組合多個重要概念,分類器會從中看到哪種類別。結(jié)果發(fā)現(xiàn),對于大量類別而言,隨機組合重要概念后,分類器仍將該圖像預測為正確類別。例如,籃球衣、斑馬紋、獅子魚和王蛇的圖像塊足以使 Inception-V3 網(wǎng)絡(luò)正確預測其類別。

圖 4:重要性。

從 ImageNet 驗證集中隨機采樣 1000 個圖像,研究者從最重要的概念中移除或添加概念。如圖所示,top-5 概念足以使分類結(jié)果達到原始分類準確率的 80%,而移除 top-5 概念則導致 80% 的正確分類樣本遭到誤分類。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多