近日,MIT-IBM 沃森人工智能實(shí)驗(yàn)室的研究人員在計算機(jī)視覺識別算法相關(guān)研究中取得突破,他們使用的訓(xùn)練視頻識別模型的新技術(shù),不僅比目前最先進(jìn)的方法快三倍,還成功縮小了最先進(jìn)的計算機(jī)視覺模型,這就意味著,人們已經(jīng)可以在處理能力非常有限的手機(jī)或其他設(shè)備上運(yùn)行視頻識別模型。 深度學(xué)習(xí)(deeplearning)是機(jī)器學(xué)習(xí)的一個分支,它幫助電腦在某些定義明確的視覺任務(wù)上超越人類。而視覺識別是深度學(xué)習(xí)的最廣泛應(yīng)用之一。計算機(jī)視覺算法目前可以分析醫(yī)學(xué)圖像、賦能自動駕駛汽車和人臉識別。但隨著這項(xiàng)技術(shù)擴(kuò)展到識別視頻和真實(shí)世界的事物時,訓(xùn)練模型就變得越來越大,計算量也越來越大。 據(jù)估計,訓(xùn)練一個視頻識別模型比訓(xùn)練一個圖像分類模型需要多 50 倍的數(shù)據(jù)和 8 倍的處理能力。隨著對訓(xùn)練深度學(xué)習(xí)模型處理能力的需求呈指數(shù)級增長,以及人們對人工智能的巨大碳排放的擔(dān)憂與日俱增,這已經(jīng)成為了重要的問題。另外,在低功耗移動設(shè)備上運(yùn)行大型視頻識別模型仍然是一個挑戰(zhàn),許多人工智能應(yīng)用程序正朝著這個方向發(fā)展。 麻省理工學(xué)院電子工程與計算機(jī)科學(xué)系(EECS)助理教授韓松所帶領(lǐng)的團(tuán)隊(duì),正通過設(shè)計更高效的深度學(xué)習(xí)模型來解決這個問題。 (來源:麻省理工科技評論) 他們在一篇被 ICCV2019 接收的論文中概述了一種縮小視頻識別模型的方法,可加快智能手機(jī)和其他移動設(shè)備上的視覺識別模型訓(xùn)練,并提高運(yùn)行時的性能,成功將最先進(jìn)模型中的 1.5 億個參數(shù)減少到 2500 萬個,模型縮小到原來的六分之一。 基礎(chǔ)的圖像和視頻識別模型是神經(jīng)網(wǎng)絡(luò),它大致模擬了大腦處理信息的方式。無論是數(shù)碼照片還是視頻圖像序列,神經(jīng)網(wǎng)絡(luò)都會在像素中尋找模式,并為它們看到的東西構(gòu)建一個抽象的表示。通過足夠多的例子,神經(jīng)網(wǎng)絡(luò)“學(xué)習(xí)”識別人、物體以及它們之間的關(guān)系。通常,視頻識別算法會將視頻分割成圖像幀,并在每個幀上運(yùn)行識別算法。然后,它通過觀察對象在隨后每幀中的變化,將視頻中顯示的動作拼接在一起。該方法要求算法“記住”它在每一幀中看到的內(nèi)容,以及它看到這些內(nèi)容的順序。這很低效,而且沒有必要。 在新的方法中,算法提取每一幀對象的基本草圖,并將它們疊加起來,算法可以通過觀察草圖中物體在空間中的移動來獲得時間流逝的印記,而不用記住什么時候發(fā)生了什么。該模型在識別某些視頻數(shù)據(jù)集中的行為方面,表現(xiàn)優(yōu)于其他模型。 研究人員發(fā)現(xiàn),這種訓(xùn)練視頻識別模型新方法的速度是現(xiàn)有方法的三倍。在最近的一次演示中,它還能通過耗電很小的一臺小型電腦和一臺照相機(jī)來快速識別手勢。 |
|