日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

利用海量數(shù)據(jù)識別圖像和語音

 yangmill 2014-01-14
利用海量數(shù)據(jù)識別圖像和語音
深度學習復興:向人工智能邁進

它是未來的一部分,我們才剛剛開始。
圖片來源:BRUCE ROLFF
 
3年前,美國加利福尼亞州山景城神秘的谷歌X實驗室的研究人員從YouTube視頻中提取了1000萬個靜態(tài)圖像,并將其輸入“谷歌大腦”——由1000臺計算機構成的網(wǎng)絡,從而試圖像一個蹣跚學步的孩子一樣吸收這個世界的信息。經(jīng)過3天尋找重復出現(xiàn)的模式后,谷歌大腦憑自身判斷,它可以識別一些特定的重復類別:人類面孔和人類身體,甚至是貓。
 
谷歌大腦發(fā)現(xiàn)互聯(lián)網(wǎng)上到處都是關于貓的視頻,這還曾引起一連串的笑話。不過,谷歌大腦是深度學習復興的一個里程碑。深度學習是一項有著30年歷史的技術,其中大量數(shù)據(jù)和強大的處理能力幫助計算機破解那些人類幾乎可以憑直覺就可解決的難題——從識別人臉到理解語言。
 
深度學習本身是對神經(jīng)網(wǎng)絡這個更老的想法的復興。這些系統(tǒng)的靈感大多來自于大腦中緊密連接的神經(jīng)元,通過改變模擬神經(jīng)連接的強度來模擬人腦學習。谷歌大腦擁有約100萬個模擬神經(jīng)元和10億個模擬連接,比之前任何深度神經(jīng)網(wǎng)絡強度都要高10倍。該項目建立者Andrew Ng目前是加州斯坦福大學人工智能實驗室的負責人,他的開發(fā)已經(jīng)使深度學習系統(tǒng)的強度又提高了10倍。
 
人工智能(AI)領域取得的這些激動人心的進步試圖讓電腦像人類一樣思考。紐約大學數(shù)據(jù)科學中心主任、深度學習領域先驅Yann LeCun說:“人工智能已經(jīng)失敗了無數(shù)次,其間只有少許的進步。如今它實現(xiàn)了一次超越。”
 
“在未來幾年,我們將看到一種瘋狂的情況:很多人會跟隨深度學習的潮流。”加州大學伯克利分校從事圖像識別研究的Jitendra Malik表示同意。但是從長遠看,深度學習并不占上風,一些研究人員正在尋求其他有前景的技術?!拔沂遣豢芍撜??!盡alik說,“隨著時間的推移,人們會決定不同領域的最佳技術?!?/div>
 
初出茅廬
 
Malik稱,初期的深度學習程序并不比其他更簡單的系統(tǒng)有更好的表現(xiàn)。另外,它們還很難處理?!吧窠?jīng)網(wǎng)絡管理一直是一種精妙的藝術,其中有一些黑魔法。”該網(wǎng)絡需要從豐富的事例來源中進行學習,就像一個嬰兒從世界收集信息一樣。在20世紀八九十年代,并沒有太多可用的數(shù)字信息,而且計算機消化這些存在的信息需要很長時間。當時的相關應用很少,LeCun開發(fā)的技術是為數(shù)不多的應用之一,現(xiàn)在還被銀行用于讀取手寫支票。
 
然而到了21世紀,像LeCun和其前任主管、加拿大多倫多大學計算機科學家Geoffrey Hinton這樣的提倡者確信,計算能力的提高和數(shù)字數(shù)據(jù)的爆炸意味著是時候重新推動這一技術了。Hinton現(xiàn)在的學生George Dahl說:“我們想向世界展示,這些深度神經(jīng)網(wǎng)絡真的很有用,并能提供真正的幫助?!?/div>
 
在開始時,Hinton、Dahl和其他一些人解決了語音識別中對商業(yè)應用很重要的一些難題。2009年,研究人員報告稱,通過典型數(shù)據(jù)集的練習,他們的深度學習神經(jīng)網(wǎng)絡已經(jīng)打破了將口語轉化為文本的精度紀錄。
 
巨大飛躍
 
當谷歌在其安卓系統(tǒng)的智能手機操作系統(tǒng)中采用基于深度學習的語音識別技術時,它的文字錯誤率下降了25%?!叭藗儽緛砥诖?0年后才能達到這種下降程度?!盚inton表示,“這相當于實現(xiàn)了10項突破。”
 
同時,Ng說服谷歌,讓自己使用其數(shù)據(jù)和計算機,谷歌大腦由此產(chǎn)生。該項目指認貓的能力是對無監(jiān)督學習的有力證明,無監(jiān)督學習是最困難的學習任務,因為其輸入中不包含任何像名字、標題或者類別等解釋性信息。不過Ng很快就遇到了麻煩,谷歌公司之外很少有研究人員擁有進行深度學習研究的設備。因此Ng在回到斯坦福大學后,開始使用圖像處理單元(GPUs)研發(fā)更大、更便宜的深度學習網(wǎng)絡。Ng說:“使用價值約10萬美元的硬件,我們可以用64個GPUs建立一個有著110億個連接的網(wǎng)絡。”
 
勝利之后
 
不過,要想說服計算機視覺領域的科學家還需要更多努力:他們希望看到標準測試中的收獲。Malik認為,在國際知名的ImageNet競賽中取得勝利將會達到理想的結果。
 
在該競賽中,各團隊基于大約含有100萬個圖像、屬于同類別的一個數(shù)據(jù)集開發(fā)計算機項目。2012年,Hinton的實驗室成為首個使用深度學習的競爭者,其錯誤率只有15%。這一次的勝利使Hinton在谷歌獲得了兼職工作,而2013年5月,谷歌公司使用該程序更新了其圖像搜索軟件。
 
Malik被說服了。他說:“在科學上,你必須接受經(jīng)驗證據(jù),而這正是明顯的證據(jù)?!敝螅褂迷摷夹g在另一個視覺識別比賽中打破了紀錄。很多其他團隊也跟隨這一趨勢,2013年,ImageNet比賽的參與團隊都使用了深度學習技術。
 
隨著深度學習技術在圖像和語音識別方面取得勝利,人們越來越有興趣將其應用于自然語言理解(例如,充分理解人類話語來改述或者回答問題)或者翻譯語言。同樣,這些工作目前可以通過使用手工編碼規(guī)則和對已知文本的統(tǒng)計分析來實現(xiàn),例如谷歌翻譯。眾包專家Luis von Ahn說:“深度學習技術將有機會比現(xiàn)在使用的技術做得更好。”他的公司Duolingo位于賓夕法尼亞州匹茲堡市,依賴于人,而不是計算機進行文本翻譯?!懊總€人都認為,是時候嘗試一些不同的東西了?!?/div>
 
與此同時,深度學習技術被證明可用于完成各種科學任務。2012年,默克制藥公司為那些可以幫助預測有用候選藥物的最佳項目提供了獎金。Dahl和同事使用深度學習系統(tǒng)贏得了2.2萬美元。
 
盡管深度學習技術取得了不少成功,但它仍處于起步階段?!八俏磥淼囊徊糠帧!盌ahl稱,“我們才剛剛開始。”(張冬冬)
 
《中國科學報》 (2014-01-14 第3版 國際)
 
更多閱讀

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多