原文: AI AND ‘ENORMOUS DATA’ COULD MAKE TECH GIANTS HARDER TO TOPPLE 來源: https://www./story/ai-and-enormous-data-could-make-tech-giants-harder-to-topple/
原文翻譯: 新的一周,谷歌(Google)又公開了一項(xiàng)創(chuàng)紀(jì)錄的新人工智能研究。這一次,研究的成果向我們提示了當(dāng)前人工智能繁榮下的一項(xiàng)重要業(yè)務(wù)動態(tài)。傳統(tǒng)上人們認(rèn)為,消費(fèi)者和社會經(jīng)濟(jì)日益倚重的科技公司生態(tài)系統(tǒng)通過顛覆來保持創(chuàng)新、杜絕壟斷,小公司也正是憑借這種顛覆過程打敗大企業(yè)。然而,一旦科技行業(yè)的競爭成敗系于由巨量數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)系統(tǒng),打敗一家科技巨頭可能要比以往任何時(shí)候都更困難。
谷歌在周一發(fā)布了新論文的預(yù)印版本,其中描述了該公司跟卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University,以下簡稱CMU)成本高昂的合作項(xiàng)目。他們的圖像識別實(shí)驗(yàn)在整整兩個(gè)月里整合了50個(gè)強(qiáng)大的圖形處理器,并使用了一個(gè)前所未有的龐大圖集,其中包含了3億張經(jīng)過標(biāo)記的圖片(圖像識別領(lǐng)域大多數(shù)研究工作所使用的標(biāo)準(zhǔn)圖集僅包含100萬張圖片)。該實(shí)驗(yàn)項(xiàng)目旨在測試,能否通過向算法饋入更多的數(shù)據(jù)來使其得出更準(zhǔn)確的圖像識別結(jié)果,而不是對現(xiàn)有的算法設(shè)計(jì)進(jìn)行調(diào)整。
答案是:可以。在谷歌和CMU的研究人員使用規(guī)模龐大的新數(shù)據(jù)集對一套標(biāo)準(zhǔn)的圖像處理系統(tǒng)進(jìn)行訓(xùn)練之后,他們稱,系統(tǒng)在數(shù)項(xiàng)標(biāo)準(zhǔn)測試中得到了新的高分——這些測試旨在評估軟件解讀圖像的能力,比如識別照片中的對象。研究人員饋入的數(shù)據(jù)量跟圖像識別算法的準(zhǔn)確性之間存在著明確的關(guān)聯(lián)。這些發(fā)現(xiàn)在某種程度上解答了一個(gè)在人工智能學(xué)界流傳的問題,即我們能否僅僅通過向現(xiàn)有算法饋入更多的數(shù)據(jù)來獲得更強(qiáng)大的性能。
該研究揭示,即便本身就具備極大的規(guī)模,更多的數(shù)據(jù)也還是會帶來更強(qiáng)大的性能表現(xiàn)。這表明,成為谷歌、Facebook或微軟(Microsoft)那樣掌握大量數(shù)據(jù)的公司,其好處遠(yuǎn)遠(yuǎn)超過我們此前的設(shè)想。圖像處理系統(tǒng)基于谷歌包含3億張圖片的巨大數(shù)據(jù)集進(jìn)行學(xué)習(xí),這并未產(chǎn)生巨大的好處——從100萬張圖片到3億張圖片,系統(tǒng)識別對象能力的得分僅僅提升了3個(gè)百分點(diǎn)——但論文作者表示,他們認(rèn)為可以通過調(diào)整軟件更好地適應(yīng)超大型數(shù)據(jù)集來擴(kuò)大這種優(yōu)勢。即便事實(shí)證明情況并非如此,但在科技行業(yè)當(dāng)中,很小的優(yōu)勢也可能造成重要影響。比如,就自動駕駛汽車視覺技術(shù)的準(zhǔn)確性來說,每一點(diǎn)增益都是至關(guān)重要的;而對一款能夠創(chuàng)收數(shù)十億美元的產(chǎn)品而言,小小的效率提升將能產(chǎn)生滾雪球效應(yīng)。
在聚焦人工智能的公司當(dāng)中,囤積數(shù)據(jù)已經(jīng)作為一種防御性戰(zhàn)略相沿成習(xí)。谷歌、微軟以及其他公司已經(jīng)開源了大量軟件,乃至硬件設(shè)計(jì),但卻收緊了對那些能夠讓軟、硬件工具發(fā)揮作用的數(shù)據(jù)的控制。科技公司確實(shí)公開了一些數(shù)據(jù):去年,谷歌發(fā)布了一個(gè)采集自700多萬段YouTube視頻的大型數(shù)據(jù)集,Salesforce也開放了一個(gè)取自維基百科(Wikipedia)的數(shù)據(jù)集以幫助算法分析語言。但盧克·德奧利維拉(Luke de Oliveira)表示——他是人工智能研發(fā)實(shí)驗(yàn)室Manifold的合伙人,同時(shí)也是勞倫斯伯克利國家實(shí)驗(yàn)室(Lawrence Berkeley National Lab)的訪問研究員——(如你所想)這些被公開的數(shù)據(jù)通常不會對潛在競爭對手提供太大的價(jià)值?!八鼈儚膩聿皇悄欠N對一款產(chǎn)品持續(xù)市場地位具有重要影響的數(shù)據(jù)集,”他說道。
谷歌和CMU的研究人員倒是說,他們希望自己關(guān)于“巨數(shù)據(jù)”價(jià)值的最新研究成果能夠起到促進(jìn)作用,催生出谷歌規(guī)模的更大開源圖像數(shù)據(jù)集。“我們真誠地希望,這項(xiàng)研究能夠啟發(fā)計(jì)算機(jī)視覺技術(shù)領(lǐng)域的人士,讓他們不要低估數(shù)據(jù)的價(jià)值,并共同努力來創(chuàng)建規(guī)模更大的數(shù)據(jù)集,”研究人員寫道。來自CMU的阿比納夫·古普塔(Abhinav Gupta)參與了這項(xiàng)研究,他表示,有一個(gè)選項(xiàng)是跟通用視覺數(shù)據(jù)基金會(Common Visual Data Foundation)合作,這是一家得到Facebook和微軟支持的非營利機(jī)構(gòu),曾經(jīng)發(fā)布開源的圖像數(shù)據(jù)集。
與此同時(shí),在一個(gè)擁有更多數(shù)據(jù)就能讓算法變得更智能的世界中,那些缺少數(shù)據(jù)的公司如果想要生存下去,就必須要富有創(chuàng)造性。初創(chuàng)公司DataRobot的首席執(zhí)行官杰里米·亞齊(Jeremy Achin)猜測,隨著機(jī)器學(xué)習(xí)變得對越來越多的公司和行業(yè)舉足輕重,一種見于保險(xiǎn)行業(yè)的模式可能在更大范圍內(nèi)流行起來,即眾多小保險(xiǎn)公司(認(rèn)真地)把各自數(shù)據(jù)“拼”到一起,以使其風(fēng)險(xiǎn)預(yù)測能夠匹敵那些規(guī)模更大的競爭對手。
讓機(jī)器學(xué)習(xí)不再那么渴求數(shù)據(jù),這方面的進(jìn)步有可能顛覆人工智能的數(shù)據(jù)經(jīng)濟(jì)學(xué);優(yōu)步(Uber)去年就收購了一家從事相關(guān)研究的公司。但現(xiàn)在,后來者仍然有可能試著避開人工智能巨頭公司慣有的數(shù)據(jù)優(yōu)勢。Fast.ai是一家致力于讓機(jī)器學(xué)習(xí)變得更易于訪問的公司,其聯(lián)合創(chuàng)始人蕾切爾·托馬斯(RachelThomas)表示,初創(chuàng)公司可以在通常由互聯(lián)網(wǎng)巨頭把持的領(lǐng)域之外找到應(yīng)用機(jī)器學(xué)習(xí)技術(shù)的地方,就比如說農(nóng)業(yè)?!拔也淮_信這些巨頭公司一定在所有領(lǐng)域占據(jù)著優(yōu)勢,在很多特定領(lǐng)域中,根本沒有人在收集數(shù)據(jù),”她如是說。即便是人工智能領(lǐng)域的巨頭也有盲點(diǎn)。 |
|