3月15日,由智東西主辦,AWE和極果聯(lián)合主辦的GTIC 2019全球AI芯片創(chuàng)新峰會(huì)在上海成功舉辦!本次峰會(huì)報(bào)名參會(huì)的觀眾覆蓋了近4500家企業(yè),到會(huì)觀眾極為專業(yè),其中總監(jiān)以上級(jí)別占比超過62%,現(xiàn)場實(shí)際到會(huì)人數(shù)超過1800位。 大會(huì)現(xiàn)場來自學(xué)術(shù)、投資、安防、芯片等多個(gè)領(lǐng)域的21位重磅嘉賓共聚一堂,系統(tǒng)的探討了AI芯片在架構(gòu)創(chuàng)新、生態(tài)構(gòu)建、場景落地等方面的技術(shù)前景和產(chǎn)業(yè)趨勢。 ▲寒武紀(jì)副總裁 錢誠 寒武紀(jì)是中國最早發(fā)布神經(jīng)網(wǎng)絡(luò)處理器的AI芯片創(chuàng)業(yè)公司,去年5月發(fā)布了面向云端的機(jī)器學(xué)習(xí)處理器MLU。面對云端AI芯片市場巨頭盤踞的局面,寒武紀(jì)將如何進(jìn)行突圍?在峰會(huì)現(xiàn)場,寒武紀(jì)副總裁錢誠帶來了主題為《云端智能芯片的突圍》的演講。在演講中,他指出智能計(jì)算系統(tǒng)未來20年有10倍以上的增長空間,同時(shí)他還重磅宣布正在研發(fā)性能更強(qiáng)的云端智能芯片。 在錢誠看來,目前的主流計(jì)算系統(tǒng)還遠(yuǎn)遠(yuǎn)談不上智能,終端設(shè)備智能化浪潮,將帶動(dòng)未來20年智能計(jì)算系統(tǒng)在中國消費(fèi)市場的增長達(dá)到10倍以上。這一增長背景下,有大量的AI訓(xùn)練需要在云端進(jìn)行,但云端智能芯片遭遇了能效比與通用性的瓶頸。對此,寒武紀(jì)去年推出算力達(dá)到128Tops的MLU 100云端智能芯片,通過硬件神經(jīng)元虛擬化、編寫深度學(xué)習(xí)指令集等方式來解決芯片規(guī)模結(jié)構(gòu)固定但算法規(guī)模擴(kuò)大、算法快速變化等難題。 附寒武紀(jì)副總裁錢誠演講實(shí)錄 錢誠:尊敬的各位來賓,下午好!很高興今天下午能在這里跟各位分享我對云端智能芯片的看法。 寒武紀(jì)公司是一家專門做智能芯片的公司,我們對智能芯片的定位是智能時(shí)代最核心的物質(zhì)載體,這有點(diǎn)像在工業(yè)社會(huì)時(shí)候發(fā)動(dòng)機(jī)是最重要的核心物質(zhì)載體一樣。這樣的最核心物質(zhì)載體市場是非常廣闊的,據(jù)統(tǒng)計(jì)至少是千億級(jí)別的市場。 智能時(shí)代會(huì)是什么樣的?相信大家都有非常不一樣的見解。在寒武紀(jì)看來,未來智能時(shí)代的計(jì)算系統(tǒng)至少要符合一下幾點(diǎn)特征: 首先是端云一體,端和云、操作系統(tǒng)、指令級(jí)、核心加速模塊、計(jì)算模型的遷移,都應(yīng)該是完全暢通無阻的,可以很輕松地到達(dá)平臺(tái)上。 計(jì)算系統(tǒng)組成中的人、計(jì)算機(jī)、設(shè)備之間的區(qū)別不會(huì)特別明確。比如說計(jì)算機(jī)和設(shè)備發(fā)揮的功能跟人相比不會(huì)差別太大,我們說智能計(jì)算系統(tǒng)一定是人機(jī)物三元融合的。比如說消防員救火的時(shí)候,現(xiàn)在需要問大樓的管理人員是否還有幸存者沒有被救出來,以后只需要詢問家具(電燈、電視機(jī)),它們就可以告訴你哪個(gè)角落還有幸存者。但現(xiàn)在的計(jì)算系統(tǒng),特別是端和云還遠(yuǎn)遠(yuǎn)達(dá)不到這樣的智能水平。 現(xiàn)在的消費(fèi)類電子產(chǎn)品,大家用的比較多的是智能手機(jī),智能手機(jī)在設(shè)計(jì)時(shí)人工智能的處理能力遠(yuǎn)遠(yuǎn)不如我們所預(yù)期的那么強(qiáng)大。比如說現(xiàn)在計(jì)算圖像、識(shí)別圖像一分鐘是2000幅左右,這樣折算成一秒鐘就剛剛達(dá)到人類能夠容忍的程度——30多楨?,F(xiàn)在做的汽車、工業(yè)互聯(lián)網(wǎng)也無法達(dá)到真正的自動(dòng)駕駛,柔性生產(chǎn)線還無法像真正的人類一樣自動(dòng)安排生產(chǎn)。現(xiàn)在的互聯(lián)網(wǎng)大數(shù)據(jù)中心還處于傳統(tǒng)的往算力平臺(tái)中加GPU進(jìn)行加速的階段,能否真正實(shí)現(xiàn)智能仍是未知數(shù),可以說需求是非常廣闊的。 未來20年智能計(jì)算系統(tǒng)的需求,至少中國市場的消費(fèi)提升潛力是非常巨大的,相比于現(xiàn)在至少有10倍以上的消費(fèi)提升。未來計(jì)算系統(tǒng)上主要運(yùn)行的不是現(xiàn)在這樣的數(shù)據(jù)流,會(huì)是一種叫做計(jì)算流的處理過程。比如說現(xiàn)在我們漸漸用語音進(jìn)行購物,只需要對著手機(jī)描述一下需要買哪個(gè)電視劇里主角婚禮上穿的禮服,系統(tǒng)就會(huì)自動(dòng)給你推送一條產(chǎn)品店鋪信息;在看短視頻的時(shí)候,系統(tǒng)會(huì)告訴你哪部分是高潮劇情,你需要買什么樣的產(chǎn)品,都是通過智能處理的過程把消費(fèi)過程推送給你的。 云端智能流的消費(fèi)提升空間是非常巨大的,但是現(xiàn)在的計(jì)算系統(tǒng)還無法支撐未來種種消費(fèi)升級(jí)的需求。比如說現(xiàn)在有非常多的實(shí)時(shí)計(jì)算需求(比如短視頻、短語音),但由于有各種各樣處理的程序進(jìn)行加工,現(xiàn)在大家已經(jīng)完全不能相信互聯(lián)網(wǎng)上視頻、語音的真實(shí)性了?,F(xiàn)在有非常大量的訓(xùn)練和推理需求都是在云端進(jìn)行的,但是傳統(tǒng)的計(jì)算系統(tǒng)(CPU、GPU)在做圖像識(shí)別加速的時(shí)候,訓(xùn)練的性能非常有限。原來用英特爾至強(qiáng)的CPU做人工智能快速檢測算法,可能幾秒鐘處理1楨,現(xiàn)在華為手機(jī)上搭載了寒武紀(jì)1A,可以將其加速到每秒幾十幀的程度,但這遠(yuǎn)遠(yuǎn)不夠。 支持如Google、百度大腦等巨型系統(tǒng),圖像處理速度至少要提升到一萬倍以上的規(guī)模;把人類大腦這么大的神經(jīng)網(wǎng)絡(luò)處理規(guī)模變成可移動(dòng)的系統(tǒng)設(shè)備,也需要1萬倍以上的性能提升。而這需要不同方向的公司進(jìn)行努力,比如說寒武紀(jì)會(huì)提供架構(gòu)提升,諸多算法公司會(huì)提供優(yōu)化的算法。 目前在云端智能處理方面要解決的問題最終可以歸結(jié)為能效比的瓶頸問題。我們目前已有的芯片結(jié)構(gòu)如ASIC、ASIP、FPGA、GPU、CPU,它們的能效大約集中在每秒100億次到1萬億次的能效比區(qū)間,再往上提升是非常困難的。因?yàn)楫?dāng)芯片設(shè)計(jì)得越通用其能效越低,能效越高的話通用性就非常差。 能效比提升需要先解決三個(gè)方面的問題: 1.如摩爾定律等物理定律漸漸再也無法發(fā)揮像原來那么強(qiáng)的功效了。我們現(xiàn)在設(shè)計(jì)芯片在相同面積的情況下功耗是上升的,無法保持同樣的功耗。導(dǎo)致現(xiàn)在芯片里有非常多的晶體管,在一定的功耗下是無法打開的,所以存在很多晶體管的浪費(fèi),所以單純提高晶體管的數(shù)量等是無法提高性能的。 2.指令集并行、多核并行方面漸漸也出現(xiàn)了瓶頸。比如說現(xiàn)在做的超級(jí)系統(tǒng),大概只有50%左右的并行效率。 3.應(yīng)用場景也在發(fā)生變化,不像以前只在臺(tái)式機(jī)平臺(tái)下做計(jì)算就可以?,F(xiàn)在出現(xiàn)了很多新的計(jì)算平臺(tái),如智能手機(jī),未來汽車也將成為新的計(jì)算平臺(tái)?,F(xiàn)在云端的重要性也已變得越來越突出了。以前說到云端大家想到了超算,但現(xiàn)在一些商業(yè)化平臺(tái)比如云計(jì)算已經(jīng)非常普遍了。 這都要求新的芯片架構(gòu)出現(xiàn),新的芯片需要滿足兩個(gè)特征:1.性能功耗比非常高;2.通用性強(qiáng)。但要同時(shí)滿足這兩個(gè)條件其實(shí)是非常困難的。 那該怎么做呢?現(xiàn)在業(yè)界歸結(jié)為的做法主要集中在領(lǐng)域?qū)S玫募軜?gòu)上,這種架構(gòu)需要支持非常高的性能功耗比,里面采用非常多的電路都是領(lǐng)域?qū)S玫摹5谕ㄓ眯苑矫嬗忠骖?,不能做到像普通通用芯片如CPU一樣對所有計(jì)算加速都非常強(qiáng),而只能在某一領(lǐng)域里對某一大類的算法做非常好的加速效果,這就是現(xiàn)在的領(lǐng)域?qū)S眉軜?gòu)。這有點(diǎn)像做通用計(jì)算的CPU一樣,可能是高速公路,非常高效也有序,但也有可能是非常低效無序的,現(xiàn)在領(lǐng)域?qū)S眉軜?gòu)想希望變成高速的高鐵一樣,讓里面的信息都是有序的。 目前云端芯片市場上已有或者正在做研究的大概有三種主流路線: 1.生物方向做的比較多的,希望能模擬人腦產(chǎn)生的智能。比如說用生物的方程、描述神經(jīng)元的方程進(jìn)行簡化,希望這些模型能用到芯片里,在芯片里跑起來,比如IBM的真北。而目前人的智能的產(chǎn)生還沒有清楚地揭示,所以這種模型還無法達(dá)到預(yù)期的較高識(shí)別精度。但是研究界愿意投入更多的錢做研發(fā),相信假以時(shí)日會(huì)有很棒的成果出來。 2.業(yè)內(nèi)基于壟斷地位的GPU產(chǎn)品。GPU產(chǎn)品在業(yè)界的壟斷地位從做圖形加速、科學(xué)計(jì)算等通用計(jì)算的GPU一脈相承過來的,其并行程度非常高,但目前也遇到瓶頸問題。因?yàn)镚PU非常通用,所以功耗很難降下來。比如端芯片最新如V100這樣的GPU功耗達(dá)300到400瓦,其功耗很難繼續(xù)降低了。另外一方面其性能提升曲線也無法像以前那么陡峭了,比如做人工智能的處理,對稀疏化網(wǎng)絡(luò)的加速,其效果遠(yuǎn)遠(yuǎn)比不上專用的加速芯片。 3.現(xiàn)在業(yè)界普遍做的是第三種,領(lǐng)域?qū)S玫纳疃葘W(xué)習(xí)處理器??梢哉f幾乎所有要做智能芯片的公司大家研發(fā)的都是這個(gè)方向的芯片,而并非要投錢做新的GPU產(chǎn)品來支持深度學(xué)習(xí)。 這是2018年上半年全球有志于推出智能芯片公司的綜合排名。從中可以看出做服務(wù)器芯片、云端芯片的主要玩家有英偉達(dá)、IBM、Google、華為海思、寒武紀(jì)等。但市場上大規(guī)模應(yīng)用的幾個(gè)主要玩家和產(chǎn)品有:Google的TPU,其TPU二代擁有每秒80萬億次的計(jì)算能力;華為海思也在做自己的云端計(jì)算芯片,但要今年才出來,預(yù)計(jì)計(jì)算能力可能是每秒256萬億次;寒武紀(jì)去年5月份推出的MLU100,每秒128萬億次的計(jì)算能力。當(dāng)然還有一些其他的公司,像英特爾收購了深度學(xué)習(xí)創(chuàng)企Nervana,從2016年開始一直進(jìn)行研發(fā),今年年初發(fā)布了產(chǎn)品,但具體的性能參數(shù)還沒有完全給出。此外,其他的一些公司也推出看不是概念產(chǎn)品,但沒擺到市場上進(jìn)行銷售。 很多軟件互聯(lián)網(wǎng)公司也在做芯片研發(fā),比如百度的“昆侖”,還有很多其他公司也會(huì)推的相應(yīng)的芯片。相信今年之內(nèi)芯片相比于2018年會(huì)翻番甚至4倍的提升,同時(shí)會(huì)有大量深度學(xué)習(xí)的云端芯片出來。 云端芯片需要處理的人工智能應(yīng)用主要集中哪些方面?原來主要是做識(shí)別,現(xiàn)在不僅做識(shí)別還要做理解?,F(xiàn)在的人工智能還是屬于計(jì)算智能,基于數(shù)學(xué)、統(tǒng)計(jì)學(xué)的原理,可以被欺騙也可以對抗。比如把識(shí)別貓的像素點(diǎn)變成游艇,或者自動(dòng)駕駛中只用單一的方法就沒有辦法區(qū)別火車的反光和陽光下的白云。所以還需要對圖片中的場景進(jìn)行理解,比如說汽車需要對光學(xué)傳感器數(shù)據(jù)、雷達(dá)圖像、后臺(tái)數(shù)據(jù)庫,路況,語音輸入內(nèi)容等多方面數(shù)據(jù)進(jìn)行識(shí)別和理解,最后做到多模態(tài)融合。 ![]() 這就需要我們對所有類型的算法都得支持,包括現(xiàn)在的消費(fèi)類產(chǎn)品。比如現(xiàn)在虛擬現(xiàn)實(shí)技術(shù)有很多內(nèi)容,但互動(dòng)仍非常差。怎么做到像電影《頭號(hào)玩家》里那么強(qiáng)的互動(dòng)呢?這需要芯片幾乎要支持所有種類的深度學(xué)習(xí)算法和大部分的機(jī)器學(xué)習(xí)算法。而現(xiàn)在的終端芯片很難支持這么多算法。但云端的智能芯片必須要支持現(xiàn)在所有的算法,對像機(jī)器視覺、語音識(shí)別、自然語言理解都需要有非常好的加速比,這也是寒武紀(jì)目前一直在做的事情。 要做到這些,首先要解決三個(gè)最主要的問題: 1.芯片的規(guī)模數(shù)量有限,怎么支持神經(jīng)網(wǎng)絡(luò)越來越多、規(guī)模越來越大的算法呢?這需要算法在一個(gè)芯片上反復(fù)跑,神經(jīng)網(wǎng)絡(luò)運(yùn)算、機(jī)器學(xué)習(xí)運(yùn)算可以拆解成200多個(gè)加速計(jì)算形式,比如說乘加運(yùn)算和一些簡單函數(shù)等。 2.對結(jié)構(gòu)已經(jīng)固定的電路,芯片如何支持千變?nèi)f換的算法呢?這需要指令集提供靈活的組合,比如支持CNN等基本網(wǎng)絡(luò)的電路,我們通過修改指令級(jí)把最基本操作組合成記憶網(wǎng)絡(luò),通過這些方法對其進(jìn)行加速使其可以支持更多的網(wǎng)絡(luò)。但芯片做好以后功耗仍有限,現(xiàn)在人工智能應(yīng)用的邊際條件是不斷變化的,需要我們隨時(shí)提升計(jì)算精準(zhǔn)性,保證識(shí)別效率。比如采用稀疏化算法,簡化復(fù)雜電路,提升算法執(zhí)行效率。 寒武紀(jì)對此的研究在國際上一直處于引領(lǐng)地位,從2012年開始寒武紀(jì)發(fā)布了很多深度學(xué)習(xí)處理器方面的里程碑架構(gòu)論文,被很多企業(yè)追隨。我們的目標(biāo)是希望能夠在云端做到端云一體。 現(xiàn)在很多端以后都會(huì)發(fā)展成多元具象的一些具體設(shè)備,像手機(jī)可以是瀏覽器、收音機(jī)、電視、搖控器,以后很多設(shè)備都會(huì)是多元具象的設(shè)備。這些設(shè)備顯然是需要通用的智能處理能力的,同時(shí)要能夠使云端訓(xùn)練好的模型和框架嚴(yán)絲合縫地移植到具體的終端設(shè)備上,但現(xiàn)在的很多設(shè)備做不到,希望未來的端云一體能做到。 在2018年上半年寒武紀(jì)曾提出一個(gè)想法,以后云端生態(tài)是不分高性能計(jì)算、超算和云計(jì)算的,會(huì)合而一體,里面通過加入非常多的支持人工智能的硬件和軟件的框架,在商業(yè)化方面是完全開源、無縫對接的。 當(dāng)時(shí)業(yè)界的發(fā)展還沒有印證我們的想法,但是到2018年下半年很多大型的機(jī)器已經(jīng)驗(yàn)證了我們的想法,比如美國阿岡實(shí)驗(yàn)室,他們做了很多的人工智能的科學(xué)計(jì)算,比如Google的云計(jì)算、美軍的大型的智能云計(jì)算平臺(tái)的招標(biāo)以及世界排名第一的超算,采用4萬塊GPU V100做人工智能處理。那么未來云計(jì)算的平臺(tái)肯定是通用的,里面會(huì)有非常多的人工智能的加速硬件。 ![]() 現(xiàn)在頭部的很多企業(yè)一年需要10000塊加速卡,成本最便宜也要達(dá)1億人民幣,其需求量也處于井噴狀態(tài)。寒武紀(jì)在2018年推出MLU100就是瞄準(zhǔn)這個(gè)市場,目標(biāo)是希望把占有率從0%提升到30%,所以目前我們和很多互聯(lián)網(wǎng)頭部企業(yè)做技術(shù)評(píng)測,希望能夠很好的支持他們。今年寒武紀(jì)正在研發(fā)性能更高的支持訓(xùn)練的加速卡。 寒武紀(jì)的目標(biāo)是通過加速卡賦能智能云端計(jì)算平臺(tái),云端智能計(jì)算平臺(tái)把人工智能處理能力對互聯(lián)網(wǎng)大數(shù)據(jù)的綜合能力賦能給傳統(tǒng)產(chǎn)業(yè)。比如說金融行業(yè),可以對互聯(lián)網(wǎng)消費(fèi)需求進(jìn)行信用評(píng)估,相比傳統(tǒng)的信用來說成本很低1毛錢評(píng)估一次,用這樣的方法促進(jìn)傳統(tǒng)產(chǎn)業(yè)進(jìn)行升級(jí)。 今天我的分享到此結(jié)束,希望峰會(huì)越辦越好,感謝! |
|