拿下斯坦福AI競賽雙冠！

liuaqbb 2019-03-28

展開全文

就在上周三，斯坦福大學發(fā)布了最新的 DAWNBench 榜單，這是全球人工智能領域最權威的競賽之一。華為云 ModelArts 一站式AI開發(fā)平臺，將圖像識別總訓練時間和推理性能榜單的冠軍收入囊中。

此次華為云 ModelArts 將訓練時間縮短至4分8秒，比3個月前榜單公布的紀錄足足快了一倍。而此前幾次 DAWNBench 圖像識別訓練的最佳紀錄也均由華為云 ModelArts 創(chuàng)造。

大洋彼岸的喜訊剛剛公布，僅隔一日，榕城福州又為AI開發(fā)者們帶來新的好消息。在華為中國生態(tài)伙伴大會上，華為云 AI 市場正式發(fā)布。這個在華為云 ModelArts 平臺基礎上構建的開發(fā)者生態(tài)社區(qū)，為高校、企業(yè)及個人開發(fā)者等群體提供安全開放、公平可靠的 AI 模型、API、數(shù)據(jù)集以及競賽案例等內容共享和交易。

那么，勢頭強勁的華為云 ModelArts 究竟有何超能力？它如何在高手如云的基準測試中，僅用短短3個月便打破自己的紀錄？它又分別對訓練和推理做了哪些優(yōu)化，從而實現(xiàn)如此出色的性能？新發(fā)布的AI市場又為 AI 開發(fā)者們帶來了哪些便利？本文將一一揭曉華為云 ModelArts 的技術硬實力究竟強在哪兒。

捧走訓練推理雙料冠軍，比此前最高訓練紀錄快1倍

斯坦福 DAWNBench 榜單是用以衡量端到端的深度學習模型訓練和推理性能的國際權威基準測試平臺，相應的排行榜反映了當前業(yè)界深度學習平臺技術的領先性。

該榜單最新的圖像識別排行榜顯示，在訓練性能方面，華為云 ModelArts 用128塊 V100 GPU，在 ResNet50_on_ImageNet（93%以上精度）上訓練模型，訓練時間僅為4分08秒，較其2018年12月創(chuàng)下的9分22秒紀錄快了1倍，比此前 fast.ai 在 AWS 平臺上的訓練速度快4倍。

▲斯坦福大學 DAWNBench 訓練時間榜單

在推理性能方面，華為云 ModelArts 識別圖片的速度是第二名的1.72倍、亞馬遜的4倍、谷歌的9.1倍。

▲斯坦福大學 DAWNBench 推理性能榜單

華為云 ModelArts 是如何做到在國際權威深度學習模型基準平臺上表現(xiàn)出色，并在短短3個月的時間打破自己創(chuàng)造的紀錄？

這就要歸功于 ModelArts 團隊從訓練和推理兩大部分著手，包括高性能分布式模型訓練和極速推理技術在內的一系列優(yōu)化。

優(yōu)化訓練的三大維度：網絡結構、框架和算法

在訓練方面，華為云 ModelArts 團隊主要從深度神經網絡結構、分布式訓練框架、深度學習訓練算法三個維度展開優(yōu)化。

1、深度神經網絡結構優(yōu)化

本次使用的網絡結構是基于經典的 ResNet50 結構。由于在訓練中使用了 128*128 的低分辨率輸入圖片來提升訓練的速度，對訓練精度產生了一定影響，原始模型無法在維持訓練 epoch 數(shù)的情況下將模型訓練到指定的 top5 93% 精度。

為此，ModelArts 團隊對 ResNet50 中的卷積結構進行了優(yōu)化，從而在低分辨率訓練模式下也能夠穩(wěn)定達到目標精度。

2、分布式訓練框架優(yōu)化

深度學習訓練過程涉及大規(guī)模的參數(shù)的網絡間傳遞。TensorFlow 使用中心化的網絡參數(shù)服務器（Parameter Server）來承擔梯度的收集、平均和分發(fā)工作，對 server 節(jié)點的訪問會成為瓶頸，帶寬利用率低。為此 ModelArts 團隊使用 AllReduce 算法來進行梯度聚合來優(yōu)化帶寬。

同時對傳輸?shù)奶荻冗M行融合，對小于閾值大小的梯度多次傳輸合并為一次，提升帶寬利用率；另外在通信底層采用 NVIDIA 的 NvLink、P2P 等技術來提升節(jié)點內和節(jié)點間通信帶寬，降低通信時延。

3、深度學習訓練算法優(yōu)化

在本次的訓練過程中使用的分布式全局 batch size 為32768，這樣的超大 batch size 提升了訓練的并行度，但也導致了收斂精度降低的問題。為此 ModelArts 團隊實現(xiàn)《Large Batch Training of Convolutional Networks》中提出的層次自適應速率縮放（LARS）算法，在全局學習率調度方面，使用了帶 warmup 的 linear cosine decay scheduler，訓練優(yōu)化器則采用 momentum 算法。

在本次提交的訓練結果中，ModelArts 僅用了35個 epoch 即將模型訓練到了指定精度，并在全程除了最后一個 epoch 外均保持在32K的大 batch size 下，最終用時4分08秒，比之前的成績再次提升了一倍。

優(yōu)化推理的三大維度：網絡結構、量化與剪枝

在推理方面，ModelArts 團隊從以下三個方面進行了優(yōu)化：1.網絡結構優(yōu)化2. Int8 量化3. 神經網絡卷積通道剪枝。

1、網絡結構優(yōu)化

在推理中同樣采用了 ResNet50 模型，并且是推理效率更優(yōu)的 ResNet50-v1 版本。在此模型的基礎上將降采樣提前并使用了信息損失更小的降采樣方法，既提升了推理速度，又獲得了更高的模型精度。

2、Int8 量化

低比特量化是提升推理性能的一種主要手段，其中 int8 量化方法的通用性強且對模型精度的損失小。在量化的過程中先加載原始模型，再對原始模型創(chuàng)建對應的 int8 量化模型，然后提取訓練中典型樣本對量化模型進行校準，最后基于校準結果產生優(yōu)化后的 int8 模型。

在此量化中模型的推理精度僅損失了0.15%，而模型的推理速度提升了2倍以上。

3、神經網絡卷積通道剪枝

研究表明網絡中很多連接都是接近0或者冗余的，對這些參數(shù)進行剔除對精度影響相對較小。模型剪枝方法包含結構剪枝和非結構剪枝。非結構化剪枝設定一個閾值，當權重低于這個閾值時候會被設置為0，不再更新。

這個方法使得模型連接變得稀疏，但是由于這些連接分散在各個權重里，而由于 GPU 并不支持稀疏矩陣卷積和乘法加速，因此并不能有效提升推理速度。

結構化剪枝主要使用的方法是卷積通道剪枝，即通過一些方法評估神經網絡中的每個卷積核的影響系數(shù)，然后將其中影響系數(shù)較低的卷積核整體去掉，而使得整個模型變小，推理速度提升。

正式發(fā)布國內首個AI模型市場

值得一提的是，這次在華為中國生態(tài)伙伴大會上，華為將“平臺+生態(tài)”戰(zhàn)略演進為“平臺+AI+生態(tài)”，為合作伙伴提供“行業(yè)+AI”的支持。

華為副總裁、云 BU 總裁鄭葉來也正式啟動了華為云 AI 市場并宣布投入專項激勵，在 AI 市場上幫助開發(fā)者、合作伙伴加速企業(yè)的 AI 應用落地。

如前所述，華為云 AI 市場主要包括 AI 模型市場、API 市場、WIKI 數(shù)據(jù)集和競賽 Hub 和案例 Hub 等模塊資源，用戶可自由選擇感興趣的資源進行交易。

從高校科研機構、AI應用開發(fā)商、解決方案集成商、企業(yè)到個人開發(fā)者，這些 AI 開發(fā)生態(tài)鏈各參與方均被有效連接，AI 市場不僅幫助他們加速 AI 產品開發(fā)和落地，而且確保共享及交易環(huán)境足夠安全、開放。

我們來重點談談華為云 AI 市場中的 AI 模型市場，這也是國內首個提供發(fā)布及訂閱 AI 模型服務的平臺。AI 模型市場的主要功能是發(fā)布和訂閱 AI 模型，通過市場中間人機制及 ModelArts 平臺，保證買賣雙方模型和數(shù)據(jù)安全。

賣方用戶在認證自己的賬號后進行信用經營，可以將自己的模型上傳到市場中，并為模型指定不同的發(fā)布權限和計費策略，例如按次、包年、包月。買方用戶則可以在 AI 模型市場尋找和訂閱感興趣的模型，用于自己的 AI 推理。

賣方用戶還可以為其模型畫像屬性，這樣一來，買方用戶可以更快地定位目標。此外，AI 模型市場支持為發(fā)布的模型配置推理/再訓練代碼，買方用戶就可以用這些模型做再訓練或者部署成推理服務。

此前，智東西曾在（神奇！零基礎分分鐘玩轉AI，華為云ModelArts全體驗）一文中詳述華為云 ModelArts 平臺的四大亮點和操作流程。ModelArts 有開源數(shù)據(jù)集、自動化調參、MoXing 分布式框架和千級 GPU 集群規(guī)模訓練加速、云邊端一鍵式部署等 buff 加成，這一平臺的上手門檻非常低，從零編程經驗的小白，到高階算法工程師，都能借助這一平臺更快更好地完成 AI 模型的訓練和推理。

▲華為云 ModelArts 開發(fā)者生態(tài)展區(qū)

華為云 ModelArts 平臺于今年1月30日正式上線，已經陸續(xù)在智慧醫(yī)療、智能制造、自動駕駛、智慧城市、智慧安防、水利等 AI 場景大規(guī)模應用，幫助各行各業(yè)的企業(yè)及開發(fā)者們實現(xiàn) AI 開發(fā)應用落地，及時響應市場需求。

結語：云計算AI大戰(zhàn)持續(xù)升溫，應用落地仍是王道

目前，擁抱 AI 的云計算仍是一片藍海市場。互聯(lián)網巨頭、傳統(tǒng) ICT 企業(yè)、傳統(tǒng)企業(yè)服務供應商和新興創(chuàng)企等各類玩家涌入這一市場，老玩家穩(wěn)固地位，新玩家加速成長，云計算市場的競爭正在加劇。

華為云 ModelArts 平臺可以說是華為“把復雜要留給自己，把簡單留給客戶和合作伙伴”理念的直接例證，上至數(shù)據(jù)集、AI 模型等基礎模塊，下至一體式操作流程，讓企業(yè)和開發(fā)者們點點鼠標就能完成高質量的 AI 開發(fā)。

從華為云 ModelArts 平臺，我們可以提煉出云計算服務商構建 AI 服務競爭壁壘的幾個關鍵詞——更強大、更全面、更易用、更可靠。隨著 AI 技術逐漸落實到各行業(yè)中，泡沫逐漸消散，真正能為企業(yè)提供最優(yōu)質服務、幫助其實現(xiàn)商業(yè)變現(xiàn)者，才能最終構建起更強大的生態(tài)，推動 AI 應用落地走向高潮。