成立快兩年，阿里巴巴達摩院都干什么了？

潔潔贏 2019-07-11

展開全文

達摩院成立快兩年之際，機器智能技術(shù)實驗室搶先展示了一下成績。

2017 年10 月，阿里成立了達摩院，覆蓋5 個研究領(lǐng)域，建有14 個實驗室。除了上述的“機器智能”，達摩院研究大方向還有數(shù)據(jù)計算、機器人、金融科技、X 實驗室。

機器智能技術(shù)實驗室側(cè)重于AI 相關(guān)技術(shù)的基礎研究，旗下設有語音實驗室、視覺實驗室、語言技術(shù)實驗室、決策職能實驗室、以及城市大腦實驗室。

近日，達摩院機器智能技術(shù)實驗室舉辦了一場小型媒體溝通會，幾位技術(shù)專家向外界介紹了最新成果和進展。

兼具表現(xiàn)力和穩(wěn)定性的語音合成技術(shù)

首先，機器智能技術(shù)實驗室正式發(fā)布了新的語音合成技術(shù)KAN-TTS（KAN 指的是Knowledge-Aware Neural）。TTS（Text-To-Speech，文本到語音）是一種將文字轉(zhuǎn)化成語音的技術(shù)，智能音箱、個人虛擬助理都需要這種技術(shù)支持。

達摩院機器智能語音實驗室高級算法專家雷鳴介紹，當前業(yè)界商用系統(tǒng)的合成語音與原始音頻錄音的接近程度，通常在85%到90%之間，而基于KAN-TTS技術(shù)的合成語音可將該數(shù)據(jù)提高到97%以上。

簡單來說，KAN-TTS 合成的語音更加像真人的語音，“接近真人韻律的感覺”。

“我們新一代的TTS 解決方案深度融合了傳統(tǒng)TTS 和端到端TTS，基于不同領(lǐng)域的深層Knowledge。”雷鳴介紹道。

所謂端到端TTS，即不依靠領(lǐng)域知識，基于強大的深度學習模型、海量數(shù)據(jù)來生成音頻，優(yōu)勢是大大節(jié)省設計的工作，并且得到更加流暢、表現(xiàn)力更好的合成語音，但需要大量計算力支持，而且會出現(xiàn)丟字、漏字等不穩(wěn)定的情況。Google 的Tacotron 和DeepMind 的WaveNet 都是典型的端到端TTS 模型。

而傳統(tǒng)TTS 需要花費大量時間和精力去了解相關(guān)的領(lǐng)域知識，設計難度較高，但勝在合成的語音比較穩(wěn)定。

通過將傳統(tǒng)TTS 和端到端TTS 的結(jié)合，KAN-TTS 結(jié)合了兩者的優(yōu)勢，充分利用不同領(lǐng)域的深層Knowledge，合成表現(xiàn)力和穩(wěn)定性具佳的語音。

針對不同的需求，機器智能技術(shù)實驗室提供了“開箱即用”的TTS 產(chǎn)品，覆蓋5 大場景（通用場景、客服場景、童聲場景、英文場景和方言場景），具備34 個高品質(zhì)的聲音。

除了“開箱即用”的聲音，達摩院這個語音合成方案還能讓專業(yè)用戶定制聲音。

傳統(tǒng)語音合成定制需要10小時以上的數(shù)據(jù)錄制和標注，對錄音人和錄音環(huán)境要求很高?！皬膯佣ㄖ频阶罱K交付，需要半年時間”。而達摩院利用Multi-Speaker Model與Speaker-aware Advanced Transfer Learning相結(jié)合的方法，將語音合成定制成本降低10倍以上，周期壓縮3倍以上。

也就是說，用1小時有效錄音數(shù)據(jù)和不到兩個月制作周期，就能完成一次標準TTS 定制。

此外，普通用戶也可以自己定制“AI聲音”，只需手機錄音十分鐘，就能獲得與錄制聲音高度相似的合成語音。

語音、自然語言、視覺各領(lǐng)域都有新成績

除了公布新語言合成方案，機器智能技術(shù)實驗室還亮出了新成績。

機器智能技術(shù)實驗室透露，阿里AI在國際頂級技術(shù)賽事上獲得了40多項世界第一，入選了近400篇國際頂會論文。具體到細分領(lǐng)域，機器智能技術(shù)實驗室最近都有不同建樹。

語音領(lǐng)域，2019年1月機器智能技術(shù)實驗室在國際頂級對話系統(tǒng)評測大賽（DSTC-7）上獲得雙料冠軍，將人機對話準確率的世界紀錄提升至94.1%，并于2019年7月開源了創(chuàng)造這一記錄背后的人機對話模型ESIM。

事實，該算法模型提出了兩年多，已被包括谷歌、facebook在內(nèi)的國際學術(shù)界在200多篇論文中引用。

自然語言理解方面，機器智能技術(shù)實驗室在6 月的MS MARCO 文本閱讀理解挑戰(zhàn)賽中，擊敗了Facebook和微軟，創(chuàng)造了閱讀理解能力測試的新紀錄，并在開放域問答任務上超越人類閱讀水平。

MS MARCO 挑戰(zhàn)賽是AI 閱讀理解領(lǐng)域的權(quán)威比賽，參賽機構(gòu)提供的AI 模型需要在搜索引擎返回的網(wǎng)頁文檔中，找出100 萬個問題的正確答案。

阿里方面介紹，阿里AI 模型的突破在于提出了基于“融合結(jié)構(gòu)化信息BERT 模型” 的“深度級聯(lián)機器閱讀模型”，可以模仿人類閱讀理解的過程，先對文檔進行快速瀏覽，判斷，然后針對相應段落進行精讀，并根據(jù)“自己的理解” 回答問題。

達摩院機器翻譯技術(shù)團隊已實現(xiàn)了48個語言翻譯方向，支持俄、西、法、阿、土，泰、印尼、越南等多種語言翻譯，其中電商覆蓋了大部分語向和場景，超越了谷歌和亞馬遜，日調(diào)用量達到17.9億次。

在機器視覺領(lǐng)域，機器智能技術(shù)實驗室在圖像搜索、大規(guī)模圖像識別、視頻分析、線下視覺智能等領(lǐng)域都有所建樹。其中，圖像搜索領(lǐng)域，阿里AI 的向量引擎比Facebook快6倍。

機器智能技術(shù)實驗室在6 月份剛剛結(jié)束的WebVision 競賽中，阿里AI 以82.54% 的識別準確率，擊敗了全世界150多支參賽隊伍，獲得冠軍。機器智能技術(shù)實驗室稱，阿里AI 目前可以識別超過100 萬種物理實體。

WebVison 是目前圖像識別領(lǐng)域最權(quán)威的競賽之一，專注于物體識別，被譽為接棒ImageNet 的大規(guī)模圖像識別競賽。

7 月，在CVPR2019舉辦的LPIRC（低功耗圖像識別挑戰(zhàn)賽）中，阿里AI獲得在線圖像分類任務第一名。在挑戰(zhàn)賽使用的訓練數(shù)據(jù)集上，阿里AI實現(xiàn)了67.4%的分類精度，比官方提供的基準線高3.5%。

值得注意的是，上述只是達摩院旗下機器智能技術(shù)實驗室的進展和成績。到2019 年10 月達摩院兩周年之際，會有更加全面的消息公布。

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：潔潔贏 > 《文件--1》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

潔潔贏

關(guān)注對話

TA的最新館藏

洛陽國花牡丹大賞
我是許七安：今天的工作完成了嗎
女人想和你“發(fā)生關(guān)系”，下意識會有的表現(xiàn)，很準
藍袍紫氅映嬌容
老蕪湖海關(guān) 煥新歸來
千畝月季花海引客來

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

成立快兩年，阿里巴巴達摩院都干什么了？

成立快兩年，阿里巴巴達摩院都干什么了？