阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

方之圓 2017-05-05

展開全文

更多深度文章，請(qǐng)關(guān)注云計(jì)算頻道：https://yq.aliyun.com/cloud

云棲TechDay第33期，阿里巴巴iDST 自然語言處理部總監(jiān)上乘帶來題為“NLP技術(shù)的應(yīng)用及思考”的演講。本文主要從NLP背景開始談起，重點(diǎn)介紹了AliNLP平臺(tái)，接著分享了NLP相關(guān)的應(yīng)用實(shí)例，最后對(duì)NLP的未來進(jìn)行了思考。

以下是精彩內(nèi)容整理：

背景介紹

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

阿里巴巴的生態(tài)系統(tǒng)下面有很多的計(jì)算平臺(tái)，上面有各種各樣的業(yè)務(wù)層，最中間是買家和賣家之間包括銷售、支付等等之間的關(guān)系，外面建了一圈從娛樂到廣告到金融到購物到物流等等各方面這樣一個(gè)生態(tài)，中間有非常多的數(shù)據(jù)能夠關(guān)聯(lián)起來，所以對(duì)于阿里巴巴而言，這個(gè)圖可以非常簡(jiǎn)練的概括我們?cè)谧鍪裁?，中間是最重要的數(shù)據(jù)，下面數(shù)據(jù)包含了最核心的也是阿里巴巴最早起家的來自于電商的數(shù)據(jù)，所以電商對(duì)于我們而言是非常重要的，后來又?jǐn)U展出了金融、菜鳥物流、健康和娛樂，比如我們有大文娛事業(yè)群，去做了優(yōu)酷土豆等各種各樣的數(shù)據(jù)，數(shù)據(jù)當(dāng)中包含了很多的文本。

比如阿里的電商平臺(tái)里面有數(shù)十億的商品，每一個(gè)商品都包含詳細(xì)的標(biāo)題、副標(biāo)題、詳情頁、評(píng)價(jià)區(qū)，甚至問答區(qū)，這里面的信息構(gòu)成了一個(gè)非常豐富的商品信息，還有上億的文章，阿里在兩年前開始進(jìn)入內(nèi)容時(shí)代，比如現(xiàn)在各種各樣的內(nèi)容營銷、直播還有一些問答的場(chǎng)景圓桌等等，文章里面可以包含各種各樣的標(biāo)題、正文和評(píng)論等大量的數(shù)據(jù)，這只是電商的例子，還有金融、物流、健康、娛樂，加在一起還會(huì)有海量的數(shù)據(jù)，就會(huì)孕育出大量文本處理的工作需求。

自然語言處理是什么呢？

1.語言是生物同類之間由于溝通需要而制定的具有統(tǒng)一編碼解碼標(biāo)準(zhǔn)的聲音(圖像)指令。包含手勢(shì)、表情、語音等肢體語言，文字是顯像符號(hào)。

2.自然語言通常是指一種自然地隨文化演化的語言。例如英語、漢語、日語等。有別于人造語言，例如世界語、編程語言等。

3.自然語言處理包括自然語言理解和自然語言生成。自然語言理解是將自然語言變成計(jì)算機(jī)能夠理解的語言，及非結(jié)構(gòu)化文本轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化信息。

4. NLP的四大經(jīng)典“AI 完全 ” 難題：?jiǎn)柎稹?fù)述、文摘、翻譯，只要解決其中一個(gè)，另外三個(gè)就都解決了。問答就是讓機(jī)器人很開放的回答你提的各種各樣問題，就像真人一樣；復(fù)述是讓機(jī)器用另外一種方式表達(dá)出來；文摘就是告訴你一篇很長的文章，讓你寫一個(gè)100字的文摘，把它做出來是非常難做的；翻譯也是很困難的，英語思維方式和中文思維方式轉(zhuǎn)換過來，中間會(huì)涉及到很多復(fù)雜的問題。

阿里巴巴需要什么樣的自然語言處理技術(shù)？

阿里的生態(tài)是非常復(fù)雜的，我們不能用一個(gè)簡(jiǎn)單的自然語言處理技術(shù)去解決所有的問題，以往自然語言處理是比較簡(jiǎn)單的，甚至一個(gè)詞表放上去就解決所有問題了，隨著電商生態(tài)的擴(kuò)展，就需要非常復(fù)雜的技術(shù)，所以我們需要完備且高性能的自然語言處理技術(shù)，高性能體現(xiàn)在算法精度還有執(zhí)行效率，IDST的定位如下：

-引領(lǐng)技術(shù)前沿-趕超市場(chǎng)最佳的競(jìng)爭(zhēng)者，完備和完善AliNLP平臺(tái)的技術(shù)體系及服務(wù)能力；

-賦能核心業(yè)務(wù)-幫助核心業(yè)務(wù)快速成長，尋找和解決業(yè)務(wù)方的最痛點(diǎn)；

-創(chuàng)造商業(yè)機(jī)會(huì)-創(chuàng)造看似不可能的商業(yè)技術(shù)，深度理解語言，深度理解需求，變革產(chǎn)品體驗(yàn)。

AliNLP 自然語言技術(shù)平臺(tái)

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

圖為我們整個(gè)自然語言處理平臺(tái)最核心的框圖，底層是各種各樣的基礎(chǔ)數(shù)據(jù)，中間層包含基本的詞法分析、句法分析、語義分析、文檔分析，還有其他各種各樣跟深度學(xué)習(xí)相關(guān)的一些技術(shù)；上層是自然語言處理能夠直接掌控和變革的一些算法和業(yè)務(wù)，比如內(nèi)容搜索、內(nèi)容推薦、評(píng)價(jià)、問答、文摘、文本理解等等一系列問題，最上層我們直接支持大業(yè)務(wù)的單元，比如商品搜索、推薦、智能交互、翻譯。商業(yè)翻譯和普通機(jī)器翻譯是不一樣的，還有廣告、風(fēng)控、輿情監(jiān)控等等。這個(gè)層次結(jié)構(gòu)是比較傳統(tǒng)的方式，為了讓我們平臺(tái)具有非常好的落地能力，右邊有一列平臺(tái)工程，專門解決如何讓算法能夠快速的用到業(yè)務(wù)里面去。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

將核心框圖細(xì)化，底層有各種各樣的數(shù)據(jù)，比如實(shí)體庫、源學(xué)辭典、詞性標(biāo)注庫、詞性關(guān)系庫、句法樹庫、情感分析標(biāo)注庫，還有情感詞典、資訊庫、圖譜等等。這些是詞法分析，包括分詞、詞性、實(shí)體識(shí)別，拼寫檢查等一些基礎(chǔ)的組件，句法分析有結(jié)構(gòu)句法分析、依存句法分析、語義分布表示等等，還有語義分析，包含詞義消歧、語義角色標(biāo)注、主題模型、行為表示等。還有文檔分析，比如普通的文檔聚類、文檔分類、事件挖掘、層次聚類和意圖分類，其他部分就是我們嘗試比較多的偏深度學(xué)習(xí)的一些自然語言算法。

右邊的平臺(tái)工程我們做了很多嘗試。團(tuán)隊(duì)經(jīng)過幾年的發(fā)展，不停的去反思如何把我們的技術(shù)快速的跟業(yè)務(wù)對(duì)接起來，經(jīng)過不停的嘗試之后，我們做了很多的可視化、需求管理、用戶中心、監(jiān)控中心、系統(tǒng)運(yùn)維，還有自動(dòng)的標(biāo)注平臺(tái)、訓(xùn)練平臺(tái)、評(píng)測(cè)中心等等，經(jīng)過一系列的封裝，才會(huì)使得平臺(tái)越來越完善。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

圖為阿里AliNLP系統(tǒng)架構(gòu)圖，左邊是算法模塊，包括知識(shí)庫、語料庫、算法模型，中間是服務(wù)化平臺(tái)，比如我們的服務(wù)分為在線服務(wù)和離線服務(wù)。離線服務(wù)有阿里巴巴最大的計(jì)算平臺(tái)ODPS，里面做了很多這方面的UDF操作，在線有HSF和HTTP服務(wù)，可以很好的對(duì)接各種各樣的相關(guān)服務(wù)方；中間有用戶中心、監(jiān)控中心、測(cè)試中心、系統(tǒng)運(yùn)維等比較復(fù)雜的一套體系。右邊是我們對(duì)接的一套生態(tài)平臺(tái)，上面可以通過我們的接口層直接對(duì)接各種各樣的應(yīng)用。我們迭代了很多輪才出現(xiàn)這樣的結(jié)構(gòu)，現(xiàn)在大概支持30多個(gè)業(yè)務(wù)方，平均每天的調(diào)用量在數(shù)百億規(guī)模。

AliNLP平臺(tái)核心價(jià)值

AliNLP平臺(tái)核心價(jià)值就是解耦。我們希望通過做這樣一個(gè)平臺(tái)，去面對(duì)整個(gè)阿里巴巴的生態(tài)系統(tǒng)：

算法超市。我們希望平臺(tái)是NLP算法超市，業(yè)務(wù)方可以清晰看到分門別類的NLP算法；

工程小白。我們希望平臺(tái)解決一切工程問題，算法工程師可以是工程小白只需專注算法研發(fā)；

系統(tǒng)生態(tài)。對(duì)于系統(tǒng)，以此為中心形成一個(gè)系統(tǒng)生態(tài)體系，從各個(gè)環(huán)節(jié)切入服務(wù)NLP算法和業(yè)務(wù)；

服務(wù)底線。對(duì)于產(chǎn)品運(yùn)營，平臺(tái)只做底層模型的服務(wù)輸出，不直接對(duì)接業(yè)務(wù)。

經(jīng)過各種各樣的迭代、打磨、思考、反思，5月初會(huì)發(fā)布2.0版本，我們希望做持續(xù)的改進(jìn)。我們平臺(tái)中最核心的三個(gè)概念如下：

1.模型：最基本的算法邏輯復(fù)用單元，如果用算法超市的概念解釋，模型就是原材料，模型是算法工程師的主要產(chǎn)出成果；

2.方案：是多個(gè)模型的組合，用于真正解決某一方向的具體問題，類似于待售的超市商品。方案是業(yè)務(wù)、算法的結(jié)合之處，我們負(fù)責(zé)“算法售賣”的同學(xué)會(huì)應(yīng)用手頭已有的模型通過不同的組合配置，產(chǎn)生出不同的商品供最終業(yè)務(wù)方的用戶使用；

3.場(chǎng)景：是多個(gè)方案在線上部署的最終形態(tài)，是最終服務(wù)的提供者，是業(yè)務(wù)方真正使用我們的算法大禮包的地方。按目前的設(shè)計(jì)，不同的業(yè)務(wù)方可以在相互隔離的多個(gè)場(chǎng)景中使用算法服務(wù)。

只有理解這三個(gè)概念，才會(huì)知道平臺(tái)怎么去很好的使用。

NLP算法舉例

下面對(duì)我們的算法做一些比較簡(jiǎn)單的舉例。

1.詞法分析（分詞、詞性、實(shí)體）：

–算法：基于Bi-LSTM-CRF算法體系，以及豐富的多領(lǐng)域詞表

–應(yīng)用：優(yōu)酷、YunOS、螞蟻金服、推薦算法、資訊搜索等

2.句法分析（依存句法分析、成分句法分析）：

–算法：Shift-reduce，graph-based，Bi-LSTM

–新聞?lì)I(lǐng)域、商品評(píng)價(jià)、商品標(biāo)題、搜索Query

–應(yīng)用：資訊搜索、評(píng)價(jià)情感分析

3.情感分析（情感對(duì)象、情感屬性、情感屬性關(guān)聯(lián)）：

–算法：情感詞典挖掘，屬性級(jí)、句子級(jí)、篇章級(jí)情感分析

–應(yīng)用：商品評(píng)價(jià)、商品問答、品牌輿情、互聯(lián)網(wǎng)輿情

4.句子生成（句子可控改寫、句子壓縮）：

–算法：Beam Search、Seq2Seq Attention

–應(yīng)用：商品標(biāo)題壓縮，資訊標(biāo)題改寫，PUSH消息改寫

5.句子相似度（淺層相似度、語義相似度）：

–算法：Edit Distance，Word2Vec，DSSM

–應(yīng)用：?jiǎn)柎蠹蚁嗨茊栴}、商品重發(fā)檢測(cè)、影視作品相似等

6.文本分類/聚類（垃圾防控、信息聚合）：

–算法：ME，SVM，F(xiàn)astText

–應(yīng)用：商品類目預(yù)測(cè)、問答意圖分析、文本垃圾過濾、輿情聚類、名片OCR后語義識(shí)別等

7.文本表示（詞向量、句子向量、篇章向量、Seq2Seq）：

–Word2Vec、LSTM、DSSM、Seq2Seq為基礎(chǔ)進(jìn)行深入研究

8.知識(shí)庫

–數(shù)據(jù)規(guī)模：電商同義詞，通用同義詞，電商上下位，通用上下位，領(lǐng)域詞庫（電商詞、娛樂領(lǐng)域詞、通用實(shí)體詞），情感詞庫

–挖掘算法：bootstrapping，click-through mining，word2vec，k-means，CRF

–應(yīng)用：語義歸一、語義擴(kuò)展、Query理解、意圖理解、情感分析

9.語料庫

–分詞、詞性標(biāo)注數(shù)據(jù)，依存句法標(biāo)注數(shù)據(jù)

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

有這樣一句話叫“我要買秋天穿的紅色連衣裙”，這句是電商領(lǐng)域中比較常見的，詞法分析結(jié)果會(huì)把中間“我要”拆開。分詞要分的很準(zhǔn)，它不是每個(gè)單字都是一個(gè)詞，比如秋天是一個(gè)詞，連衣裙是一個(gè)詞。下面這一層標(biāo)簽是對(duì)應(yīng)的詞性。上面這一層就是句子樹型結(jié)構(gòu)，它會(huì)比較深入的把句子比較深度的結(jié)構(gòu)化。只有把它結(jié)構(gòu)化之后才能導(dǎo)到數(shù)據(jù)庫里面去，才能做后續(xù)的各種機(jī)器學(xué)習(xí)研究和應(yīng)用，這種叫結(jié)構(gòu)句法分析。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

對(duì)于電商而言，光有句法分析是不夠的，比如我要知道秋天的含義是說這是個(gè)適用季節(jié)，紅色是一個(gè)顏色分類，連衣裙是一個(gè)產(chǎn)品，要做到這一步才會(huì)使得真正在電商里面用起來。

比如我們用的是通用領(lǐng)域依存分析器，我們針對(duì)商品標(biāo)題決定某一個(gè)依存句法分析器，假設(shè)某一個(gè)商品標(biāo)題寫的是“我要買秋天穿的紅色連衣裙”，只需要把“秋天”、“紅色”、“連衣裙”這幾個(gè)關(guān)鍵的成分標(biāo)出來，“我要買”和“穿的”對(duì)電商而言是沒有意義的，但會(huì)去做進(jìn)一步的組合。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

如果這個(gè)句子是一個(gè)query，對(duì)于某些核心成分一點(diǎn)都不需要，完全不用看，直接會(huì)把它輸出“秋天”、“紅色”、“連衣裙”三個(gè)串，中間依存關(guān)系標(biāo)出就可以了。這樣可以做很好的信息凝練。這是我們針對(duì)三種不同類型的文本做的很深入的底層自然語言處理分析。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

這個(gè)例子是一個(gè)買家對(duì)于某一個(gè)商品寫的一個(gè)評(píng)論，“雖然有點(diǎn)貴，不是很修身，但是顏色很亮，布料摸起來挺舒服的，圖案也好看。挺喜歡的。”，上圖是我們的情感分析結(jié)果，我們情感分析不但要知道整句的信息，比如說整句有藍(lán)色、淡藍(lán)色，淡藍(lán)色表示情感是正向的，整個(gè)句子表達(dá)的是一個(gè)比較褒義的結(jié)果，但不是非常滿意。

再下面我們做的更深入一點(diǎn)，比如說貴、修身、顏色等等，做了很細(xì)粒度的一個(gè)拆解，這種叫屬性級(jí)的情感分析。情感詞比如說“貴”它是一個(gè)形容詞，貴表達(dá)的是相對(duì)的關(guān)系，有時(shí)候說黃金很貴，這時(shí)就是一個(gè)褒義。所以這個(gè)詞語非常復(fù)雜，不同環(huán)境下褒貶不一。如修身，這個(gè)平臺(tái)里面表達(dá)修身是一個(gè)很嚴(yán)重的反向關(guān)系，所以我們就把它識(shí)別出來是個(gè)很紅色的關(guān)系，只要經(jīng)過很深度的細(xì)致分析之后，后面可以做各種各樣的玩法。

應(yīng)用實(shí)例

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

圖中顯示商品標(biāo)題和副標(biāo)題。 “2015年秋冬毛衣連衣裙我是證人楊冪同款寬松顯瘦時(shí)尚打底針織連衣裙”，它不是一個(gè)自然語言的原句子，是一堆詞語拼湊在一起的，副標(biāo)題就自然一點(diǎn)。因?yàn)樗阉饕嬉躁P(guān)鍵詞為核心算法，關(guān)鍵詞堆砌的話搜索結(jié)果不會(huì)往前面排，銷量就不好，所以標(biāo)題就變成這個(gè)樣子了。而副標(biāo)題沒有應(yīng)用這種算法，副標(biāo)題不進(jìn)索引庫，不能搜索，只是一個(gè)營銷的額外宣傳語。所以電商的自然語言處理是很有意思的。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

對(duì)標(biāo)題做深度理解和分析的時(shí)候，我們知道商品的產(chǎn)品詞、款式、材質(zhì)、風(fēng)格、服務(wù)營銷、適用季節(jié)等，做到這種結(jié)構(gòu)化后，就可以把一個(gè)文本串變成一個(gè)數(shù)據(jù)庫。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

這個(gè)擺件的標(biāo)題也可以做很深入的分析，也可以變成一長串結(jié)果，如果你要建一個(gè)電子商務(wù)搜索引擎的話，或者電子商務(wù)推薦引擎的話，只有做到這一步，才會(huì)使你的引擎更加智能。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

標(biāo)題分析主要分四步：

第一步先做分詞。把第一行變成第二行，打空格用了很多算法、詞表、人工、優(yōu)化的思路；

第二步是實(shí)體打標(biāo)。需要知道每個(gè)詞語是什么含義，粉紅大布娃娃是個(gè)品牌，泡泡袖是個(gè)袖型等等，這樣你的搜索引擎就更加智能一點(diǎn)；

第三步是熱度計(jì)算。把熱度分?jǐn)?shù)識(shí)別出來，因?yàn)榇锩婷總€(gè)詞不是等價(jià)的，有些重要性非常高，有些重要性非常低；

第四步是中心識(shí)別。我們用依存句法分析方法來做，表達(dá)這個(gè)句子的最核心關(guān)系就是春裝連衣裙，這里面可以做進(jìn)一步的簡(jiǎn)化，選取合適的某一個(gè)維度的信息。這樣，你的數(shù)據(jù)庫就非常好了，可以做很多深入的工作。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

如果買家寫的原始標(biāo)題非常長，在PC上顯示一個(gè)標(biāo)題，但是在手機(jī)上顯示一長串的時(shí)候，就會(huì)把標(biāo)題按照字?jǐn)?shù)限制截?cái)?。你?huì)發(fā)現(xiàn)很多截?cái)啾緛聿粦?yīng)該，截?cái)嘀竽┪材且淮畔⑵鋵?shí)也是蠻關(guān)鍵的，我們把它變成如圖一種關(guān)系，當(dāng)買家來看商品信息的時(shí)候，在窄屏的區(qū)域里面能夠很好的顯示出來，所以就會(huì)使得我們的銷量包括購買體驗(yàn)都會(huì)提升。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

關(guān)于輿情文本分析，我們有文本的分類、標(biāo)簽和文檔聚類技術(shù)。假如你在手機(jī)淘寶app評(píng)價(jià)寫了一堆東西，就進(jìn)入了我們的流程。我們的系統(tǒng)叫摩天輪，會(huì)自動(dòng)的把你寫的每一條評(píng)論做各種各樣的分析和處理，包括聚類的和標(biāo)簽的很細(xì)粒度的解析。

商品評(píng)價(jià)

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

有關(guān)商品的評(píng)價(jià)，我們積累了幾百億條評(píng)論，這是非常海量的一個(gè)數(shù)據(jù)庫。它通過商品的搜索推薦還有文章的引導(dǎo)，到商品詳情頁之后，有上億的人每一天在看評(píng)價(jià)，通過看詳情頁之后，你可以去做要么收藏，要么放購物車，要么直接購買的決策，后面才有支付訂單管理，最后還有評(píng)價(jià)。寫下來評(píng)價(jià)之后，評(píng)價(jià)會(huì)經(jīng)過我們的過濾挖掘和展現(xiàn)，再回到詳情頁里面來，這就是一個(gè)閉環(huán)。真實(shí)評(píng)價(jià)對(duì)購物決策有重要作用，評(píng)價(jià)作為淘寶最大的UGC，富含對(duì)商品的體驗(yàn)和知識(shí)，瀏覽評(píng)價(jià)與否對(duì)收藏、加購、下單、客單價(jià)均有顯著影響。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

上圖為商品詳情頁，下面是正常寫的評(píng)論，我們會(huì)在上面做大家印象，會(huì)把所有的評(píng)論做一個(gè)綜合的摘取和總結(jié)，點(diǎn)擊某一個(gè)，下面就會(huì)變成一堆相關(guān)文本篩選出來，并且把那一段描述的文本高亮。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

圖為我們的算法總架構(gòu)圖。如果要做某一個(gè)電商類或者某種服務(wù)體系的評(píng)價(jià)系統(tǒng)，可以采用這種模式。左邊是一種溯源的機(jī)制，我們希望鼓勵(lì)用戶去寫更多更好的評(píng)價(jià)，包括交互的優(yōu)化，去提升有用評(píng)論的積累。有了數(shù)據(jù)之后，我們要去做去偽。去偽就是我們有一個(gè)評(píng)價(jià)霧霾工作，會(huì)把文本和圖片的垃圾都去掉，做好之后才能保證信息是比較真實(shí)的。我們會(huì)對(duì)核心數(shù)據(jù)庫做語義分析，會(huì)結(jié)合某一些類目來做，做完之后我們會(huì)考慮它的時(shí)效性和個(gè)性化，還有買賣家模型，再做排序折疊和大家印象的扶優(yōu)。然后再做增值，我們會(huì)有一些比如優(yōu)質(zhì)內(nèi)容庫、推薦理由、評(píng)價(jià)有賞。通過評(píng)價(jià)去發(fā)現(xiàn)商品的品質(zhì)好不好，是不是假貨，物流滿意度如何，這里面可以做很多很深入的分析。

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

評(píng)價(jià)霧霾中間是非常復(fù)雜的一套體系，有很多工程很多算法迭代了很久，比如說廣告的樣本怎么采集，有全類目的和分類目的，還有正常廣告的，怎么去做拆分，有一些基礎(chǔ)特征庫比如用戶特征、文本特征、模型特征、行為特征等做融合，最后再用一個(gè)treelink模型，把maxent模型、貝葉斯模型和dbn模型總體做融合，然后再回流，一天一天迭代。

問大家

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

商品中有另外一個(gè)很有趣的產(chǎn)品叫問大家。以買奶粉為例，假如你有五個(gè)鄰居，有三個(gè)鄰居買過同一款奶粉，你要買奶粉可能希望多問兩家，如果三個(gè)人都買過A奶粉，三個(gè)人的回答結(jié)果綜合看一看，做最終的決策。我們把它做成產(chǎn)品化，那我們做一個(gè)問題的拆解分為四類：無效問題、相似問題、問答排序、智能分發(fā)。

問大家3個(gè)問題解析如下：

無效問題過濾

–專業(yè)的外包同學(xué)標(biāo)注無效問題，Active Learning篩選待標(biāo)注樣本

–分類采用LR GBDT，定制特征

–無效問題會(huì)不斷變種，算法和標(biāo)注迭代推進(jìn)

相似問題識(shí)別

–Doc2Vec然后計(jì)算相似度，人工評(píng)測(cè)

頁面問答排序

–內(nèi)容豐富度、點(diǎn)贊數(shù)、過濾詞表匹配數(shù)等加權(quán)求和

–Detail頁透出的一條問大家CTR 提升

內(nèi)容資訊分析

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

針對(duì)內(nèi)容我們需要做大量的分析，比如說底層我們有各種各樣的數(shù)據(jù)庫要匯總，中間有一些文本算法，比如說相關(guān)性、時(shí)效和質(zhì)量、CTR預(yù)估、個(gè)性化、分類、打標(biāo)、質(zhì)量和去重等等，中間也有一些系統(tǒng)工程，還有服務(wù)體系。上面是業(yè)務(wù)場(chǎng)景，比如淘秘籍、微淘、淘寶頭條、知識(shí)卡片、社區(qū)問答等等，會(huì)讓你迅速進(jìn)入一個(gè)很好的購物背景知識(shí)狀態(tài)，使你做更好的購物決策。你可以在手機(jī)淘寶搜索結(jié)果頁的第四個(gè)Tab里看到我們的淘秘籍產(chǎn)品。

思考

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

自然語言處理難在哪呢？它涉及到人的認(rèn)知，知識(shí)<=>語言<=>思考<=>行動(dòng)，左邊專注到知識(shí)，右邊專注到思考和行動(dòng)。它是非常復(fù)雜的，最難的問題有兩個(gè)：第一就是歧義，自然語言與計(jì)算機(jī)語言是完全不可調(diào)和的，計(jì)算機(jī)語言是精確的、可枚舉的、無歧義的。第二是變化，變化是非常劇烈的。它的語法是群體一致，個(gè)體有差異，語言每天都在發(fā)生變化，新詞總在不斷的產(chǎn)生，無法窮舉，不同上下文不同含義，甚至隨時(shí)間推移，詞義也在發(fā)生變化，例如Apple->公司，甚至詞性也在發(fā)生變化，如Google ->to google 。

那么，NLP怎么走？

在完全搞清人腦機(jī)制前，NLP研發(fā)永遠(yuǎn)是在模擬人類群體智慧在某些文字方面的表現(xiàn)；

這種模仿的效果會(huì)越來越好，持續(xù)提升；

更深入的模擬是，NLP會(huì)和語音、圖像、視頻、觸覺等多維度信息融合學(xué)習(xí)。

我們未來會(huì)做什么，我們?cè)谝荒曛畠?nèi)會(huì)繼續(xù)把AliNLP平臺(tái)做的完備和完善，開放更多的能力，服務(wù)好阿里的各種生態(tài)系統(tǒng)。我們希望調(diào)用量能超過千億，兩年之內(nèi)我們爭(zhēng)取能夠?qū)ν忾_放，普惠大眾，更好的開放融合，調(diào)用量希望達(dá)到萬億，我們希望做的更美好！

上乘：阿里巴巴iDST 自然語言處理部總監(jiān)，博士畢業(yè)于哈爾濱工業(yè)大學(xué)自然語言處理方向，曾在新加坡資訊技術(shù)研究院工作四年擔(dān)任研究科學(xué)家負(fù)責(zé)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的研發(fā)和應(yīng)用，2014年至今在阿里巴巴iDST擔(dān)任資深專家，從零組建了自然語言處理部門，負(fù)責(zé)自然語言處理技術(shù)平臺(tái)的研發(fā)和多項(xiàng)核心業(yè)務(wù)應(yīng)用。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：方之圓 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)