日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

深度 | 周明:自然語言處理的未來之路 | CCF-GAIR 2019

 hover2007 2019-07-14

2012年至今,自然語言處理進入神經(jīng)網(wǎng)絡時代已經(jīng)7年,未來發(fā)展之路朝向何方?我們來看ACL 2019主席、微軟亞洲研究院副院長周明博士如何解讀~

AI 科技評論按:7 月 12 日-7 月 14 日,2019 第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)于深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協(xié)辦,得到了深圳市政府的大力指導,是國內(nèi)人工智能和機器人學術界、工業(yè)界及投資界三大領域的頂級交流博覽盛會,旨在打造國內(nèi)人工智能領域極具實力的跨界交流合作平臺。

周明博士在CCF-GAIR 2019會議上從什么是自然語言處理(NLP)、當前技術體系以及未來發(fā)展等角度,解讀了NLP未來發(fā)展之路。我們來看。

大家下午好!今天非常榮幸來到CCF-GRIR大會,今天下午這個論壇非常有意義,講的是中國人工智能四十周年紀念活動。

我是1985年在哈工大開始從事機器翻譯研究的,到現(xiàn)在也已經(jīng)有30多年了,經(jīng)歷了規(guī)則、統(tǒng)計和神經(jīng)網(wǎng)絡的三個階段?;叵脒^去真是感慨萬千,當時可以說是篳路藍縷,沒有什么東西,但是大家有一番熱情,要把中國自然語言、機器翻譯、人工智能推到世界的前沿。

中國人工智能開始于1979年到今天轉(zhuǎn)眼過去40年了?;厥卓匆幌挛覀兊淖匀徽Z言處理進展到什么程度了?我們未來的路在哪里?這就是我今天要給大家介紹的。

過去40年,自然語言基本上經(jīng)歷了從規(guī)則到統(tǒng)計,到現(xiàn)在的神經(jīng)網(wǎng)絡。相比過去,目前可以說是自然語言處理最黃金的時期,在很多領域都取得了突破性的進展。但我們審慎地看到神經(jīng)網(wǎng)絡自然語言處理過度依賴計算資源和數(shù)據(jù),在建模、推理和解釋方面還存在許多的不足。因此我們想問一下,這種模式是否可以持續(xù)?在未來的3到5年,NLP如何發(fā)展?

為了回答這個問題,我想把神經(jīng)網(wǎng)絡自然語言處理的技術在這里捋一遍,有哪些關鍵的技術點,存在哪些不足,我們未來又如何發(fā)展。我的觀點是:NLP未來的發(fā)展需要計算、數(shù)據(jù)、技術、人才、合作、應用等各個方面長期協(xié)同發(fā)展。

自然語言處理

什么叫自然語言處理?自然語言處理就是用計算機對人類語言進行處理,使得計算機具備人類的聽、說、讀、寫能力,它是未來人工智能技術最為關鍵的核心之一。比爾·蓋茨說過,“自然語言處理是人工智能皇冠上的明珠,如果我們能夠推進自然語言處理,就可以再造一個微軟?!?/span>

難度:把NLP看作人工智能皇冠上的明珠,其難度可想而知。來看下面這個例子:

詞完全一樣,意義截然相反。人在理解的時候有常識,有背景,所以能夠理解;可電腦沒有常識、沒有背景,只是根據(jù)字面來處理,因此它理解的都是一樣的。這就是自然語言處理的難處。

歷史:自然語言處理隨著計算機的出現(xiàn)而出現(xiàn),最早是做規(guī)則的系統(tǒng),后面做統(tǒng)計的系統(tǒng),現(xiàn)在做神經(jīng)網(wǎng)絡的系統(tǒng)。咱們中國的自然語言出現(xiàn)一點也不晚,建國之初就有人開始做俄漢機器翻譯系統(tǒng),后面又有人做英漢機器翻譯系統(tǒng)。我個人也有幸親歷和見證了機器翻譯的發(fā)展。我在哈工大的讀研時候(導師李生教授,1985年),從事中英機器翻譯研究,所研制的 CEMT 系統(tǒng)是中國最早通過正式鑒定的中英機器翻譯系統(tǒng)(1989年)。后來我在日本高電社領導研發(fā)了中日機器翻譯產(chǎn)品 J - 北京(1998年)。我1999年加入微軟之后先后從事了基于實例和基于統(tǒng)計機器翻譯研究,最近幾年我們做神經(jīng)機器翻譯研究。

可以說中國的自然語言處理是與世界的發(fā)展同步的。目前我可以很負責任地說,咱們中國的自然語言處理總體來講位居世界第二,僅次美國。為什么能有這么好的發(fā)展?得益于中國40年改革開放,得益于各大公司和很多學校的合作,尤其值得指出的是微軟研究院與相關學校的合作影響深遠。同時也得益于包括CCF在內(nèi)的各個學會過去幾十年在NLP領域深耕,舉辦學術會議(NLPCC最近進入CCF-國際會議列表)和各類暑期學校和講習班,促進學校、企業(yè)、公司各個單位合作,并推動研究協(xié)同式、平臺式發(fā)展。

定位:人工智能就是用電腦來實現(xiàn)人類獨具的智能。使得電腦能聽、會說、理解語言、會思考、解決問題、會創(chuàng)造。具體概括來講包括:運算智能、感知智能、認知智能和創(chuàng)造智能。運算智能就是記憶和計算的能力。這一點計算機已經(jīng)遠遠超過人類。而感知智能就是電腦感知環(huán)境的能力,包括聽覺,視覺,觸覺等等。相當于人類的耳朵、眼睛和手。認知智能包括語言理解、知識和推理。創(chuàng)造智能體現(xiàn)對未見過、未發(fā)生事物,運用經(jīng)驗,通過想象力、設計、實驗、驗證并予以實現(xiàn)的智力過程。

目前隨著感知智能的大幅度進步,人們的焦點逐漸轉(zhuǎn)向了認知智能。其中語言智能,也就是自然語言理解,則被認為是皇冠上的明珠。一旦有突破,則會大幅度推動認知智能,并提高人工智能的技術,并促進在很多重要場景落地。

過去幾年,由于數(shù)據(jù)越來越多,出現(xiàn)各種測試集;算法越來越復雜、越來越先進,包括神經(jīng)網(wǎng)絡的架構、預訓練模型等等;計算能力越來越高,在這三大因素的作用下,自然語言處理得到了飛速的發(fā)展。


微軟在四個NLP典型任務取得了突破性的進展。第一個是聊天機器人,我們中、日、英三種語言的聊天機器人均能達到跟人自由聊天23輪以上,目前在世界上是最好的。還有我們的閱讀理解技術、機器翻譯技術和語法檢查系統(tǒng),在目前的測試集下都居世界領先水平,而且在相應的測試集下都突破了人類的標注水平。

自然語言有很多的應用,像我們每天都用的輸入法、詞典、翻譯,以及我們跟中科院合作的手語翻譯、必應的語音助手、小冰,還有自然語言的文本生成,對聯(lián)、詩詞、猜謎、音樂等等。

技術體系

我給大家捋一下神經(jīng)網(wǎng)絡自然語言處理的技術體系。

首先是詞的編碼。詞編碼的目的是用多維向量來表征詞的語義。怎么做呢?著名的方法有兩個,一個是 CBOW((Continuous Bag-of-Words),用周圍的詞預測當前的詞;另一個是 Skip-gram,用當前的詞預測周圍的詞。通過大規(guī)模的學習訓練,就可以得到每個詞穩(wěn)定的多維向量,作為它的語義表示。

有了詞的語義表示,我們就可以進而生成句子的語義表示,也叫句子的編碼。一般通過RNN(循環(huán)神經(jīng)網(wǎng)絡)或者CNN(卷積神經(jīng)網(wǎng)絡)來做。RNN從左到右對句子進行建模,每個詞對應一個隱狀態(tài),該引狀態(tài)代表了從句首到當前詞的語義信息,句尾的狀態(tài)就代表了全句的信息。CNN從理論上分別進行詞嵌入 位置嵌入 卷積,加上一個向量表示,對應句子的語義。

基于這樣的表征,我們就可以做編碼、解碼機制。比如說我們可以用圖上的紅點,它代表全句的語義信息,來進行解碼,可以從一種語言翻譯成另一種語言,凡是從一個序列串變成另外一個序列串都可以通過編碼、解碼機制來運行。

隨后又引入了注意力模型。它綜合考量了在當前狀態(tài)下對應的編碼的每一個隱狀態(tài),加權平均,來體現(xiàn)當前的動態(tài)輸入。這類技術引入之后,神經(jīng)網(wǎng)絡機器翻譯就得到了飛速的發(fā)展。

后面又引入了Transformer。Transformer引入了自編碼,一個詞跟周圍的詞建立相似,引入多頭,可以引入多種特征表達,所以編碼效果或者編碼的信息更加豐富。

現(xiàn)在大家都在追捧預訓練模型。它有幾個方法,第一個是ELMo,從左到右對句子編碼,也可以從右到左對句子編碼,每一層對應的節(jié)點并起來,就形成了當前這個詞在上下文的語義表示。用的時候就用這個語義加上詞本身的詞嵌入,來做后續(xù)的任務,性能便得到相應的提高。

還有去年10月份比較火的BERT。它用左邊、右邊的信息來預測最外部的詞的信息,同時它也可以判斷下一句是真的下一句還是偽造的下一句,用兩種方式對句子每一個詞進行編碼,得到的訓練結(jié)果就表征了這個詞在上下文中的語義表示?;谶@樣的語義表示,就可以判斷兩個句子的關系,比如說是不是附屬關系,判斷一個句子的分類(例如Q&A中,判斷回答對應的邊界是不是對應提問),以及對輸入的每一個詞做一個標注,結(jié)果就得到一個詞性標注。

預訓練模型引起了很多人的關注。最早是一個靜態(tài)的詞的表征,所謂靜態(tài)詞的表征,就是不管上下文,表征是一樣的,比如“bank”這個詞有多個意思,它的表征也是一樣的。但是ELMo就要根據(jù)上下文體現(xiàn)它唯一的表征。

基于以上的方法,人們又開發(fā)了一系列的新的方法,比如說GPT-2,以及最近的XLNET,以及UNILM、MASS、MT-DNN、XLM,都是基于這種思路的擴充,解決相應的任務各有所長。其中微軟研究院的 UNILM 可同時訓練得到類似 BERT 和 GPT 的模型,而微軟 MASS 采用 encoder-decoder 訓練在機器翻譯上效果比較好。還有 MT-DNN 強調(diào)用多任務學習預訓練模型,而 XLM 學習多語言 BERT 模型,在跨語言遷移學習方面應用效果顯著。針對預訓練模型很多公司都有一些改進,這里就不一一列舉了。

現(xiàn)在由于這種預訓練模型大行其道,人們在思考,自然語言處理是不是應該改換一種新的模態(tài)。過去我們都說用基于知識的方法來充實當前的輸入,但是過去都沒有做到特別好,而這種新的預訓練模型給我們帶來一個新的啟發(fā):

我們可以針對大規(guī)模的語料,提前訓練好一個模型,這個模型既代表了語言的結(jié)構信息,也有可能代表了所在領域甚至常識的信息,只不過我們看不懂。加上我們未來的預定的任務,這個任務只有很小的訓練樣本,把通過大訓練樣本得到的預訓練模型,做到小訓練樣本上,效果就得到了非常好的提升。

未來發(fā)展

現(xiàn)在,NLP在許多任務上的性能都已經(jīng)超越了人類。聽起來世界一片大好,我們把數(shù)據(jù)準備好,買一大堆機器,只需要去訓練就好了,不用管太多的事情。所以現(xiàn)在好多人在刷榜,有了新的任務,搞一堆模型、一堆數(shù)據(jù)、一堆機器,刷個榜,我們就畢業(yè)了。

但是我認為不是這樣的,反而有強烈的危機感。

下面我就跟大家分析一下,目前存在的問題,以及我們應該怎么做才好。

第一個是無休止的計算資源的軍備競賽。現(xiàn)在大家都用大規(guī)模的機器訓練,同樣的算法,只要訓練速度快,就可以快速迭代,然后你的水平就比別人高。與之同時,當然也特別耗資源,許多模型一訓練可能要好幾天或者好幾萬美金。有時候它管事,但有時候也不管事。舉個例子:

在這個例子中,它用了10倍的蠻力,但是只有0.2%的效率提升。由于用了很多的資源,造成了環(huán)境的污染。最近有一篇網(wǎng)上比較火的論文,就是在討論這個計算模型。如果我們太依賴算力,就會對環(huán)境產(chǎn)生很大的影響。

第二個是過度依賴數(shù)據(jù)。首先你要標數(shù)據(jù),標注的代價是非常大的。其次,數(shù)據(jù)有隱含歧視的問題,通過數(shù)據(jù)分析,可能會得到歧視性的結(jié)果。另外數(shù)據(jù)有偏差,數(shù)據(jù)在標注的時候請人標注,人都是偷懶的,想最簡單的方法去標注,結(jié)果標注的數(shù)據(jù)千篇一律,基于這樣的數(shù)據(jù)學的模型也只能解決標注的數(shù)據(jù),拿到真實任務上由于跟你標注分布不一樣,所以根本不好使。比如說我們做Q&A問答系統(tǒng),我們在所有的問答里面都假設是第一名,但到了搜索引擎上有很多簡單的問題都解決不好。此外,還有數(shù)據(jù)隱私保護等等問題。

我們現(xiàn)在再往前走一走,看一看,假如我們不在乎資源,不在乎計算,我們看神經(jīng)網(wǎng)絡處理一些典型的任務,它的表現(xiàn)如何,有哪些問題。 

我這里選了三個最典型的問題。第一個是Rich Resource Tasks,即有足夠資源的任務,比如中英機器翻譯,網(wǎng)上有很多的資源。第二個Low Resources Tasks,即資源很少或沒有資源,比如說中文到希伯來語的翻譯,幾乎沒有什么資源。第三個是Multi-turn Tasks,就是多輪的意思,我們的客服都是多輪的。這三類問題基本上代表了自然語言最基本的問題,如果這三類問題都解決得很好,自然語言就基本OK了。我們看看這三類問題現(xiàn)在處于什么位置上。

針對Rich Resource Tasks,我們做一個中-英神經(jīng)網(wǎng)絡機器翻譯錯誤分析。這是一個大語料訓練的結(jié)果,

我這里選了三個最典型的問題。第一個是Rich Resource Tasks,即有足夠資源的任務,比如中英機器翻譯,網(wǎng)上有很多的資源。第二個Low Resources Tasks,即資源很少或沒有資源,比如說中文到希伯來語的翻譯,幾乎沒有什么資源。第三個是Multi-turn Tasks,就是多輪的意思,我們的客服都是多輪的。這三類問題基本上代表了自然語言最基本的問題,如果這三類問題都解決得很好,自然語言就基本OK了。我們看看這三類問題現(xiàn)在處于什么位置上。

針對Rich Resource Tasks,我們做一個中-英神經(jīng)網(wǎng)絡機器翻譯錯誤分析。這是一個大語料訓練的結(jié)果,


我們可以看到,盡管是基于大語料的,但翻出來的結(jié)果還有很多錯誤,包括翻錯詞、丟詞、不合語法等。

例如這個“土方”不是“earth”,而是“土耳其”的意思。因為神經(jīng)網(wǎng)絡現(xiàn)在不可解釋,它是黑箱,你也不知道它在哪兒丟的,有可能是數(shù)據(jù)問題,有可能是模型問題。 

還有成語,成語是很麻煩的,你即使學了很多的成語,在一個新的句子中,成語的翻譯也要發(fā)生變化,所以它要動態(tài)的計算。

所以即使在這樣的足夠資源的算法里面,仍然存在眾多的問題要研究,比如說丟詞,如何把詞典集成進來,如何上下文判斷一些問題,然后還有領域自適應、主體自適應等等,誰也不敢說這些問題通過Rich-Resource就解決了,這里面有上下文件聯(lián)系的問題,還有數(shù)據(jù)歧視的問題,還有Multi-task learning,還有Human knowledge。

第二個是Low Resources Tasks,就是沒什么語料,學起來很難,因此要借力。常用的有三種。

  • 第一是遷移模型,把從其它語料中學習到的內(nèi)容遷移過來。遷移訓練最常見的就是前面介紹的預訓練模型,把它加到目標任務上。

  • 第二是跨語言學習,即從其它語言學習過來。比如說英文有很多語料,我把英文的訓練模型用到法語、德語上,這個方式很流行。

  • 第三是利用種子進行迭代學習,比如我有一個小辭典,有幾條規(guī)則,有幾條雙語,我能不能用它當做一個引子,做一個冷啟動,啟動之后再迭代改進。

雖然我們做了很多的研究,但是在Low-Resource方面,我們并沒有一個很好的辦法。首先Low-Resource如何建模,如何從數(shù)據(jù)分析中做無監(jiān)督或少監(jiān)督的學習,這是沒有明確回答的問題。怎么做Transfer Learning,怎么做Unsupervised learning,也是目前的一個難題。還有一些先驗的規(guī)則辭典,如何讓它冷啟動起來;人能不能參與其中幫助一個開始弱小的系統(tǒng)逐漸變得更加強大。這些都是目前熱門的話題,都還沒有很好地解決。

第三個是Multi-turn Task(多輪問題)。以多輪對話為例。我們看下面這個例子: 

我們可以看到,對于小孩子很簡單的問題,電腦卻不知道該怎么回答。其原因在于目前的自然語言處理還沒有很好地解決常識和推理的問題。

此外,還有前后不一致、自我矛盾的問題。比如說用戶問“你今天多大了”?聊天機器人說“我16了”。隔幾天用戶又問“你今天多大了”?它可能說“我24歲”,自己前后不一致了.還有空間不一致、邏輯不一致的問題.這就需要人跟機器對話的時候,要有一個記憶體系,把說過的話的特征存儲起來,將來在用的時候,要抽取這樣的信息來表征一個機器人各方面的信息。

推理是要做很多事情。第一是要了解上下文,說過什么話,答過什么問題,干過什么事都要存儲起來,記憶起來。第二是各種各樣的知識要用起來。第三才是推理的部分,這里面涉及到語義分析、上下文的指代消解、省略消解。最后,還有就是可解釋的問題,如果你的推理不可解釋的話,那就沒有人會相信,導致你的系統(tǒng)無法進行進一步的推進。


我們要做推理,一般來講就是設計這樣的模型.它有記憶,記住我說過什么話,或者有哪些知識;有一個讀的裝置和一個寫的裝置,來了一個問題,經(jīng)過分析,到記憶里把狀態(tài)和知識找出來,把原來的記憶找出來,然后改變我們的對話狀態(tài);更新在記憶里的一些存儲。得到答案后,還要反過來更新我們的記憶和存儲。

未來之路

我們未來到底需要什么樣的自然語言處理系統(tǒng)呢?我認為要做出可解釋、有知識、有道德、可自我學習的NLP系統(tǒng)。這是一個很高的目標,現(xiàn)在離這個目標差得很遠。

我們怎么樣來實現(xiàn)這樣的目標呢?我們要從具體的任務出發(fā),找出存在的問題。剛才我說了,Rich-Resource存在什么問題呢?上下文建模、數(shù)據(jù)糾偏、多任務學習、人類知識的理解。再往下,Low-Resource又有什么問題要解決呢?我也列出了一些問題。多輪要解決什么問題呢?就是要解決知識常識、上下文建模、推理機制、可解釋等等。

如果我們有所推進的話,我們的認知智能就會進一步提升,包括語言的理解水平、推理水平、回答問題能力、分析能力、解決問題的能力、寫作能力、對話能力等等。然后再加上感知智能的進步,聲音、圖象、文字的識別和生成的能力,以及多模態(tài)文、圖交叉的能力,通過文字可以生成圖象,根據(jù)圖象可以生成描述的文字等等,我們就可以推進很多人類的應用,包括搜索引擎、智能客服,包括教育、財政、電子商務等等各個方面的應用。也可以把AI技術用在我們的產(chǎn)業(yè)上,幫助產(chǎn)業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型。

要想實現(xiàn)這件事其實是不容易的,需要各個方面綜合努力,所以NLP的未來之路需要不同的公司、學校、政府、企業(yè)、投資等等各個角度進行配合。

我這里總結(jié)一下,主要有6個角度非常重要。

第一是計算機的能力,剛才說到芯片、存儲器、云計算和管理,與之有關的還有模型壓縮和加速問題。

第二是數(shù)據(jù)方面,數(shù)據(jù)非常重要,全社會都要貢獻自己的數(shù)據(jù),然后取長補短,大家一起努力。數(shù)據(jù)上面還有一個隱私保護下的學習,這是非常重要的一點。

第三是模型,剛才說到很多,有監(jiān)督的學習、無監(jiān)督的學習、少監(jiān)督的學習,然后是預訓練模型,還有神經(jīng)網(wǎng)絡跟人類知識和常識如何結(jié)合,把推理和可解釋性融入到我們的學習體系之中。

第四是人才培養(yǎng),一定要靠人來實現(xiàn)整體的過程。人才如何進行培養(yǎng)呢?要注重實踐性,讓他們有很強的實踐意識,而不是天天去推公式,還要有邏輯上的理解。

第五是合作,校企合作、不同學科的合作、國家的合作、企業(yè)界、投資界、政府各個方面的合作,形成一個生態(tài),大家在里面各得其所,來穩(wěn)步推進。

第六是強調(diào)應用,通過應用獲得真實的數(shù)據(jù)、用戶的反饋,然后改進我們的系統(tǒng),也通過應用提升學生的動手能力,也是通過應用使我們了解人和機器在一個真實的系統(tǒng)里如何相得益彰、互相配合,實現(xiàn)人工智能和人類智能的雙向結(jié)合。 

謝謝大家!

End

我們將會在本次峰會后,在「AI投研邦」上線CCF GAIR 2019峰會完整視頻與各大主題專場白皮書,包括機器人前沿專場、智能交通專場、智慧城市專場、AI芯片專場、AI金融專場、AI醫(yī)療專場、智慧教育專場等。「AI投研邦」會員們可免費觀看全年峰會視頻與研報內(nèi)容,掃碼進入會員頁面了解更多。峰會期間專享立減399元福利,可進入頁面直接領取,或私信助教小慕(微信:moocmm)咨詢。(最后一天50個名額,速搶。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多