近年來(lái),腦科學(xué)與類(lèi)腦智能已經(jīng)成為世界各國(guó)研究的熱點(diǎn)。記者從近日在天津召開(kāi)的“類(lèi)腦智能創(chuàng)新論壇”上獲悉,我國(guó)也即將啟動(dòng)“中國(guó)腦計(jì)劃”。自然語(yǔ)言處理技術(shù)是各種“腦計(jì)劃”的核心技術(shù)之一,未來(lái)“中國(guó)腦計(jì)劃”的構(gòu)建也離不開(kāi)中文語(yǔ)言處理核心技術(shù)的突破。 自然語(yǔ)言處理已到中級(jí)階段 “簡(jiǎn)單來(lái)說(shuō),‘自然語(yǔ)言處理’就是讓計(jì)算機(jī)能夠像人一樣使用語(yǔ)言文字?!鄙綎|大學(xué)文學(xué)與新聞傳播學(xué)院教授盛玉麒介紹?!白匀徽Z(yǔ)言處理的基本任務(wù)是解決人機(jī)交互中涉及的各種技術(shù)問(wèn)題?!敝袊?guó)社會(huì)科學(xué)院語(yǔ)言研究所研究員李?lèi)?ài)軍告訴記者,自然語(yǔ)言處理包括對(duì)文本信息的處理以及對(duì)語(yǔ)音信息的處理。 盛玉麒將自然語(yǔ)言處理研究與應(yīng)用分為三個(gè)階段:初級(jí)階段的自然語(yǔ)言處理主要解決語(yǔ)言文字的輸入、輸出、存儲(chǔ)、傳輸、顯示、打印、編輯、檢索等功能;中級(jí)階段的自然語(yǔ)言處理就是讓機(jī)器具有一定的智能,能夠自動(dòng)識(shí)別自然語(yǔ)言指令,按照指令完成信息檢索、數(shù)據(jù)提取、查詢(xún)、不同語(yǔ)言的自動(dòng)翻譯等;高級(jí)階段就是智能化處理,速度、容量和正確率都能夠達(dá)到接近人的程度。 目前學(xué)界和業(yè)界已經(jīng)實(shí)現(xiàn)初級(jí)階段的任務(wù),中級(jí)階段也取得了一些關(guān)鍵性突破,諸如電子詞典、快譯通、機(jī)器翻譯等,體現(xiàn)了相關(guān)技術(shù)的產(chǎn)品化。盛玉麒談到,不過(guò),整體來(lái)看這些技術(shù)應(yīng)用的正確率還不理想,自然語(yǔ)言處理的中級(jí)階段還處在攻關(guān)過(guò)程中,離高級(jí)階段的真正智能化目標(biāo)還有較遠(yuǎn)距離。 規(guī)則與統(tǒng)計(jì)相結(jié)合 破解自然語(yǔ)言處理難題 如何才能讓計(jì)算機(jī)像人類(lèi)一樣使用語(yǔ)言文字?杭州師范大學(xué)錢(qián)江學(xué)者講座教授馮志偉研究自然語(yǔ)言處理已50多年,他表示,“為了使現(xiàn)實(shí)的自然語(yǔ)言成為可以由計(jì)算機(jī)直接處理的對(duì)象,我們都需要建立語(yǔ)言的‘形式模型’,使之能以一定的數(shù)學(xué)形式,嚴(yán)密而規(guī)整地表示出來(lái),建立自然語(yǔ)言的‘計(jì)算模型’,使之能夠在計(jì)算機(jī)上實(shí)現(xiàn)?!?/span> 李?lèi)?ài)軍告訴記者,完成自然語(yǔ)言處理要克服一系列難題,比如單語(yǔ)分析任務(wù)中語(yǔ)言的歧義性,遠(yuǎn)距離相關(guān)性,動(dòng)態(tài)性,隨意性以及多語(yǔ)任務(wù)中的語(yǔ)序差異性,語(yǔ)義集合的差異性,表達(dá)習(xí)慣差異性等。 就漢語(yǔ)而言,在歧義性方面,漢語(yǔ)的詞形變化較少,語(yǔ)義的確定更多地依賴(lài)上下文及場(chǎng)景關(guān)系;而在隨意性方面,漢語(yǔ)的語(yǔ)法結(jié)構(gòu)更為靈活多變?!坝捎跐h語(yǔ)的語(yǔ)言特征,學(xué)界在中文自然語(yǔ)言處理中面臨更多難題。”多年來(lái)從事漢語(yǔ)自然語(yǔ)言處理的盛玉麒對(duì)此深有體會(huì),漢語(yǔ)的自動(dòng)分詞、詞性標(biāo)注、規(guī)則提取、規(guī)則描寫(xiě)、歧義消解等方面是中文自然語(yǔ)言處理重要瓶頸。 基于這些難題,自然語(yǔ)言處理的研究歷經(jīng)從基于規(guī)則到基于統(tǒng)計(jì)、進(jìn)而規(guī)則與統(tǒng)計(jì)相結(jié)合的發(fā)展過(guò)程?!霸缙跒榱伺浜匣谝?guī)則的方法而建設(shè)的大量知識(shí)庫(kù)為自然語(yǔ)言處理研究打下了很好的基礎(chǔ)。但基于規(guī)則的方法難以覆蓋大量的變體和適應(yīng)快速的變化,由此興起了基于統(tǒng)計(jì)方法的語(yǔ)言建模?!崩?lèi)?ài)軍告訴記者。 盛玉麒強(qiáng)調(diào)說(shuō),基于規(guī)則與基于統(tǒng)計(jì)相結(jié)合的路線,成為自然語(yǔ)言處理領(lǐng)域的共識(shí)。 亟須漢語(yǔ)言文字學(xué)界的參與 基于語(yǔ)料庫(kù)的知識(shí)挖掘、數(shù)據(jù)提取已成為智能化信息處理的領(lǐng)跑者,理論和技術(shù)也漸趨成熟。馮志偉表示,大規(guī)模語(yǔ)料庫(kù)的建立為自然語(yǔ)言處理提供了強(qiáng)有力手段。 近年來(lái),我國(guó)以多種基金項(xiàng)目加大對(duì)自然語(yǔ)言處理,特別是對(duì)少數(shù)民族語(yǔ)言處理的投入,開(kāi)展對(duì)互聯(lián)網(wǎng)環(huán)境中文言語(yǔ)信息處理重大基礎(chǔ)理論和應(yīng)用研究。李?lèi)?ài)軍介紹說(shuō),這些研究主要包括互聯(lián)網(wǎng)環(huán)境中文言語(yǔ)感知與表示理論研究;面向復(fù)雜環(huán)境的多言語(yǔ)識(shí)別方法與關(guān)鍵技術(shù)等。其中,中國(guó)社會(huì)科學(xué)院語(yǔ)音與言語(yǔ)科學(xué)重點(diǎn)實(shí)驗(yàn)室承擔(dān)了國(guó)家973計(jì)劃“互聯(lián)網(wǎng)環(huán)境中文言語(yǔ)信息處理與深度計(jì)算的基礎(chǔ)理論和方法項(xiàng)目”中“互聯(lián)網(wǎng)環(huán)境中文言語(yǔ)行為規(guī)律和篇章結(jié)構(gòu)研究”子課題,已經(jīng)成功構(gòu)建互聯(lián)網(wǎng)中文言語(yǔ)信息的表示體系和大規(guī)模多模態(tài)口語(yǔ)語(yǔ)篇庫(kù)。 針對(duì)中文自然語(yǔ)言處理目前存在不盡如人意的情況,盛玉麒認(rèn)為,主要原因是計(jì)算機(jī)信息處理與漢語(yǔ)言文字學(xué)的結(jié)合不夠,漢語(yǔ)言文字學(xué)界對(duì)于自然語(yǔ)言處理的關(guān)注、參與遠(yuǎn)遠(yuǎn)不夠?!坝?jì)算機(jī)專(zhuān)家需要漢語(yǔ)言學(xué)研究者的配合,將語(yǔ)言學(xué)家的知識(shí)、方法和思路轉(zhuǎn)化為自然語(yǔ)言處理的數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、方法庫(kù)和規(guī)則庫(kù)。” |
|