2017年2月12日下午,“語(yǔ)英坊”(EngLing Workshop)系列學(xué)術(shù)講座的第一講在北京社科書(shū)店成功舉行。國(guó)際世界語(yǔ)學(xué)院(Akademio de Esperanto)院士、浙江大學(xué)求是特聘教授、廣東外語(yǔ)外貿(mào)大學(xué)云山領(lǐng)軍學(xué)者劉海濤,就“大數(shù)據(jù)時(shí)代的語(yǔ)言研究:距離與方向”這一主題,為約70位與會(huì)專(zhuān)家、學(xué)者、企業(yè)界代表及其他社會(huì)各界聽(tīng)眾帶來(lái)了一場(chǎng)精彩的講座。 中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所《當(dāng)代語(yǔ)言學(xué)》期刊責(zé)任編輯王大惟副研究員組織并主持了此次講座。 劉海濤教授在歷時(shí)近三個(gè)小時(shí)的講座中,針對(duì)語(yǔ)言研究在“大數(shù)據(jù)”時(shí)代面臨的挑戰(zhàn)與機(jī)遇,以他及所率團(tuán)隊(duì)在語(yǔ)言學(xué)領(lǐng)域多年來(lái)潛心鉆研、享譽(yù)國(guó)際的學(xué)術(shù)成果為例,深入淺出地講解了如何以(依存)距離和方向?yàn)榫V,通過(guò)文本的計(jì)量來(lái)進(jìn)行語(yǔ)言與認(rèn)知及語(yǔ)言類(lèi)型方面的研究。貫穿講座始終的“中國(guó)語(yǔ)言學(xué)國(guó)際化與科學(xué)化”這一議題,引起聽(tīng)眾的極大共鳴。在“大數(shù)據(jù)”時(shí)代,語(yǔ)言學(xué)如何從藝術(shù)與人文學(xué)科向生命與認(rèn)知科學(xué)轉(zhuǎn)向,中國(guó)語(yǔ)言學(xué)如何走向國(guó)際,乃至語(yǔ)言學(xué)如何實(shí)現(xiàn)科學(xué)化這些問(wèn)題振聾發(fā)聵,引發(fā)了每位參會(huì)人員的深思?,F(xiàn)場(chǎng)氣氛熱烈,聽(tīng)眾還就研究方法、數(shù)據(jù)獲取及研究課題等方面跟劉海濤教授展開(kāi)了廣泛而深入的交流。 講座一開(kāi)始,劉海濤教授援引了舍恩伯格(Viktor Mayer-Sch?nberger)和庫(kù)克耶(Kenneth Cukier)在《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》一書(shū)中的一段話(huà): 借此,劉海濤教授引出了本次講座的核心:轉(zhuǎn)變。大數(shù)據(jù)開(kāi)啟了一次重大的時(shí)代轉(zhuǎn)型。 與傳統(tǒng)的研究方式相比,大數(shù)據(jù)時(shí)代給我們帶來(lái)了三大轉(zhuǎn)變: 這種轉(zhuǎn)變將為人類(lèi)的生活創(chuàng)造前所未有的可量化的維度,之前無(wú)法量化的研究對(duì)象可以通過(guò)量化展開(kāi)精確研究。例如,Lieberman等(2007)通過(guò)對(duì)跨越200年的文本中英語(yǔ)不規(guī)則動(dòng)詞的規(guī)則化使用的量化研究,發(fā)現(xiàn)經(jīng)常使用的不規(guī)則動(dòng)詞不容易規(guī)則化,而不經(jīng)常使用的不規(guī)則動(dòng)詞反而容易規(guī)則化,這也是 chide 這個(gè)罕用詞被稱(chēng)為“世界最快動(dòng)詞”的緣由。 英語(yǔ)不規(guī)則動(dòng)詞的規(guī)則變化規(guī)律 以上研究表明,數(shù)據(jù)的量化分析有助于揭示過(guò)去不好分析或無(wú)法分析的語(yǔ)言事實(shí)與規(guī)律。哈佛大學(xué)政治學(xué)系教授加里·金(Gary King)在最近的一次演講中也提出了類(lèi)似的觀(guān)點(diǎn)(http://news./info/1007/1275714.htm)。他指出: 在其他人文學(xué)科中,數(shù)據(jù)與理論之間也有各自的問(wèn)題。對(duì)此,劉海濤教授提出了自己對(duì)“數(shù)字(數(shù)據(jù))人文”的一些看法。數(shù)字人文的真諦是:把數(shù)字(數(shù)據(jù))與知識(shí)、社會(huì)、文化、行為、人聯(lián)系在一起,而不是簡(jiǎn)單地把一本書(shū)、一幅畫(huà)數(shù)字化后保存在計(jì)算機(jī)里;通過(guò)可視化的方法,更直觀(guān)地展現(xiàn)這種聯(lián)系;以及通過(guò)數(shù)理統(tǒng)計(jì)方法,更科學(xué)地解釋數(shù)據(jù)背后隱藏的有關(guān)人類(lèi)認(rèn)知、行為的模式以及人與社會(huì)、自然交互的規(guī)律。 在此背景下,語(yǔ)言學(xué)家的任務(wù)是什么呢?我們知道,語(yǔ)言學(xué)是研究語(yǔ)言結(jié)構(gòu)與演化規(guī)律的學(xué)科。語(yǔ)言的輸出端是線(xiàn)性結(jié)構(gòu),而人腦中是網(wǎng)絡(luò)結(jié)構(gòu),二者具有不同的結(jié)構(gòu)。那么線(xiàn)性結(jié)構(gòu)與網(wǎng)絡(luò)結(jié)構(gòu)之間的轉(zhuǎn)換是如何及何時(shí)進(jìn)行的?再者,字同現(xiàn)、詞同現(xiàn)、句法、語(yǔ)義、概念等層面有什么區(qū)別?這其中又有什么規(guī)律?對(duì)于這些問(wèn)題,劉海濤教授指出,我們都可以通過(guò)對(duì)真實(shí)語(yǔ)料(大數(shù)據(jù))的研究來(lái)探求。正如伯納德·科姆里(Bernard Comrie)在《語(yǔ)言共性和語(yǔ)言類(lèi)型》這本書(shū)的前言中指出的,“語(yǔ)言學(xué)研究語(yǔ)言,而語(yǔ)言是民眾實(shí)際所講語(yǔ)言?!?/span> 這樣,才能反映出語(yǔ)言使用的真實(shí)面貌,而不是存在于人腦中的假設(shè)。Rickheit和Sichelschmidt(2007)也曾明確指出: 可見(jiàn),語(yǔ)言學(xué)家需要為語(yǔ)言學(xué)的轉(zhuǎn)向做好準(zhǔn)備,迎接大數(shù)據(jù)時(shí)代帶來(lái)的研究方法與理念上的轉(zhuǎn)變。這將有助于中國(guó)語(yǔ)言學(xué)的國(guó)際化與語(yǔ)言研究的科學(xué)化進(jìn)程,進(jìn)而真正實(shí)現(xiàn)作為一門(mén)(領(lǐng)先)科學(xué)的語(yǔ)言學(xué)。 接下來(lái),劉海濤教授結(jié)合他和團(tuán)隊(duì)成員多年來(lái)的研究經(jīng)歷與學(xué)術(shù)成果,介紹了在大數(shù)據(jù)時(shí)代探索中國(guó)語(yǔ)言學(xué)國(guó)際化與語(yǔ)言研究科學(xué)化的成功經(jīng)驗(yàn)。 這些顯赫的成果背后是劉海濤教授及其團(tuán)隊(duì)多年來(lái)在基于依存語(yǔ)法的計(jì)量研究方面所做的大量工作與不懈的努力。他們主要從依存距離與認(rèn)知規(guī)律、依存方向與語(yǔ)言類(lèi)型學(xué)、復(fù)雜網(wǎng)絡(luò)與形態(tài)學(xué)這三個(gè)方面展開(kāi)研究,探索人類(lèi)語(yǔ)言的普遍特征以及語(yǔ)言類(lèi)型研究的新范式,在計(jì)量語(yǔ)言學(xué)、心理語(yǔ)言學(xué)、認(rèn)知科學(xué)及語(yǔ)言類(lèi)型學(xué)方面,都具有開(kāi)創(chuàng)性的重大意義。 劉海濤教授在依存語(yǔ)法的基礎(chǔ)上研究依存距離與依存方向。依存語(yǔ)法是法國(guó)語(yǔ)言學(xué)家泰尼埃(Tesnière)在對(duì)古希臘語(yǔ)、古羅馬語(yǔ)、羅曼語(yǔ)族、斯拉夫語(yǔ)族、匈牙利語(yǔ)、土耳其語(yǔ)和巴斯克語(yǔ)等數(shù)十種語(yǔ)言對(duì)比研究的基礎(chǔ)上提出的一種普適的語(yǔ)法理論。劉海濤(2009)總結(jié)道,泰尼埃對(duì)句子的分析重在尋求句中各詞之間的關(guān)系。依存關(guān)系是一種詞間句法關(guān)系。依存句法是一種以依存關(guān)系為基礎(chǔ)的句法理論。 與之相關(guān)的另一個(gè)重要的學(xué)術(shù)思想是,語(yǔ)言是人驅(qū)動(dòng)的符號(hào)系統(tǒng)(Liu 2014)。現(xiàn)代語(yǔ)言學(xué)之父索緒爾提出,語(yǔ)言是一個(gè)符號(hào)系統(tǒng)。劉海濤教授在此基礎(chǔ)上,強(qiáng)調(diào)人的重要作用。因?yàn)槿思婢咝睦怼⑸砼c社會(huì)、自然的屬性,所以語(yǔ)言呈現(xiàn)出一定的普遍性與多樣性。前者對(duì)應(yīng)于一般的認(rèn)知規(guī)律,后者對(duì)應(yīng)于生態(tài)的多樣性。 接著,劉海濤教授分別從(依存)距離、(依存)方向,以及距離和方向這三個(gè)方面介紹了他們的研究工作與成果。 依存距離指的是構(gòu)成依存關(guān)系的支配詞和從屬詞之間的線(xiàn)性距離。對(duì)于依存距離的計(jì)算與分析可以反映出句子分析的難易程度。因?yàn)榉治鼍渥泳褪菍⒁粋€(gè)線(xiàn)性字符串轉(zhuǎn)換為一個(gè)依存結(jié)構(gòu)樹(shù)的過(guò)程,也就是說(shuō): 進(jìn)而,真實(shí)文本的依存距離具有某種分布規(guī)律嗎?這些規(guī)律是人類(lèi)語(yǔ)言特有的嗎?這些規(guī)律的認(rèn)知基礎(chǔ)是什么? 他在Hawkins(1994)和Gibson(1998)的理論成果的基礎(chǔ)上進(jìn)一步提出依存距離的三個(gè)假設(shè):(1)人類(lèi)語(yǔ)言處理機(jī)制偏愛(ài)的句子,其依存距離要盡可能地?。唬?)這個(gè)小的要求是在一個(gè)范圍內(nèi),與人的工作記憶容量差不多;(3)認(rèn)知和語(yǔ)法共同起作用。不過(guò),以上研究只采用了一種自然語(yǔ)言的樣本,還無(wú)法說(shuō)明人類(lèi)語(yǔ)言的共性。 自然語(yǔ)言與隨機(jī)語(yǔ)言的依存距離均值 如上圖所示,漢語(yǔ)的依存距離均值最高,為3.66。以上這些語(yǔ)言的依存距離均值,都在現(xiàn)代心理學(xué)普遍認(rèn)定的工作記憶容量為4的閾值內(nèi)。劉海濤教授的這一發(fā)現(xiàn),是首次使用大規(guī)模真實(shí)語(yǔ)料的文本而得出的語(yǔ)言普遍性的規(guī)律,具有重要的創(chuàng)新意義,并對(duì)該領(lǐng)域的研究產(chǎn)生了深遠(yuǎn)影響。2015年,麻省理工學(xué)院弗特勒爾等人(Futrell, et al. 2015)對(duì)37種自然語(yǔ)言進(jìn)行了基于語(yǔ)料庫(kù)的大數(shù)據(jù)分析,再次驗(yàn)證了語(yǔ)言中的依存距離具有最小化的傾向。 掃描右上角二維碼即可下載全文,浙大學(xué)報(bào)棒棒的! 除了依存距離的最小化,劉海濤教授還對(duì)依存距離的分布展開(kāi)了研究。他提出了如下的問(wèn)題:依存距離分布有沒(méi)有規(guī)律?依存距離分布的規(guī)律是否符合一定的分布模型?依存距離分布模型是否會(huì)隨不同語(yǔ)言而異,導(dǎo)致分歧的主要原因是什么? 為什么長(zhǎng)句是冪律呢?因?yàn)閮缏墒窍到y(tǒng)自適應(yīng)調(diào)節(jié)的結(jié)果;兩種分布模型分歧的主要原因可能受擬合方法、不同語(yǔ)言、句長(zhǎng)和文本大小等因素的影響。 他們提出了一種枚舉依存樹(shù)的方法,進(jìn)行依存句法結(jié)構(gòu)計(jì)量研究,結(jié)果顯示:語(yǔ)言中的依存交叉并非偶然現(xiàn)象,根據(jù)計(jì)數(shù)公式推導(dǎo)出的交叉依存比例,遠(yuǎn)高于真實(shí)語(yǔ)言樹(shù)庫(kù)的統(tǒng)計(jì)數(shù)據(jù);平均依存距離難以區(qū)分交叉與不交叉依存;依存距離最小化能約束交叉依存比例降至真實(shí)語(yǔ)言情況,但此時(shí)平均依存距離與真實(shí)語(yǔ)言不同。這些說(shuō)明除受人類(lèi)認(rèn)知機(jī)制約束外,可能還存在其他因素促使人類(lèi)語(yǔ)言?xún)A向于不交叉。 劉海濤教授進(jìn)一步指出,對(duì)于語(yǔ)言共性的發(fā)現(xiàn)是具有應(yīng)用價(jià)值的。最近,谷歌的人工智能團(tuán)隊(duì)在機(jī)器翻譯上取得了突破性的進(jìn)展,其核心理念是找到了具有相同含義的句子的共同基礎(chǔ),而不用考慮他們屬于哪種語(yǔ)言。 (https://www./article/2114748-google-translate-ai-invents-its-own-language-to-translate-with/)也就是說(shuō),不同語(yǔ)言表示語(yǔ)義和認(rèn)知的概念結(jié)構(gòu)基本相同,而線(xiàn)性序列則是不同的。 劉海濤團(tuán)隊(duì)的另一個(gè)重要發(fā)現(xiàn)是關(guān)于依存方向與語(yǔ)序類(lèi)型之間的關(guān)系。在語(yǔ)序的類(lèi)型學(xué)研究中,句中語(yǔ)法單位的線(xiàn)性順序通常被看作是區(qū)分不同的語(yǔ)言的首要條件。Greenberg (1963)在該領(lǐng)域做出了開(kāi)拓性的成果。在他提出的45種語(yǔ)言的共性中,大多會(huì)描述該條共性的使用情況,如: 可見(jiàn),這些共性的前提條件也是統(tǒng)計(jì)的結(jié)果,只不過(guò)限于當(dāng)時(shí)的研究條件,無(wú)法在基于真實(shí)語(yǔ)料的大數(shù)據(jù)上來(lái)統(tǒng)計(jì)?,F(xiàn)在,我們不僅有基于真實(shí)文本的語(yǔ)料庫(kù),還有經(jīng)過(guò)句法標(biāo)注的語(yǔ)料庫(kù)。其中,依存樹(shù)庫(kù)就是一個(gè)很好的資源。這是因?yàn)?,在?duì)語(yǔ)言類(lèi)型的研究中,泰尼埃早就發(fā)現(xiàn)了不同語(yǔ)言在中心語(yǔ)置前還是居后上有不同的傾向性(Tesnière 1959)。而中心語(yǔ)置前還是居后在依存語(yǔ)法就可以表現(xiàn)為支配詞前置或后置,這種信息在依存樹(shù)庫(kù)中都是有明確的標(biāo)注的。 維基百科上有人這樣評(píng)價(jià)這項(xiàng)發(fā)現(xiàn):“該研究為現(xiàn)代的語(yǔ)言類(lèi)型學(xué)提供了一種全新的先進(jìn)方法?!?/span> 二十種語(yǔ)言的依存方向分布 如圖所示,任何一種語(yǔ)言都可以在上述這個(gè)連續(xù)統(tǒng)中找到自己的位置。這意味著,語(yǔ)言可以在這個(gè)連續(xù)統(tǒng)中根據(jù)距離的遠(yuǎn)近來(lái)進(jìn)行聚類(lèi)分析,而傳統(tǒng)的類(lèi)型學(xué)研究是按照分類(lèi)標(biāo)準(zhǔn)來(lái)劃分出幾個(gè)具體的類(lèi)型。 此外,我們也可以利用依存方向來(lái)考察優(yōu)勢(shì)語(yǔ)序(dominant order)。 這就說(shuō)明了,我們可以利用樹(shù)庫(kù)作為語(yǔ)言類(lèi)型學(xué)研究的數(shù)據(jù)基礎(chǔ)。 跟傳統(tǒng)的類(lèi)型學(xué)的研究相比,劉海濤(Liu 2010)這篇文章所使用的方法具有如下的優(yōu)點(diǎn)與創(chuàng)新性: 它是基于統(tǒng)計(jì)和語(yǔ)料庫(kù)的; 它具有魯棒性(robust)和非離散性; 它是細(xì)粒度的; 它是對(duì)語(yǔ)言更為整體性的類(lèi)型學(xué)方法; 它可以跟計(jì)算語(yǔ)言學(xué)共享語(yǔ)言資源。 英國(guó)著名語(yǔ)言學(xué)家Hudson教授對(duì)這篇論文贊賞有加,說(shuō)它充滿(mǎn)了原創(chuàng)性的思想和重要的數(shù)據(jù)。 敬請(qǐng)期待下篇。精彩內(nèi)容,豈能錯(cuò)過(guò)?看大家笑的,那是被精彩到了呀。 語(yǔ)英坊,語(yǔ)言?shī)W秘探索者的家園 【logo虛位以待,征集中……】 |
|
來(lái)自: 犁杖 > 《話(huà)語(yǔ)分析》