【原】你負責(zé)人工智能哪部分？人工那部分；知識圖譜的構(gòu)建主要靠人工還是機器？

學(xué)術(shù)頭條 2020-11-27

展開全文

這也是AI Time第3期主題：“論道知識圖譜：知識賦能智能與智能產(chǎn)生知識”，加州大學(xué)洛杉磯分校（UCLA）副教授孫怡舟、加拿大蒙特利爾學(xué)習(xí)算法研究所 (MILA)研究員唐建和中科院自動化所副研究員劉康共同參與了此次論道。

現(xiàn)在請大家思考一個場景，假想你是一個醫(yī)療創(chuàng)業(yè)公司的負責(zé)人，目前想啟動一個健康問答的項目，現(xiàn)在你是選擇集中資金和人力構(gòu)建豐富的醫(yī)療知識圖譜，還是集中資金與人力去研發(fā)高效的問答算法？你會怎么選擇？

知識工程的前世今生

在進入知識圖譜領(lǐng)域之前，我們不妨先來回顧一下知識工程四十年多來發(fā)展歷程。對知識工程的演進過程和技術(shù)進展記性總結(jié)后，我們可以將知識工程分成五個標志性的階段：圖靈測試時期、專家系統(tǒng)時期、Web1.0 萬維網(wǎng)時期、Web2.0 群體智能時期以及Web 3.0 知識圖譜時期，如下圖所示：

知識工程發(fā)展歷程

1950-1970時期：圖靈測試—知識工程誕生前期

人工智能旨在讓機器能夠像人一樣解決復(fù)雜問題，圖靈測試是評測智能的是手段。這一階段主要有兩個方法：符號主義和連結(jié)主義。符號主義認為物理符號系統(tǒng)是智能行為的充要條件，連結(jié)主義則認為大腦（神經(jīng)元及其連接機制）是一切智能活動的基礎(chǔ)。

這一階段具有代表性的工作是通用問題求解程序（GPS）：將問題進行形式化表達，通過搜索，從問題初始狀態(tài)，結(jié)合規(guī)則或表示得到目標狀態(tài)。其中最成功應(yīng)用是博弈論和機器定理證明等。

這一時期的知識表示方法主要有：數(shù)理邏輯、基于邏輯的知識表示、產(chǎn)生式規(guī)則和語義網(wǎng)絡(luò)等。

這一時代人工智能和知識工程的先驅(qū)Minsky，Mccarthy和Newell以Simon四位學(xué)者因為他們在感知機、人工智能語言和通用問題求解和形式化語言方面的杰出工作分別獲得了1969年、1971年、1975年的圖靈獎。

1970-1990時期：專家系統(tǒng)—知識工程蓬勃發(fā)展期

70年開始，人工智能開始轉(zhuǎn)向建立基于知識的系統(tǒng)，通過“知識庫+推理機”實現(xiàn)機器智能，這一時期涌現(xiàn)出很多成功的限定領(lǐng)域?qū)＜蚁到y(tǒng)，如MYCIN醫(yī)療診斷專家系統(tǒng)、識別分子結(jié)構(gòu)的DENRAL專家系統(tǒng)以及計算機故障診斷XCON專家系統(tǒng)等。

斯坦福人工智能實驗室的奠基人Feigenbaum教授在1980年的一個項目報告《Knowledge Engineering：The Applied Side of Artificial Intelligence》中提出知識工程的概念，從此確立了知識工程在人工智能中的核心地位。

這一時期知識表示方法有新的演進，包括框架和腳本等。80年代后期出現(xiàn)了很多專家系統(tǒng)的開發(fā)平臺，可以幫助將專家的領(lǐng)域知識轉(zhuǎn)變成計算機可以處理的知識。

1990-2000時期：Web1.0 萬維網(wǎng)

在1990年到2000年，出現(xiàn)了很多人工構(gòu)建大規(guī)模知識庫，包括廣泛應(yīng)用的英文WordNet，采用一階謂詞邏輯知識表示的Cyc常識知識庫，以及中文的HowNet。

Web 1.0萬維網(wǎng)的產(chǎn)生為人們提供了一個開放平臺，使用HTML定義文本的內(nèi)容，通過超鏈接把文本連接起來，使得大眾可以共享信息。

W3C提出的可擴展標記語言XML，實現(xiàn)對互聯(lián)網(wǎng)文檔內(nèi)容的結(jié)構(gòu)通過定義標簽進行標記，為互聯(lián)網(wǎng)環(huán)境下大規(guī)模知識表示和共享奠定了基礎(chǔ)。這一時期在知識表示研究中還提出了本體的知識表示方法。

2000-2006時期：Web2.0 群體智能

在2001年，萬維網(wǎng)發(fā)明人、2016年圖靈獎獲得者Tim Berners-Lee在科學(xué)美國人雜志中發(fā)表的論文《The Semantic Web》正式提出語義Web的概念，旨在對互聯(lián)網(wǎng)內(nèi)容進行結(jié)構(gòu)化語義表示，利用本體描述互聯(lián)網(wǎng)內(nèi)容的語義結(jié)構(gòu)，通過對網(wǎng)頁進行語義標識得到網(wǎng)頁語義信息，從而獲得網(wǎng)頁內(nèi)容的語義信息，使人和機器能夠更好地協(xié)同工作。W3C進一步提出萬維網(wǎng)上語義標識語言RDF（資源描述框架）和OWL（萬維網(wǎng)本體表述語言）等描述萬維網(wǎng)內(nèi)容語義的知識描述規(guī)范。

萬維網(wǎng)的出現(xiàn)使得知識從封閉知識走向開放知識，從集中構(gòu)建知識成為分布群體智能知識。原來專家系統(tǒng)是系統(tǒng)內(nèi)部定義的知識，現(xiàn)在可以實現(xiàn)知識源之間相互鏈接，可以通過關(guān)聯(lián)來產(chǎn)生更多的知識而非完全由固定人生產(chǎn)。這個過程中出現(xiàn)了群體智能，最典型的代表就是維基百科，實際上是用戶去建立知識，體現(xiàn)了互聯(lián)網(wǎng)大眾用戶對知識的貢獻，成為今天大規(guī)模結(jié)構(gòu)化知識圖譜的重要基礎(chǔ)。

2006年至今：Web 3.0 知識圖譜時期

將萬維網(wǎng)內(nèi)容轉(zhuǎn)化為能夠為智能應(yīng)用提供動力的機器可理解和計算的知識是這一時期的目標。從2006年開始，大規(guī)模維基百科類富結(jié)構(gòu)知識資源的出現(xiàn)和網(wǎng)絡(luò)規(guī)模信息提取方法的進步，使得大規(guī)模知識獲取方法取得了巨大進展。與Cyc、WordNet和HowNet等手工研制的知識庫和本體的開創(chuàng)性項目不同，這一時期知識獲取是自動化的，并且在網(wǎng)絡(luò)規(guī)模下運行。

當前知識圖譜自動構(gòu)建的知識庫已成為語義搜索、大數(shù)據(jù)分析、智能推薦和數(shù)據(jù)集成的強大資產(chǎn)，在大型行業(yè)和領(lǐng)域中正在得到廣泛使用。典型的例子是谷歌收購Freebase后在2012年推出的知識圖譜（Knowledge Graph），F(xiàn)acebook的圖譜搜索，Microsoft Satori以及商業(yè)、金融、生命科學(xué)等領(lǐng)域特定的知識庫。最具代表性大規(guī)模網(wǎng)絡(luò)知識獲取的工作包括DBpedia、Freebase、KnowItAll、WikiTaxonomy和YAGO，以及BabelNet、ConceptNet、DeepDive、NELL、Probase、Wikidata、XLORE、Zhishi.me、CNDBpedia等。這些知識圖譜遵循圖RDF數(shù)據(jù)模型，包含數(shù)以千萬級或者億級規(guī)模的實體，以及數(shù)十億或百億事實（即屬性值和與其他實體的關(guān)系），并且這些實體被組織在成千上萬的由語義體現(xiàn)的客觀世界的概念結(jié)構(gòu)中。

在我國知識工程領(lǐng)域研究中，中科院系統(tǒng)所陸汝鈐院士、計算所史忠植研究員等老一代知識工程研究學(xué)者為中國的知識工程研究和人才培養(yǎng)做出了突出貢獻，陸汝鈐院士因在知識工程和基于知識的軟件工程方面作出的系統(tǒng)和創(chuàng)造性工作，以及在大知識領(lǐng)域的開創(chuàng)性貢獻，榮獲首屆“吳文俊人工智能最高成就獎”。

2011年2月14日，IBM的“Waltson”超級計算機登上了美國最受歡迎的智力問答節(jié)目《危險邊緣》(Jeopardy)，挑戰(zhàn)該節(jié)目的兩名總冠軍肯-詹寧斯和布拉德-魯特爾，實現(xiàn)有史以來首次人機智力問答對決，并贏取高達100萬美元的獎金。

“Waltson”由10臺IBM服務(wù)器組成。這些服務(wù)器采用Linux操作系統(tǒng)，雖然沒有聯(lián)網(wǎng)，但沃森存儲了大量圖書、新聞和電影劇本資料、辭海、文選和《世界圖書百科全書》等數(shù)百萬份資料，每當讀完問題的提示后，“Waltson”就在不到三秒鐘的時間里對自己的數(shù)據(jù)庫"挖地三尺"，在長達2億頁的漫漫資料里展開搜索。

那他究竟是如何能從這些浩瀚的數(shù)據(jù)中得到答案的呢？實際過程當然很復(fù)雜，需要從雜亂無章的原始數(shù)據(jù)中提取有用的數(shù)據(jù)，即信息，在此基礎(chǔ)上理解它的含義，即知識，最后這些知識才能拿來為我們所用產(chǎn)生智能。

知識圖譜究竟主要是靠人工來構(gòu)建，還是靠機器自動來構(gòu)建？

網(wǎng)絡(luò)上曾流行這樣一段打趣的對話。

A:“你是做什么的的？”

B:“做人工智能的。”

A: “你負責(zé)人工智能的哪部分呢？”

B:“我負責(zé)人工那部分。”

雖然這是玩笑話，但實際上在構(gòu)建知識圖譜的過程中，不可或缺地需要很多人工智慧的參與。在某些垂直領(lǐng)域知識圖譜的構(gòu)建上，甚至需要非常多專家智慧的參與。盡管學(xué)術(shù)界與工業(yè)界都在努力嘗試自動抽取實體與發(fā)現(xiàn)實體之間的關(guān)系，但是其精準度的局限性導(dǎo)致在某些對錯誤容忍性很低的領(lǐng)域，比如醫(yī)療領(lǐng)域，可能并不能很好的應(yīng)用。

三位老師大體上都認為半自動結(jié)合人工是目前構(gòu)建知識圖譜的理想方式。劉老師表示知識表示的手段對于我們要表現(xiàn)的知識還存在局限性，構(gòu)建某個領(lǐng)域的知識圖譜也是很困難的，需要根據(jù)需求不斷更新數(shù)據(jù)。總的來說，構(gòu)建和維護知識圖譜都是一件很費時費力的事，人工的參與提高了精準性，不可能完全摒棄掉人工智慧。孫老師告訴大家，她的老師韓家煒教授近期的工作重點就在于知識圖譜的構(gòu)建自動化。

有必要融合知識圖譜嗎?

知識圖譜可以由任何機構(gòu)和個人自由構(gòu)建，其背后的數(shù)據(jù)來源廣泛、質(zhì)量參差不齊，導(dǎo)致它們之間存在多樣性和異構(gòu)性。語義集成的提出就是為了能夠?qū)⒉煌闹R圖譜融合為一個統(tǒng)一、一致、簡潔的形式，為使用不同知識圖譜的應(yīng)用程序間的交互建立操作性。

語義集成的常見流程

常用的技術(shù)包括本體匹配（也稱為本體映射）、實例力匹配（也稱為實體對齊、對象公共指消解）以及知識融合等。

對此，三位老師均認為知識圖譜的融合是有必要的。因為有些問題需綜合多個領(lǐng)域的圖譜才能回答，不同知識圖譜覆蓋的信息不同，融合可構(gòu)建更全面的知識圖譜。孫老師強調(diào)不同語言之間的知識圖譜融合是最有意義的，對圖譜的要求自然是越全越好，垂直融合盡可能獲取更多知識的話，對推理的幫助更大。劉老師則表示融合時面臨著兩個問題：一個是不同圖譜之間的關(guān)鍵詞和字符不同，另一個是不同圖譜之間的實例能否關(guān)聯(lián)。

“人工智能歷史上最有爭議的項目”之一Cyc

曾經(jīng)在美國盛極一時的Cyc項目代表了Web1.0 萬維網(wǎng)時期典型的人工智能技術(shù)與思考，更神奇的是這個1984年啟動的項目，直到今天還在繼續(xù)，并且始終處于建設(shè)中，它稱為是“人工智能歷史上最有爭議的項目”之一，因此難免對它有批評的意見，主要概括如下：

· 系統(tǒng)的復(fù)雜度：該系統(tǒng)具有創(chuàng)建百科全書式知識庫的野心，卻由特定知識工程師手動添加所有的知識到系統(tǒng)中

· 知識表示廣泛的具體化引發(fā)的可擴展性問題，特別是以常量的形式進行

· 對物質(zhì)概念的解釋難以令人滿意，對內(nèi)在屬性和外在屬性區(qū)分不清晰

劉老師直言這是一個失敗的項目，孫老師也同樣表示人的速度趕不上知識增長的速度，這是不可行的。

除了“搜一搜，看一看”，知識圖譜更深入的應(yīng)用場景有哪些？

知識應(yīng)用能夠?qū)⒅R圖譜特有的應(yīng)用形態(tài)與領(lǐng)域數(shù)據(jù)與業(yè)務(wù)場景相結(jié)合并助力領(lǐng)域業(yè)務(wù)轉(zhuǎn)型。知識圖譜的典型應(yīng)用包括智能推薦、語義搜索、智能問答以及可視化決策支持等三種。如何針對業(yè)務(wù)需求設(shè)計實現(xiàn)知識圖譜應(yīng)用，并基于數(shù)據(jù)特點進行優(yōu)化調(diào)整，是知識圖譜應(yīng)用的關(guān)鍵研究內(nèi)容。

劉老師表示除了大眾看到的“搜一搜，看一看”之外，還有很多知識圖譜在背后發(fā)揮作用的場景，例如金融領(lǐng)域的風(fēng)險評估、銀行領(lǐng)域的征信、電商領(lǐng)域的推薦場景和教育領(lǐng)域的APP；唐老師表示除此之外醫(yī)療領(lǐng)域也有很多場景有知識圖譜的應(yīng)用。

知識圖譜應(yīng)當如何更加智能地應(yīng)用到這些場景中？

現(xiàn)在有很多人研究將知識圖譜應(yīng)用到智能問答、機器翻譯和推薦等場景中。但是，實際在很多場景下，用了知識圖譜效果也不會提升多少，甚至有可能會下降。這里面可能存在的難點有兩個，一是知識圖譜本身的不完整性導(dǎo)致其效果有限，二是將知識圖譜鏈入到各個具體任務(wù)時，可能會引入大量的錯誤。

劉老師對此表示在場景下應(yīng)用知識圖譜效果反而下降的原因在于兩點，第一也是認為知識圖譜的覆蓋度過低，第二是已有的知識和表達無法對應(yīng)上。如果能提前預(yù)知用戶需求和圖譜應(yīng)用場合，對數(shù)據(jù)進行精細化后，就能更好地應(yīng)用到場景中去。

未來之路

如果未來的智能機器擁有一個大腦，知識圖譜就是這個大腦中的知識庫，對于大數(shù)據(jù)智能具有重要意義，將對自然語言處理、信息檢索和人工智能等領(lǐng)域產(chǎn)生深遠影響。

現(xiàn)在以商業(yè)搜索引擎公司為首的互聯(lián)網(wǎng)巨頭已經(jīng)意識到知識圖譜的戰(zhàn)略意義，紛紛投入重兵布局知識圖譜，并對搜索引擎形態(tài)日益產(chǎn)生重要的影響。同時，我們也強烈地感受到，知識圖譜還處于發(fā)展初期，大多數(shù)商業(yè)知識圖譜的應(yīng)用場景非常有限。可以看到，在未來的一段時間內(nèi)，知識圖譜將是大數(shù)據(jù)智能的前沿研究問題，有很多重要的開放性問題亟待學(xué)術(shù)界和產(chǎn)業(yè)界協(xié)力解決。

學(xué)術(shù)頭條已建立知識圖譜微信交流群，想進群的同學(xué)請加學(xué)術(shù)君微信：AMiner308，記得備注：KG