知識圖譜與認知智能

漢無為 2019-11-30

展開全文

從技術(shù)角度來看，“人工智能”是機器學習、數(shù)據(jù)挖掘、機器人技術(shù)、專家系統(tǒng)等多種技術(shù)的統(tǒng)稱，籠統(tǒng)地談論“人工智能”則缺乏實際意義。今天的人工智能技術(shù)公司，主要通過圖像識別、語音識別等模式識別技術(shù)，完成“感知”層面的工作。而真正到達“認知”的層面，目前知識圖譜技術(shù)被廣泛看好，它有希望成為“大腦”。最典型的則是IBM Watson在認知計算方向的探索，路雖坎坷，但方向值得肯定

智能時代

從基于明確規(guī)則與特定領域的“計算智能”，到語音、圖像、視頻識別預處理的“感知智能”，再到具備理解、推理和解釋的“認知智能”，難度價值越來越大。而隨著數(shù)據(jù)紅利消耗殆盡，以深度學習為代表的感知智能遇到天花板，認知智能將是未來一段時期內(nèi)AI發(fā)展的焦點，是進一步釋放AI產(chǎn)能的關鍵。認知智能應用需求廣泛多樣：精準分析、智慧搜索、智能推薦、智能解釋、自然人機交互、深層關系推理等，需要對傳統(tǒng)信息化手段的全面而徹底的革新，以解放人類腦力，顯著提高機器生產(chǎn)力。知識圖譜是實現(xiàn)認知智能的關鍵技術(shù)，是實現(xiàn)機器認知智能的使能器

知識圖譜

知識圖譜，作為一種語義網(wǎng)絡，是大數(shù)據(jù)時代知識表示的重要方式之一；作為一種技術(shù)體系，是大數(shù)據(jù)時代知識工程的代表性進展

機器理解數(shù)據(jù)的本質(zhì)是建立從數(shù)據(jù)到知識庫中實體、概念、關系的映射；機器解釋現(xiàn)象的本質(zhì)是利用知識庫中實體、概念、關系解釋現(xiàn)象的過程

知識是人類在認識和改造客觀世界的過程中總結(jié)出的客觀事實、概念、定理和公理的集合

起源與發(fā)展

知識圖譜始于20世紀50年代，至今大致分為三個發(fā)展階段

第一階段 (1955年—1977年)是知識圖譜的起源階段，在這一階段中引文網(wǎng)絡分析開始成為一種研究當代科學發(fā)展脈絡的常用方法
第二階段(1977年-2012 年)是知識圖譜的發(fā)展階段，語義網(wǎng)得到快速發(fā)展，“知識本體”的研究開始成為計算機科學的一個重要領域，知識圖譜吸收了語義網(wǎng)、本體在知識組織和表達方面的理念，使得知識更易于在計算機之間和計算機與人之間交換、流通和加工
第三階段(2012年—至今)是知識圖譜繁榮階段，2012年谷歌提出Google Knowledge Graph，知識圖譜正式得名，谷歌通過知識圖譜技術(shù)改善了搜索引擎性能。在人工智能的蓬勃發(fā)展下，知識圖譜涉及到的知識抽取、表示、融合、推理、問答等關鍵問題得到一定程度的解決和突破，知識圖譜成為知識服務領域的一個新熱點，受到國內(nèi)外學者和工業(yè)界廣泛關注

知識圖譜與認知智能

知識圖譜發(fā)展歷史

知識圖譜主要技術(shù)

知識圖譜與認知智能

知識圖譜技術(shù)架構(gòu)圖

知識獲取

知識圖譜與認知智能

知識獲取示意圖

通過知識抽取技術(shù)從不同來源、不同結(jié)構(gòu)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)的數(shù)據(jù)中提取計算機可理解和計算的結(jié)構(gòu)化數(shù)據(jù)，形成知識存儲到知識圖譜中。當前，獲取知識主要針對文本數(shù)據(jù)進行，按照抽取對象的不同可分為：實體抽取、關系抽取、屬性抽取和事件抽取。通常有以下四種方式：眾包法、爬蟲、機器學習、專家法

實體抽取(命名實體識別，NER) 指從文本語料庫中自動識別出專有名詞(機構(gòu)名、地名、人名、時間等)或有意義的名詞性短語，是知識圖譜構(gòu)建和知識獲取的基礎和關鍵，實體抽取的準確性直接影響知識獲取的質(zhì)量和效率
關系抽取利用多種技術(shù)自動從文本中發(fā)現(xiàn)命名實體之間的語義關系，將文本中的關系映射到實體關系三元組上
屬性抽取針對實體而言，以實現(xiàn)對實體的完整描述，由于可以把實體的屬性看作實體與屬性值之間的一種名詞性關系，所以屬性抽取任務就可以轉(zhuǎn)化為關系抽取任務
事件抽取發(fā)生在某個特定時間點或時間段、某個特定地域范圍內(nèi)，由一個或多個角色參與的一個或多個動作組成的事情或狀態(tài)的改變

知識表示

知識是人類在認識和改造客觀世界的過程中總結(jié)出的客觀事實、概念、定理和公理的集合。知識表示是將現(xiàn)實世界中存在的知識轉(zhuǎn)換成計算機可識別和處理的內(nèi)容，是一種描述知識的數(shù)據(jù)結(jié)構(gòu)，用于對知識的一種描述或約定，也是知識圖譜研究中知識獲取、融合、建模、計算與應用的基礎。知識表示方法主要分為

基于符號的知識表示方法一階謂詞邏輯表示法、產(chǎn)生式規(guī)則表示法、框架表示法、語義網(wǎng)絡表示法
基于表示學習的知識表示方法

知識存儲

針對知識圖譜的知識表示形式設計底層存儲方式，完成各類知識的存儲，以支持對大規(guī)模圖數(shù)據(jù)的有效管理和計算。知識存儲黨的對象包括：基本屬性知識、關聯(lián)知識、事件知識、時序知識和資源知識等。知識存儲方式的質(zhì)量直接影響到知識圖譜中知識查詢、知識計算及知識更新的效率

知識圖譜與認知智能

知識存儲方式

知識存儲方式和工具

基于表結(jié)構(gòu)的存儲(關系型數(shù)據(jù)庫)
基于圖結(jié)構(gòu)的存儲(圖數(shù)據(jù)庫) 屬性圖、資源描述框架(RDF)、超圖(Hyper Graph)

知識建模

知識建模是指建立知識圖譜的數(shù)據(jù)模型，即采用什么樣的方式來表達知識，構(gòu)建一個本體模型對知識進行描述。在本體模型中需要構(gòu)建本體的概念，屬性以及概念之間的關系。一般有自頂向下和自底向上兩種途徑

建模方法

手工建模方式步驟：明確領域本體及任務、模型復用、列出本體涉及領域中的元素、明確分類體系、定義屬性及關系、定義約束條件

知識圖譜與認知智能

手工建模方式

2.半自動建模方式半自動建模方式先通過自動方式獲取知識圖譜，然后進行大量的人工干預過程。運用自然語言處理技術(shù)先自動建模的方法可以分為三大類:基于結(jié)構(gòu)化數(shù)據(jù)的知識建模方法，基于半結(jié)構(gòu)化數(shù)據(jù)的知識建模方法和基于非結(jié)構(gòu)化數(shù)據(jù)的知識建模方法

知識圖譜與認知智能

半自動建模方式

知識融合

知識融合是知識組織與信息融合的交叉學科，它面向需求和創(chuàng)新，通過對眾多分散、異構(gòu)資源上知識的獲取、匹配、集成、挖掘等處理，獲取隱含的或有價值的新知識，同時優(yōu)化知識的結(jié)構(gòu)和內(nèi)涵，提供知識服務

知識圖譜與認知智能

知識融合概念分解

知識計算知識計算是基于已構(gòu)建的知識圖譜進行能力輸出的過程，是知識圖譜能力輸出的主要方式。主要包括知識統(tǒng)計與圖挖掘、知識推理兩大部分內(nèi)容，知識統(tǒng)計與圖挖掘重點研究的是知識查詢、指標統(tǒng)計和圖挖掘; 知識推理重點研究的是基于圖譜的邏輯推理算法，主要包括基于符號的推理和基于統(tǒng)計的推理

知識圖譜與認知智能

知識計算概念

知識運維

知識運維是指在知識圖譜初次構(gòu)建完成之后，根據(jù)用戶的使用反饋、不斷出現(xiàn)的同類型知識以及增加的新的知識來源進行全量行業(yè)知識圖譜的演化和完善的過程，運維過程中需要保證知識圖譜的質(zhì)量可控及逐步的豐富衍化。知識圖譜的運維過程是個工程化的體系，覆蓋了知識圖譜的從知識獲取至知識計算等的整個生命周期。知識圖譜的運維包括兩個方面的關注點: 一個是從數(shù)據(jù)源方面的基于增量數(shù)據(jù)的知識圖譜的構(gòu)建過程監(jiān)控，另一個是通過知識圖譜的應用層發(fā)現(xiàn)的知識錯誤和新的業(yè)務需求

知識圖譜與認知智能

知識運維

知識圖譜存在的挑戰(zhàn)

1.數(shù)據(jù)相關的挑戰(zhàn) 數(shù)據(jù)是知識圖譜的基石，其數(shù)據(jù)來源主要有兩種：自有數(shù)據(jù)(自身采集或擁有)和外源數(shù)據(jù)(網(wǎng)絡爬蟲、開放共享或從數(shù)據(jù)交易所獲取)。在實際應用中，多源數(shù)據(jù)的歧義、噪聲大、數(shù)據(jù)關聯(lián)性不明確等缺陷

2.算法相關的挑戰(zhàn) 知識圖譜系統(tǒng)從獲取、建模、融合、計算等各個環(huán)節(jié)均涉及不同的算法，目前個步驟所用到的算法根據(jù)現(xiàn)狀和需求不同存在不同挑戰(zhàn)。主要體現(xiàn)在：算法泛化能力差、算法魯棒性差、算法多樣化，缺乏統(tǒng)一的評測指標、算法可解釋性、基礎知識庫融合挑戰(zhàn)、垂直領域知識庫構(gòu)建挑戰(zhàn)、基礎知識庫不愿開放的挑戰(zhàn)、貫穿知識圖譜全生命周期的平臺缺失、基于文本的知識圖譜構(gòu)建工具性能弱、隱私安全和倫理相關的挑戰(zhàn)、測試評估及商業(yè)模式等方面的挑戰(zhàn)