智能時代從基于明確規(guī)則與特定領域的“計算智能”,到語音、圖像、視頻識別預處理的“感知智能”,再到具備理解、推理和解釋的“認知智能”,難度價值越來越大。而隨著數(shù)據(jù)紅利消耗殆盡,以深度學習為代表的感知智能遇到天花板,認知智能將是未來一段時期內(nèi)AI發(fā)展的焦點,是進一步釋放AI產(chǎn)能的關鍵。認知智能應用需求廣泛多樣:精準分析、智慧搜索、智能推薦、智能解釋、自然人機交互、深層關系推理等,需要對傳統(tǒng)信息化手段的全面而徹底的革新,以解放人類腦力,顯著提高機器生產(chǎn)力。知識圖譜是實現(xiàn)認知智能的關鍵技術(shù), 是實現(xiàn)機器認知智能的使能器 知識圖譜知識圖譜,作為一種語義網(wǎng)絡,是大數(shù)據(jù)時代知識表示的重要方式之一;作為一種技術(shù)體系,是大數(shù)據(jù)時代知識工程的代表性進展 機器理解數(shù)據(jù)的本質(zhì)是建立從數(shù)據(jù)到知識庫中實體、概念、關系的映射;機器解釋現(xiàn)象的本質(zhì)是利用知識庫中實體、概念、關系解釋現(xiàn)象的過程 知識是人類在認識和改造客觀世界的過程中總結(jié)出的客觀事實、概 念、定理和公理的集合 起源與發(fā)展 知識圖譜始于20世紀50年代,至今大致分為三個發(fā)展階段
知識圖譜發(fā)展歷史 知識圖譜主要技術(shù) 知識圖譜技術(shù)架構(gòu)圖
知識獲取示意圖 通過知識抽取技術(shù)從不同來源、不同結(jié)構(gòu)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)的數(shù)據(jù)中提取計算機可理解和計算的結(jié)構(gòu)化數(shù)據(jù),形成知識存儲到知識圖譜中。當前,獲取知識主要針對文本數(shù)據(jù)進行,按照抽取對象的不同可分為:實體抽取、關系抽取、屬性抽取和事件抽取。通常有以下四種方式:眾包法、爬蟲、機器學習、專家法
知識是人類在認識和改造客觀世界的過程中總結(jié)出的客觀事實、概念、定理和公理的集合。知識表示是將現(xiàn)實世界中存在的知識轉(zhuǎn)換成計算機可識別和處理的內(nèi)容,是一種描述知識的數(shù)據(jù)結(jié)構(gòu),用于對知識的一種描述或約定,也是知識圖譜研究中知識獲取、融合、建模、計算與應用的基礎。知識表示方法主要分為
針對知識圖譜的知識表示形式設計底層存儲方式,完成各類知識的存儲,以支持對大規(guī)模圖數(shù)據(jù)的有效管理和計算。知識存儲黨的對象包括:基本屬性知識、關聯(lián)知識、事件知識、時序知識和資源知識等。知識存儲方式的質(zhì)量直接影響到知識圖譜中知識查詢、知識計算及知識更新的效率 知識存儲方式 知識存儲方式和工具
知識建模是指建立知識圖譜的數(shù)據(jù)模型,即采用什么樣的方式來表達知識,構(gòu)建一個本體模型對知識進行描述。在本體模型中需要構(gòu)建本體的概念,屬性以及概念之間的關系。一般有自頂向下和自底向上兩種途徑 建模方法
手工建模方式 2.半自動建模方式 半自動建模方式先通過自動方式獲取知識圖譜,然后進行大量的人工干預過程。運用自然語言處理技術(shù)先自動建模的方法可以分為三大類:基于結(jié)構(gòu)化數(shù)據(jù)的知識建模方法,基于半結(jié)構(gòu)化數(shù)據(jù)的知識建模方法和基于非結(jié)構(gòu)化數(shù)據(jù)的知識建模方法 半自動建模方式
知識融合是知識組織與信息融合的交叉學科,它面向需求和創(chuàng)新,通過對眾多分散、異構(gòu)資源上知識的獲取、匹配、集成、挖掘等處理,獲取隱含的或有價值的新知識,同時優(yōu)化知識的結(jié)構(gòu)和內(nèi)涵,提供知識服務 知識融合概念分解
知識計算概念
知識運維是指在知識圖譜初次構(gòu)建完成之后,根據(jù)用戶的使用反饋、不斷出現(xiàn)的同類型知識以及增加的新的知識來源進行全量行業(yè)知識圖譜的演化和完善的過程,運維過程中需要保證知識圖譜的質(zhì)量可控及逐步的豐富衍化。知識圖譜的運維過程是個工程化的體系,覆蓋了知識圖譜的從知識獲取至知識計算等的整個生命周期。知識圖譜的運維包括兩個方面的關注點: 一個是從數(shù)據(jù)源方面的基于增量數(shù)據(jù)的知識圖譜的構(gòu)建過程監(jiān)控,另一個是通過知識圖譜的應用層發(fā)現(xiàn)的知識錯誤和新的業(yè)務需求 知識運維 知識圖譜存在的挑戰(zhàn)1.數(shù)據(jù)相關的挑戰(zhàn) 數(shù)據(jù)是知識圖譜的基石,其數(shù)據(jù)來源主要有兩種:自有數(shù)據(jù)(自身采集或擁有)和外源數(shù)據(jù)(網(wǎng)絡爬蟲、開放共享或從數(shù)據(jù)交易所獲取)。在實際應用中,多源數(shù)據(jù)的歧義、噪聲大、數(shù)據(jù)關聯(lián)性不明確等缺陷 2.算法相關的挑戰(zhàn) 知識圖譜系統(tǒng)從獲取、建模、融合、計算等各個環(huán)節(jié)均涉及不同的算法,目前個步驟所用到的算法根據(jù)現(xiàn)狀和需求不同存在不同挑戰(zhàn)。主要體現(xiàn)在:算法泛化能力差、算法魯棒性差、算法多樣化,缺乏統(tǒng)一的評測指標、算法可解釋性、基礎知識庫融合挑戰(zhàn)、垂直領域知識庫構(gòu)建挑戰(zhàn)、基礎知識庫不愿開放的挑戰(zhàn)、貫穿知識圖譜全生命周期的平臺缺失、基于文本的知識圖譜構(gòu)建工具性能弱、隱私安全和倫理相關的挑戰(zhàn)、測試評估及商業(yè)模式等方面的挑戰(zhàn) 小結(jié)從感知到認知,是個必然事件,而知識圖譜相當于計算機的大腦,是認知計算的關鍵組成部分。智能認知領域是下一個待突破的方向,前景可期 參考文獻《知識圖譜標準化白皮書2019》 |
|