語義網(wǎng)

紅花綠葉園 2012-03-24

展開全文

語義網(wǎng)

發(fā)布時間： 2011-08-12 |

語義網(wǎng)是一種能理解人類語言的智能網(wǎng)絡，它不但能夠理解人類的語言，而且還可以使人與電腦之間的交流變得像人與人之間交流一樣輕松。它是萬維網(wǎng)的延伸，是對未來網(wǎng)絡的一個設想，在這樣的網(wǎng)絡中，信息都被賦予了明確的含義，機器能夠自動的處理和集成網(wǎng)上可用的信息，供人們參考和使用。

簡單地說，語義網(wǎng)是一種能理解人類語言的智能網(wǎng)絡，它不但能夠理解人類的語言，而且還可以使人與電腦之間的交流變得像人與人之間交流一樣輕松。它好比一個巨型的大腦，智能化程度極高，協(xié)調(diào)能力非常強大。在語義網(wǎng)上連接的每一部電腦不但能夠理解詞語和概念，而且還能夠理解它們之間的邏輯關系，可以干人所從事的工作。它將使人類從搜索相關網(wǎng)頁的繁重勞動中解放出來，把用戶變成全能的上帝。語義網(wǎng)中的計算機能利用自己的智能軟件，在萬維網(wǎng)上的海量資源中找到你所需要的信息，從而將一個個現(xiàn)存的信息孤島發(fā)展成一個巨大的數(shù)據(jù)庫。

1 簡介

2 基本特征

3 優(yōu)點

4 體系結(jié)構

5 技術應用

簡介

“語義網(wǎng)”是計算機和互聯(lián)網(wǎng)界在描述下一階段網(wǎng)絡發(fā)展時所使用的術語。所謂“語義”就是文本的含義。語義網(wǎng)就是能夠根據(jù)語義進行判斷的網(wǎng)絡，也就是一種能理解人類語言，可以使人與電腦之間的交流變得像人與人之間交流一樣輕松的智能網(wǎng)絡。通過“語義網(wǎng)”，可以構建一個基于網(wǎng)頁內(nèi)數(shù)據(jù)語義來進行連接的網(wǎng)絡，從而使網(wǎng)絡能按照用戶的要求自動搜尋和檢索網(wǎng)頁，直至找到所需要的內(nèi)容。

在語義網(wǎng)中，網(wǎng)絡變得聰明了，似乎被置入了某些推理能力?；蛟S將來某個時候，具備人工智能的軟件代理人會替你在線處理所有繁雜的商業(yè)和個人事務。

語義網(wǎng)是萬維網(wǎng)的延伸，不僅可用自然語言表現(xiàn)網(wǎng)絡內(nèi)容，而且這些內(nèi)容還可以被軟件代理人（software agent）所閱讀和使用。萬維網(wǎng)的創(chuàng)始人蒂姆?伯納斯?李將網(wǎng)絡看做一種數(shù)據(jù)、信息和知識交換的萬有媒介，可以說，語義網(wǎng)完全符合他的這一夢想。

語義網(wǎng)的第二個重要元素是促進生產(chǎn)力。一旦計算機知道您的參數(shù)并且它在網(wǎng)上有一個語義描述, 它就能根據(jù)規(guī)則給你一個精確，私人化的結(jié)果。更加困難的是，您個人的愛好是一個從電腦返回的數(shù)據(jù)的過濾器: 找一個預算在3000元以下的旅行計劃，如果這些都實現(xiàn)了，那我們可以宣布語義網(wǎng)時代已經(jīng)到來了。

基本特征

1、語義網(wǎng)不同于現(xiàn)在WWW，它是現(xiàn)有WWW的擴展與延伸。

2、現(xiàn)有的WWW是面向文檔而語義網(wǎng)則面向文檔所表示的數(shù)據(jù)。

3、語義網(wǎng)將更利于計算機“理解與處理”，并將具有一定的判斷、推理能力。

4、內(nèi)容的可獲取性，即基于Ontology而構建的語義網(wǎng)網(wǎng)頁目前還很少。

5、本體的開發(fā)和演化，包括用于所有領域的核心本體的開發(fā)、開發(fā)過程中的方法及技術支持、本體的演化及標注和版本控制問題。

6、內(nèi)容的可擴展性，即有了語義網(wǎng)的內(nèi)容以后，如何以可擴展的方式來管理它，包括如何組織、存儲和查找等。

7、多語種支持。

8、本體語言的標準化。

優(yōu)點

語義網(wǎng)最大優(yōu)點就是對網(wǎng)絡信息的“理解和處理”能力。通過加入可以被計算機“理解”的語義，從而使得對文本含義的理解并不再是人的專利，利用計算機同樣也可以完成相同的工作。

例如，對于網(wǎng)上書店關于某本書的介紹，我們可以很容易地分辨哪一項表示的是書的題名、哪一項表示的是作者，哪些數(shù)字表示的是書的售價，哪些數(shù)字表示的是ISBN號等。但對于計算機而言，事情卻遠非如此簡單。因為它不知道在關于此書的介紹中，哪一項是書的題名，哪一項是書的作者，甚至連該項表示的是數(shù)字還是字符串都無從知曉。語義網(wǎng)的主要目的之一就是要在隱藏的編碼中明確指出每一項的具體含義，從而達到使計算機“理解”的目的。

“理解”只是語義網(wǎng)工作的第一步，更重要的是語義網(wǎng)可以使計算機在“理解”之后，根據(jù)已有的數(shù)據(jù)和規(guī)則進行邏輯推理和自動處理的能力。這一般是通過智能代理來完成的。智能代理是一段設計好的程序，它可以幫助人們自動完成某些工作。例如對于一個用于電子商務的購物代理，當我們把購物需求提交給代理程序以后，它會在網(wǎng)上自動搜索符合我們條件的商品，并比較其中的不同，根據(jù)我們設定的規(guī)則決定目標商店，在驗證目標商店的真實性與可靠性之后主動提交訂單。

語義網(wǎng)及其具有革命性的智能推理與代理技術，將在很大程度上改變現(xiàn)有互聯(lián)網(wǎng)的運行模式甚至人們的生活方式?；ヂ?lián)網(wǎng)上數(shù)以億計的網(wǎng)頁信息蘊藏著無盡的資源，它們將通過語義網(wǎng)釋放出巨大的能量。正如提姆?伯納斯?李所言，“完全可以想象，一旦這種技術被運用于世界上所有的數(shù)據(jù)表格，它將產(chǎn)生極大的社會效益。”

體系結(jié)構

第一層：Unicode和URI。Unicode是一個字符集，這個字符集中所有字符都用兩個字節(jié)表示，可以表示65536個字符，基本上包括了世界上所有語言的字符。數(shù)據(jù)格式采用Unicode的好處就是它支持世界上所有主要語言的混合，并且可以同時進行檢索。URI(Uniform Resource Identifier)，即統(tǒng)一資源定位符，用于唯一標識網(wǎng)絡上的一個概念或資源。在語義網(wǎng)體系結(jié)構中，該層是整個語義網(wǎng)的基礎，其中Unicode負責處理資源的編碼，URI負責資源的標識。

第二層：XML+NS+xmlschema。 XML是一個精簡的SGML，它綜合了SGML的豐富功能與HTML的易用性，它允許用戶在文檔中加入任意的結(jié)構，而無需說明這些結(jié)構的含意。NS(Name Space)即命名空間，由URI索引確定，目的是為了避免不同的應用使用同樣的字符描述不同的事物。XML Schema是DTD(Document Data Type)的替代品，它本身采用XML語法，但比DTD更加靈活，提供更多的數(shù)據(jù)類型，能更好地為有效的XML文檔服務并提供數(shù)據(jù)校驗機制。正是由于XML靈活的結(jié)構性、由URI索引的NS而帶來的數(shù)據(jù)可確定性以及XML Schema所提供的多種數(shù)據(jù)類型及檢驗機制，使其成為語義網(wǎng)體系結(jié)構的重要組成部分。該層負責從語法上表示數(shù)據(jù)的內(nèi)容和結(jié)構，通過使用標準的語言將網(wǎng)絡信息的表現(xiàn)形式、數(shù)據(jù)結(jié)構和內(nèi)容分離。

第三層：RDF+rdfschema。RDF是一種描述WWW上的信息資源的一種語言，其目標是建立一種供多種元數(shù)據(jù)標準共存的框架。該框架能充分利用各種元數(shù)據(jù)的優(yōu)勢，進行基于Web 的數(shù)據(jù)交換和再利用。RDF解決的是如何采用XML標準語法無二義性地描述資源對象的問題，使得所描述的資源的元數(shù)據(jù)信息成為機器可理解的信息。如果把XML看作為一種標準化的元數(shù)據(jù)語法規(guī)范的話，那么RDF就可以看作為一種標準化的元數(shù)據(jù)語義描述規(guī)范。Rdfschema使用一種機器可以理解的體系來定義描述資源的詞匯，其目的是提供詞匯嵌入的機制或框架，在該框架下多種詞匯可以集成在一起實現(xiàn)對Web資源的描述。

第四層：Ontology vocabulary。該層是在RDF(S)基礎上定義的概念及其關系的抽象描述，用于描述應用領域的知識，描述各類資源及資源之間的關系，實現(xiàn)對詞匯表的擴展。在這一層，用戶不僅可以定義概念而且可以定義概念之間豐富的關系。

第五至七層：Logic、Proof、Trust。Logic負責提供公理和推理規(guī)則，而Logic一旦建立，便可以通過邏輯推理對資源、資源之間的關系以及推理結(jié)果進行驗證，證明其有效性。通過Proof交換以及數(shù)字簽名，建立一定的信任關系，從而證明語義網(wǎng)輸出的可靠性以及其是否符合用戶的要求。

技術應用

語義網(wǎng)一開始就肩負著改造現(xiàn)有萬維網(wǎng)的重任，它正在逐漸改變和影響我們現(xiàn)有的萬維網(wǎng)。RSS、CC以及Powerset這些語義網(wǎng)支撐技術都讓我們切實感受到了迎面撲來的語義Web之風，使我們普通用戶享受到了語義網(wǎng)技術所帶來的便捷，聽到了它越來越近的腳步聲。

RSS是目前最成功的以語義網(wǎng)支撐技術為基礎的應用，是站點用來和其他站點共享內(nèi)容的一種簡易方式。用戶只要安裝RSS閱讀器，它就會自動收集和組織用戶定制的新聞，按照用戶希望的格式、地點和時間直接傳送到用戶的計算機上。目前國內(nèi)外大型門戶網(wǎng)站如新浪、搜狐、網(wǎng)易等都支持RSS應用，標記為“XML”或“RSS”的橙色圖標就是該網(wǎng)站支持RSS應用的記號。

知識共享(CC)版權識別是語義網(wǎng)技術的另一個現(xiàn)實應用。非營利性組織“知識共享組織”旨在為創(chuàng)造性作品提供靈活的著作權許可協(xié)議。2006年3月，中國大陸版CC發(fā)布?；谡Z義網(wǎng)支撐技術RDF的CC搜索引擎，能自動識別和理解作品版權信息，為用戶合法使用具有不同級別的知識產(chǎn)權網(wǎng)絡作品提供了極大方便，例如在線圖片存儲網(wǎng)站巴巴變(bababian.com)就已經(jīng)集成了CC中國大陸版許可協(xié)議，“巴巴變”的用戶可以選擇知識共享中國大陸項目提供的許可協(xié)議，授權他人使用自己擁有著作權的圖片作品。

剛問世就被稱為“Google殺手”的Powerset，則是巴尼?佩爾（BarneyPell）追逐的一個關于自然語言搜索引擎的夢想。38歲的佩爾認為，Google只能通過關鍵字來搜索，不能分辨“兒童看的書”、“兒童寫的書”和“關于兒童的書”之間的區(qū)別，而自然語言引擎卻能夠分析“功能詞”，理解哪怕是最小的關鍵詞的意思。他相信Powerset搜索引擎很快就可以推向市場，成為語義網(wǎng)的催化劑。

除了上述語義網(wǎng)技術的成功應用外，目前有希望的語義網(wǎng)應用研究還集中在Web服務、基于代理的分布式計算以及基于語義的數(shù)字圖書館等方面。

語義網(wǎng)雖然是一種更加美好的網(wǎng)絡，但實現(xiàn)起來卻是一項復雜浩大的工程。面對紛繁復雜的問題，人尚且難以決斷，更何況計算機呢。況且，決定技術發(fā)展方向的是用戶體驗，而不是理論。要真正實現(xiàn)實用的語義網(wǎng)，還有很多難題亟待解決，有些暫時還看不到解決的希望。語義網(wǎng)的研究開發(fā)基本上還停留在實驗室階段，成熟的語義網(wǎng)技術商業(yè)應用產(chǎn)品并不多見，各大軟件生產(chǎn)商對其應用還處于觀望期。但是，隨著對語義網(wǎng)體系結(jié)構、支撐技術和實現(xiàn)方法的不斷突破，基于語義網(wǎng)支撐技術的相關應用會日趨成熟，在不久的將來，計算機一定能看懂并處理網(wǎng)頁中的內(nèi)容，伯納斯?李所期盼的人們將更方便快捷地使用萬維網(wǎng)發(fā)布和獲取信息的理想，也一定會成為現(xiàn)實。

(科技日報)