傳統(tǒng)搜索引擎
1. 搜索引擎的分類
互聯(lián)網(wǎng)的迅速發(fā)展和廣泛普及導(dǎo)致網(wǎng)上信息爆炸性增長。目前存在數(shù)量眾多的搜索引擎,根據(jù)它們所基于的技術(shù)原理,可以把它們分成三大主要類型:基于機(jī)器人Robot的搜索引擎、目錄式Directory(也叫做Catalog)搜索引擎和Meta元搜索引擎。
基于機(jī)器人Robot的搜索引擎 這種搜索引擎的特點(diǎn)是利用一個稱為Robot(也叫做Spider、Web Crawler或Web Wanderer)的程序以某種策略自動地在互聯(lián)網(wǎng)中收集和發(fā)現(xiàn)信息,由索引器為收集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。
基于Robot的搜索引擎一般要定期訪問大多數(shù)以前收集的網(wǎng)頁,刷新索引,以反映出網(wǎng)頁的更新情況,去除一些死鏈接,網(wǎng)頁的部分內(nèi)容和變化情況將會反映到用戶查詢的結(jié)果中,這是基于Robot的搜索引擎的一個重要特征。
該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時、毋需人工干預(yù)。缺點(diǎn)是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國內(nèi)代表為:百度、悠游、OpenFind等。
目錄式Directory搜索引擎 這種搜索引擎以人工方式或半自動方式收集信息。目錄式搜索引擎的數(shù)據(jù)庫是依靠專職編輯或志愿人員建立起來的,這些編輯人員在訪問了某個Web站點(diǎn)后撰寫一段對該站點(diǎn)的描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個預(yù)先分好的類別,把站點(diǎn)的URL和描述放在這個類別中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。很多目錄也接受用戶提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會將之添加到合適的類別中。
目錄的用戶界面基本上都是分級結(jié)構(gòu),首頁提供了最基本的幾個大類的入口,用戶可以一級一級地向下訪問,直至找到自己感興趣的類別。另外,用戶也可以利用目錄提供的搜索功能直接查找一個關(guān)鍵詞,該類搜索引擎因為加入了人的智能,因此用戶從目錄搜索得到的結(jié)果往往比從基于Robot的搜索引擎得到的結(jié)果更具參考價值,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo、AOL、Lycos、Open Directory等。
Meta元搜索引擎 元搜索引擎(Metasearch Engine),被稱為搜索引擎之上的搜索引擎。用戶只需遞交一次檢索請求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個預(yù)先選定的獨(dú)立搜索引擎,并將所有查詢結(jié)果集中起來以整體統(tǒng)一的格式呈現(xiàn)到用戶面前。由于采用了一系列的優(yōu)化運(yùn)行機(jī)制,它能夠在盡可能短的時間內(nèi)提供相對全面、準(zhǔn)確的信息,而且即使不能完全滿足用戶需求,仍可以作為相對可靠的參考源進(jìn)行擴(kuò)展搜索,因此成為備受推崇的檢索首選入口。
一個真正的元搜索引擎由三部分組成,即:檢索請求提交機(jī)制、檢索接口代理機(jī)制、檢索結(jié)果顯示機(jī)制?!罢埱筇峤弧必?fù)責(zé)實現(xiàn)用戶“個性化”的檢索設(shè)置要求,包括調(diào)用哪些搜索引擎、檢索時間限制、結(jié)果數(shù)量限制等?!敖涌诖怼必?fù)責(zé)將用戶的檢索請求“翻譯”成滿足不同搜索引擎“本地化”要求的格式?!敖Y(jié)果顯示”負(fù)責(zé)所有源搜索引擎檢索結(jié)果的去重、合并、輸出處理等。這類搜索引擎的代表是:ByteSearch、Mamma、MetaCrawler、Profusion等。
2. 傳統(tǒng)搜索技術(shù)的局限
信息丟失 一般來說,目錄式的搜索引擎由于目錄只在對站點(diǎn)的描述中進(jìn)行搜索,因此站點(diǎn)本身的動態(tài)變化不會反映到搜索結(jié)果中來,對網(wǎng)站的描述也十分簡略,其描述能力不能深入網(wǎng)站的內(nèi)部細(xì)節(jié),因此用戶不能查詢網(wǎng)站內(nèi)部的重要信息,造成了信息丟失。
返回信息太多 基于機(jī)器人的搜索引擎由于應(yīng)用了全文檢索技術(shù),能夠解決對網(wǎng)頁細(xì)節(jié)的檢索問題。從理論上說,只要網(wǎng)頁上出現(xiàn)了某個關(guān)鍵詞,就能夠使用全文檢索用關(guān)鍵詞匹配把該網(wǎng)頁查出來,但是這又導(dǎo)致了它的缺陷——返回的信息太多。
信息無關(guān) 返回信息過多只是全文檢索給人直觀感覺到的問題。除此之外,它還有兩個不很直觀的深層次問題也給信息檢索帶來了不少困難。
很多情況下,用戶很難簡單地用關(guān)鍵詞或關(guān)鍵詞串來忠實地表達(dá)他所真正需要檢索的內(nèi)容,表達(dá)困難導(dǎo)致檢索困難。
人類的自然語言中,隨著時間、地域或領(lǐng)域的改變,同一概念可以用不同的語言表現(xiàn)形式來表達(dá)。因此,對同一概念的檢索,不同的用戶可能使用不同的關(guān)鍵詞來查詢。
這個兩個問題造成的直接結(jié)果就是返回大量的無關(guān)信息。比如,“計算機(jī)”和“電腦”是同一類產(chǎn)品,但是搜索結(jié)果往往大不相同。
造成上述信息檢索困難的原因的實質(zhì)在于傳統(tǒng)的搜索引擎對要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來實現(xiàn),缺乏知識處理能力和理解能力,也就是說搜索引擎無法處理在用戶看來是非常普通的常識性知識,更不能處理隨用戶不同而變化的個性化知識、隨地域不同而變化的區(qū)域性知識以及隨領(lǐng)域不同而變化的專業(yè)性知識等等。
因此,結(jié)合人工智能技術(shù)的智能搜索引擎把信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,是解決問題的根本和關(guān)鍵。
智能搜索引擎
1.智能搜索引擎發(fā)展?fàn)顩r
智能搜索引擎是結(jié)合了人工智能技術(shù)的新一代搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識別以及機(jī)器翻譯技術(shù)等。智能搜索引擎具有信息服務(wù)的智能化、人性化特征,允許網(wǎng)民采用自然語言進(jìn)行信息的檢索,為他們提供更方便、更確切的搜索服務(wù)。這類搜索引擎的代表有:尤里卡、問一問、21ilink、孫悟空、悠游等;國外代表:Ask jeeves、Google等。
2. 智能搜索引擎的技術(shù)
各個智能搜索引擎技術(shù)的實現(xiàn)各不相同、各有特點(diǎn),但從實現(xiàn)智能搜索基本思路上是相通的。下面以尤里卡搜索引擎為例,簡要說明一下技術(shù)實現(xiàn)。
知識庫和信息庫 知識庫是實現(xiàn)智能搜索的基礎(chǔ)和核心,知識庫就像人腦里存放的知識。人腦是人們認(rèn)知、理解世界和改造世界的基礎(chǔ)。人腦所做到的不僅僅是對信息的接受,而是對信息的判斷、提取、分析和概括之后形成自己的知識,然后保存到大腦中,成為下一次分析、概括的依據(jù)和基礎(chǔ)。這樣,人腦的知識就處在一種自增長的過程。人們掌握知識的多少,決定了人們認(rèn)知、理解和改造世界的程度。知識庫的形成與增長,就如同人腦知識的增長,也處于一種自增長自循環(huán)的狀態(tài),知識庫的豐富程度也同樣決定著檢索能力的高低。
信息庫就是互聯(lián)網(wǎng)?;ヂ?lián)網(wǎng)是一個巨大的、非結(jié)構(gòu)化而且處于不停變化的信息空間。信息庫可以起到兩方面的作用。首先,信息庫是知識庫存在和發(fā)展的空間,知識庫所做的其實就是對信息庫的判斷、提取、分析和概括,所謂知識是從信息來,就是這個道理。其次,信息庫也是用戶所要檢索的內(nèi)容,智能搜索引擎所做的就是通過知識庫把用戶的問題提高到知識(概念)的層面,然后利用這個知識(概念)檢索信息庫。
語義分析、知識管理和檢索 要做到智能搜索還必須做到知識庫和信息庫的結(jié)合。要做到兩個核心庫的有機(jī)結(jié)合要做到以下三點(diǎn):語義分析、知識管理和知識檢索。
語義分析是分析用戶語言的具體含義。它應(yīng)該實現(xiàn)以下幾個功能:整句分詞、處理同義詞、根據(jù)知識庫分析關(guān)鍵詞明確概念和語義及一定程度地豐富知識庫。
知識管理主要實現(xiàn)知識庫的自增長。前面提到,知識庫的增長基礎(chǔ)是對信息庫的概括和提取,所以知識管理首先要做到對信息庫的分析和概括,然后是對知識庫的擴(kuò)充。
知識檢索是實現(xiàn)智能搜索的最后一環(huán),通過前面語義分析結(jié)果,明確用戶用意,對信息庫進(jìn)行知識(概念)層次的檢索,在給出準(zhǔn)確答案的同時,給出用戶相關(guān)問題,從多方位對用戶的問題進(jìn)行回答。
3.智能搜索引擎的優(yōu)點(diǎn)
搜索結(jié)果的準(zhǔn)確性 由于采取了知識庫為基礎(chǔ)的語義分析,在進(jìn)行檢索過程中,采用的不是關(guān)鍵詞全文檢索,而是基于概念的檢索。比如說當(dāng)你輸入“北京天氣怎么樣?”,傳統(tǒng)搜索引擎返回的結(jié)果連小說都檢索出來,因為小說內(nèi)容包括“北京天氣怎么樣?”這句話。而智能搜索引擎,由于采取語義分析的方法,分析出北京天氣這個概念,直接給出北京的天氣情況預(yù)報。
搜索結(jié)果的范圍定位準(zhǔn)確 由于采用知識(概念)檢索技術(shù),明確和縮小了搜索范圍,減少對無用信息范圍的檢索。比如上面的例子,智能搜索引擎只在天氣這個范圍進(jìn)行檢索,從而提高了檢索效率,減少了無用信息。智能搜索引擎是以搜索結(jié)果準(zhǔn)確、范圍小為特點(diǎn)的。
搜索結(jié)果的綜合性 由于采用了知識庫,搜索引擎將給用戶提供更全面、更綜合和更合理的知識框架。在這里,信息檢索只是信息服務(wù)的一部分。比如說當(dāng)你輸入“在北京怎么找工作?”,給出的答案不僅僅是給出“北京地區(qū)的招聘信息”,而且還給出“北京地區(qū)的人才政策”、“求職技巧”等信息。
搜索結(jié)果的智能性 所謂“智能來自知識”,有綜合知識庫作為背景,信息檢索和導(dǎo)航服務(wù)將更智能。知識庫中的知識有助于解決前面提到“表達(dá)差異”問題。例如,只要定義“計算機(jī)”、“電子計算機(jī)”、“電腦”是同義關(guān)系就可以消除用戶由于使用不同的詞表達(dá)同一概念而帶來的檢索困難。另一方面,知識庫對用戶的查詢進(jìn)行相關(guān)性聯(lián)想,提供引導(dǎo)用戶進(jìn)行下一步查詢的線索。這樣一步一步地在與用戶的交互過程中誘導(dǎo)用戶“表達(dá)”出他真正想找的東西,從而實現(xiàn)對查詢的智能導(dǎo)航。這種逐步求精的策略解決了信息檢索“忠實表達(dá)”的難題。
4.智能搜索引擎的發(fā)展與應(yīng)用
建立理論上完備的知識庫是不現(xiàn)實的。這是因為人的知識、特別是常識性知識具有“數(shù)量”上的浩瀚無際,在“質(zhì)量”上又有高度的不確定性和模糊性,要建立這樣一個知識網(wǎng)絡(luò)是極端困難的。
然而,這絲毫不會影響基于知識庫的智能搜索技術(shù)的可行性和可操作性。這是因為,理論上完備的知識庫雖然難以實現(xiàn),但是我們可以通過降低求解目標(biāo)的方法,針對具體的搜索引擎需求,建立相應(yīng)的知識庫(或稱概念圖),這里的知識庫是對理論上完整知識庫的一種近似,一種局部實現(xiàn)。針對某一領(lǐng)域、甚至某一站點(diǎn)所有網(wǎng)頁所反映的知識來構(gòu)造一個局部的小知識庫是相對容易實現(xiàn)的。它的知識在數(shù)量和質(zhì)量上雖然不能與理想的知識庫相比,對具體搜索任務(wù)卻是實用的。更重要的是,知識庫里的知識可以在使用中不斷改進(jìn),數(shù)量上不斷增加,質(zhì)量上不斷提高。這是一個對知識進(jìn)行訓(xùn)練的過程,可以通過人來完成,也可以使用機(jī)器學(xué)習(xí)等手段來實現(xiàn)。
(轉(zhuǎn)帖)搜索技術(shù)發(fā)展及未來趨勢
陸元婕 飛俠
搜索技術(shù)仍不能滿足需求
Internet的迅速發(fā)展和廣泛應(yīng)用導(dǎo)致了網(wǎng)上信息爆炸性地增長。據(jù)權(quán)威機(jī)構(gòu)統(tǒng)計,網(wǎng)上約有數(shù)十億的網(wǎng)頁,甚至有些專家宣稱網(wǎng)頁總數(shù)已達(dá)5500億,這一數(shù)字仍然在不斷地快速增長。因此,如何在龐大的Internet上獲得有價值的信息已成為網(wǎng)民日益關(guān)注的問題。搜索技術(shù)的出現(xiàn)為網(wǎng)民從Internet上快速找到所需信息帶來了福音。搜索引擎是一種用于幫助Internet用戶查詢信息的搜索工具,它以一定的策略在Internet中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。
1993年,Internet上出現(xiàn)了最早的Web瀏覽器Mosaic,次年Netscape推出了Navigator。瀏覽器的發(fā)展促使Web得到迅速推廣,同時也推動了搜索引擎的發(fā)展。
早期的搜索引擎是把Internet中資源服務(wù)器的地址收集起來,由其提供資源的類型不同而分成不同的目錄,再一層層地進(jìn)行分類。人們要找自己想要的信息可按它們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。這其實是最原始的方式,只適用于Internet信息并不多的時候。
隨著Internet信息按幾何式增長,出現(xiàn)了最早的真正意義上的搜索引擎——Lycos,它創(chuàng)建于1994年的春天,當(dāng)時Michael Mauldin將John Leavitt的Spider程序接入到其索引程序中。隨著Yahoo!的出現(xiàn),搜索引擎的發(fā)展也進(jìn)入了黃金時代,其性能也更加優(yōu)越。
搜索服務(wù)提供者在研發(fā)搜索技術(shù)方面已經(jīng)花費(fèi)了大量的時間和精力,但是網(wǎng)民對于現(xiàn)有的搜索技術(shù)是否滿意呢?
2001年,Roper Starch的調(diào)查指出,36%的Internet用戶一個星期花了超過2個小時時間在網(wǎng)上搜索;71%的用戶在使用搜索引擎的時候遇到過麻煩;平均搜索12分鐘以后發(fā)現(xiàn)搜索受挫;搜索受挫中46%都是因為鏈接錯誤;絕大部分(86%)的Internet用戶感到應(yīng)當(dāng)出現(xiàn)更有效的、準(zhǔn)確的信息搜索技術(shù)。
另一項由Keen所做的調(diào)查顯示,人們平均每天有四個問題需要從外界獲取答案;其中31%的人使用搜索引擎尋找答案;平均每周花費(fèi)8.75個小時找尋答案;53.3%的時間花在從旁人那里獲得答案,29%的時間花在親戚朋友身上,24.3%的時間花在銷售商那里;網(wǎng)上查找答案的,半數(shù)以上都不成功;他們每周將花費(fèi)14.5美元以上,以獲取正確的信息。
從這些調(diào)查數(shù)據(jù)中不難看出,目前的搜索引擎仍然存在不少的局限性。傳統(tǒng)的搜索引擎技術(shù)有哪些局限性呢?主要有信息丟失、返回過多無用信息及信息無關(guān)等幾方面的局限性。造成上述信息檢索困難的原因的實質(zhì)在于傳統(tǒng)的搜索引擎對要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來實現(xiàn),缺乏知識處理能力和理解能力,也就是說搜索引擎無法處理在用戶看來是非常普通的常識性知識,更不能處理隨用戶不同而變化的個性化知識、隨地域不同而變化的區(qū)域性知識以及隨領(lǐng)域不同而變化的專業(yè)性知識等等。
這使得網(wǎng)民仍然在期盼更完美的搜索技術(shù)的出現(xiàn)。網(wǎng)民需要搜索服務(wù)提供者研制更完美的搜索技術(shù)來滿足更快、更準(zhǔn)、更方便的查詢需要。是的,這些正是搜索技術(shù)發(fā)展的最終目標(biāo):跟上Internet的發(fā)展速度,為網(wǎng)民提供更準(zhǔn)確的查詢結(jié)果。下面將就目前幾大新興技術(shù)在搜索技術(shù)中的應(yīng)用做展望,以設(shè)想更具完美的搜索技術(shù)的未來。
自然語言理解技術(shù)
隨著社會的日益信息化,人們越來越強(qiáng)烈地希望用自然語言同計算機(jī)交流。自然語言理解是計算機(jī)科學(xué)中一個引人入勝、富有挑戰(zhàn)性的課題。從計算機(jī)科學(xué),特別是從人工智能的觀點(diǎn)看,自然語言理解的任務(wù)是建立一種計算機(jī)模型,這種計算機(jī)模型能夠給出像人那樣理解、分析并回答自然語言(即人們?nèi)粘J褂玫母鞣N通俗語言)的結(jié)果。
現(xiàn)在計算機(jī)的智能還遠(yuǎn)遠(yuǎn)沒有達(dá)到能夠像人一樣理解自然語言的水平,而且在可預(yù)見的將來也難以達(dá)到這樣的水平。因此,關(guān)于計算機(jī)對自然語言的理解一般是從實用的角度進(jìn)行評判的。如果計算機(jī)實現(xiàn)了人機(jī)會話、機(jī)器翻譯或自動文摘等語言信息處理功能,則認(rèn)為計算機(jī)具備了自然語言的理解能力。
以自然語言理解技術(shù)為基礎(chǔ)的新一代搜索引擎,我們稱之為智能搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識別以及機(jī)器翻譯技術(shù)等。因而這種搜索引擎具有信息服務(wù)的智能化、人性化特征,允許網(wǎng)民采用自然語言進(jìn)行信息的檢索,為他們提供更方便、更確切的搜索服務(wù)。
與傳統(tǒng)的目錄查詢、關(guān)鍵詞查詢模式相比,自然語言查詢的優(yōu)勢體現(xiàn)在:一是使網(wǎng)絡(luò)交流更加人性化;二是使信息查詢變得更加方便、快速和準(zhǔn)確?,F(xiàn)在,已經(jīng)有越來越多的搜索引擎宣布支持自然語言搜索特性,但是要建立真正的基于自然語言理解的智能查詢系統(tǒng),還存在很多的技術(shù)難點(diǎn)。如:如何理解自然語言及所代表的實際含義;如何根據(jù)問題找出用戶實際想要的答案;如何建立大規(guī)模知識庫等。
目前,智能搜索引擎的研發(fā)主要有兩大方向,其一是基于機(jī)器翻譯技術(shù),比如Google;其二是基于語義理解技術(shù),國內(nèi)有尤里卡、問一問,國外的主要代表是Ask Jeeves。
機(jī)器翻譯(Machine Translation,MT)又稱機(jī)譯,它是利用計算機(jī)把一種自然語言轉(zhuǎn)變成另一種自然語言的過程。智能搜索引擎在這一領(lǐng)域的研究將使得用戶可以使用母語搜索非母語的網(wǎng)頁,并以母語瀏覽搜索結(jié)果。
語義理解通過將語言學(xué)的研究成果和搜索引擎技術(shù)結(jié)合在一起,實現(xiàn)了搜索引擎對搜索詞在語義層次上的理解,為用戶提供最確切的搜索服務(wù)。
P2P對等網(wǎng)絡(luò)
引發(fā)P2P革命的當(dāng)推美國的Napster,2000年7月份的一場官司將Napster的聲望推到頂點(diǎn),用戶數(shù)也在短短一年內(nèi)激增至4000萬,成為Internet史上一大奇跡。P2P是Peer-to-Peer的縮寫,意為對等網(wǎng)絡(luò)。其在加強(qiáng)網(wǎng)絡(luò)上人的交流、文件交換、分布計算等方面大有前途。P2P被認(rèn)為是Internet實現(xiàn)下一次飛躍的關(guān)鍵,但它將如何浮出水面仍然是個謎。長久以來,人們習(xí)慣的Internet是以服務(wù)器為中心,人們向服務(wù)器發(fā)送請求,然后瀏覽服務(wù)器回應(yīng)的信息。
P2P所包含的技術(shù)就是使聯(lián)網(wǎng)電腦能夠進(jìn)行數(shù)據(jù)交換,但數(shù)據(jù)是存儲在每臺電腦里,而不是存儲在既昂貴又容易受到攻擊的服務(wù)器里。網(wǎng)絡(luò)成員可以在網(wǎng)絡(luò)數(shù)據(jù)庫里自由搜索、更新、回答和傳送數(shù)據(jù)。所有人都共享了他們認(rèn)為最有價值的東西,這將使Internet上信息的價值得到極大的提升。
P2P引導(dǎo)網(wǎng)絡(luò)計算模式從集中式向分布式轉(zhuǎn)移,也就是說網(wǎng)絡(luò)應(yīng)用的核心從中央服務(wù)器向網(wǎng)絡(luò)邊緣的終端設(shè)備擴(kuò)散:服務(wù)器到服務(wù)器、服務(wù)器到PC機(jī)、PC機(jī)到PC機(jī)、PC機(jī)到WAP手機(jī)……所有網(wǎng)絡(luò)節(jié)點(diǎn)上的設(shè)備都可以建立P2P對話。
P2P給Internet的分布、共享精神帶來了無限的遐想,有觀點(diǎn)認(rèn)為至少有100種應(yīng)用能被開發(fā)出來,但從目前的應(yīng)用來看,P2P的威力還主要體現(xiàn)在大范圍的共享、搜索的優(yōu)勢上。P2P技術(shù)的一個優(yōu)勢是開發(fā)出強(qiáng)大的搜索工具。P2P技術(shù)使用戶能夠深度搜索文檔,而且這種搜索無需通過Web服務(wù)器,也可以不受信息文檔格式和宿主設(shè)備的限制,可達(dá)到傳統(tǒng)目錄式搜索引擎(只能搜索到20%~30%的網(wǎng)絡(luò)資源)無可比擬的深度(理論上將包括網(wǎng)絡(luò)上所有開放的信息資源)。以P2P技術(shù)發(fā)展先鋒Gnutella進(jìn)行的搜索為例:一臺PC上的Gnutella軟件可將用戶的搜索請求同時發(fā)給網(wǎng)絡(luò)上另外10臺PC,如果搜索請求未得到滿足,這10臺PC中的每一臺都會把該搜索請求轉(zhuǎn)發(fā)給另外10臺PC,這樣,搜索范圍將在幾秒鐘內(nèi)以幾何級數(shù)增長,幾分鐘內(nèi)就可搜遍幾百萬臺PC上的信息資源。
基于P2P對等搜索理念的搜索技術(shù)會為Internet的信息搜索提供全新的解決之道。它使人們在Internet上的共享行為被提到一個更高的層次,使人們以更主動深刻的方式參與到網(wǎng)絡(luò)中去。
XML可擴(kuò)展標(biāo)記語言
XML將使Web的搜索非常方便。XML可擴(kuò)展標(biāo)記語言是Web數(shù)據(jù)使用的通用語言,具有結(jié)構(gòu)化、規(guī)范性、可擴(kuò)展性及簡潔的特點(diǎn)。XML 能讓開發(fā)人員將來自各種應(yīng)用程序的結(jié)構(gòu)化數(shù)據(jù)傳送給桌面以在本地計算和表示。XML 允許為特定應(yīng)用程序創(chuàng)建獨(dú)特的數(shù)據(jù)格式,它還是結(jié)構(gòu)化數(shù)據(jù)從服務(wù)器到服務(wù)器傳輸?shù)睦硐敫袷?。XML是在超級分布式系統(tǒng)之間實現(xiàn)多數(shù)據(jù)集傳輸?shù)囊环N手段。它同時可以使開發(fā)人員以更具價值的新型方式聚集和組合各種來源的數(shù)據(jù)。XML將成為Internet上最重要的基礎(chǔ)性語言。
XML通過DTD定義了文檔的詞法、語法和部分語義,XML規(guī)定了文檔的表現(xiàn)形式,而XLink和XPointer定義了文檔之間的關(guān)系,從而為基于Web的各種應(yīng)用提供了一個描述數(shù)據(jù)和交換數(shù)據(jù)的有效手段。如果說,HTML提供了顯示全球數(shù)據(jù)的通用方法,那么XML進(jìn)一步提供了處理全球數(shù)據(jù)的通用方法。XML繼承了SGML的強(qiáng)大功能,又充分采取了HTML的“易用”原則。它實現(xiàn)了國際性的媒體無關(guān)的電子出版,使工業(yè)界能夠定義平臺無關(guān)的數(shù)據(jù)交換協(xié)議,特別是電子商務(wù)中的數(shù)據(jù)交換協(xié)議。資源標(biāo)注、編目和描述是信息查找的基礎(chǔ),結(jié)構(gòu)化的資源(XML)和資源的描述框架(RDF)互相配合,將大大提高信息查找效率。XML簡化元數(shù)據(jù)的提取工作,從而協(xié)助人們尋找信息,并協(xié)助信息生產(chǎn)者和信息消費(fèi)者的相互發(fā)現(xiàn)。如果說在網(wǎng)絡(luò)的支持下,HTML語言解決了在異構(gòu)平臺間傳送數(shù)據(jù)和文檔,那么,基于XML的VRML和SMIL解決了在異構(gòu)平臺間傳送感受的可能性問題。使用XML,人們可以利用設(shè)備的智能去訪問不同的網(wǎng)站,并對信息進(jìn)行集中。XML使我們邁向?qū)⒖刂菩畔⒌臋?quán)利交給那些需要信息的人們。由于所有文件都以XML格式存在,所有的用戶都可以方便地查找和使用其中的信息,任何規(guī)模的文化機(jī)構(gòu)都可以使用相同的工具與資源。內(nèi)容供應(yīng)者、合作伙伴和信息內(nèi)容消費(fèi)者可以高效地溝通和共享信息,這樣就創(chuàng)造出了一種全新的協(xié)同工作模式。
由于給網(wǎng)民提供更完美的搜索結(jié)果不僅僅需要新興的技術(shù)支持,更涉及搜索技術(shù)的發(fā)展方向問題。下面筆者就搜索引擎的發(fā)展趨勢談幾點(diǎn)個人見解。
更方便易用的搜索
搜索過程的方便易用,需要搜索服務(wù)提供更好的人機(jī)交互界面技術(shù)和關(guān)聯(lián)式的綜合搜索結(jié)果。
1. 人機(jī)交互界面技術(shù)
人機(jī)界面技術(shù)的不同往往使得搜索引擎表現(xiàn)出不同的特色。當(dāng)前搜索引擎涉及的人機(jī)界面技術(shù)主要有四類:搜索請求提交技術(shù)、搜索結(jié)果表現(xiàn)技術(shù)、搜索向?qū)Ъ夹g(shù)、搜索行為分析技術(shù)。
搜索請求提交技術(shù)中有幾個很有用的技術(shù),包括多語言查詢技術(shù)、編碼轉(zhuǎn)換技術(shù)、模糊語義查詢、精確語義查詢以及采用自然語言的搜索請求提交界面。
搜索結(jié)果表現(xiàn)技術(shù)包括搜索結(jié)果的準(zhǔn)確度及相關(guān)度、搜索結(jié)果的母語評價等。
搜索向?qū)Ъ夹g(shù)則純粹是網(wǎng)站設(shè)計上的界面技術(shù)。它通過具有親和力、易用的界面,即時的幫助來方便網(wǎng)民的搜索。
搜索行為分析技術(shù)的核心是跟蹤、分析用戶的搜索行為,充分利用這些信息來提高用戶的搜索效率。搜索行為分析技術(shù)提高搜索效率的途徑主要有兩種:群體行為分析和個性化搜索。
2. 關(guān)聯(lián)式的綜合搜索
以往的搜索經(jīng)驗大都是在甲網(wǎng)站找圖片,到乙網(wǎng)站找新聞,到丙網(wǎng)站找股票資訊。這種方式十分麻煩而浪費(fèi)時間。那為何不考慮將這些圖片、新聞、股票等等各種有關(guān)聯(lián)的信息整合在同一界面,讓網(wǎng)民一次查詢,全部滿足呢?所謂關(guān)聯(lián)式綜合搜索就是這樣一種一站式的搜索服務(wù),它使得網(wǎng)民在搜索時只需輸入一次查詢目標(biāo),即可在同一界面得到各種有關(guān)聯(lián)的查詢結(jié)果。這項服務(wù)的關(guān)鍵在于有一架構(gòu)建在XML基礎(chǔ)上的整合資訊平臺。
更精確的搜索
搜索引擎技術(shù)本身一個最重要的發(fā)展方向是提供更精確的搜索。要想大幅度地提高搜索引擎的效率和搜索結(jié)果準(zhǔn)確度,應(yīng)考慮這樣幾個方向:智能化搜索、個性化搜索、結(jié)構(gòu)化搜索、垂直化搜索、本土化搜索等。
1. 智能化搜索
準(zhǔn)確的搜索應(yīng)建立在對收集信息和搜索請求的理解之上,也就是說,必須處理語義信息。顯然,基于自然語言理解技術(shù)的搜索引擎,由于可以同用戶使用自然語言交談,并深刻理解用戶的搜索請求,因此查詢的結(jié)果也更加準(zhǔn)確。
2. 個性化搜索
提高搜索精確度的另一個途徑是提供個性化的搜索,也就是將搜索建立在個性化的搜索環(huán)境之下,通過對用戶的不斷了解、分析,使得個性化搜索更符合每個用戶的需求,而不僅僅是準(zhǔn)確。
3. 結(jié)構(gòu)化搜索
所謂結(jié)構(gòu)化搜索,是指充分利用XML等技術(shù)使信息結(jié)構(gòu)化,同時使查詢結(jié)構(gòu)化,從而使搜索的準(zhǔn)確度大大提高。
4. 垂直化專業(yè)領(lǐng)域搜索
由于社會分工的加大,網(wǎng)民從事的職業(yè)有很大不同,不同網(wǎng)民對信息搜索也往往有自己的專業(yè)要求。比如信息技術(shù)類從業(yè)人員最希望有面向信息技術(shù)的專業(yè)搜索引擎,金融證券從業(yè)人員則希望使用金融證券類的搜索引擎。從調(diào)查結(jié)果看:一半網(wǎng)民認(rèn)為目前搜索引擎死鏈接太多,四成以上的網(wǎng)民認(rèn)為目前的搜索結(jié)果中不相關(guān)信息太多,而專業(yè)垂直引擎可解決以上問題,它只針對某領(lǐng)域,可保證此領(lǐng)域信息的收錄齊全與更新非常及時。另外,六成左右的網(wǎng)民認(rèn)為面向某領(lǐng)域的搜索引擎非?;虮容^重要。
垂直類搜索引擎面向某一特定專業(yè)領(lǐng)域,專注于自己的特長和核心技術(shù),保證了對該領(lǐng)域信息的完全收錄與及時更新。因此,基于專業(yè)領(lǐng)域的“垂直搜索引擎”開始成為搜索引擎發(fā)展的一個新趨勢。
專業(yè)化的搜索引擎在提供專業(yè)信息方面有著大型綜合引擎無法比擬的優(yōu)勢。專業(yè)搜索引擎和專門信息搜索引擎所采用的基本技術(shù)同綜合引擎一樣,而且基本上都是成熟的技術(shù)(某些專門信息搜索引擎可能還需要一些特殊技術(shù)),它們的發(fā)展沒有技術(shù)障礙,同時正符合了Internet發(fā)展的一個趨勢:Internet將更專業(yè)化、分工更細(xì)。
5. 本土化的搜索
世界上許多著名的搜索引擎都在美國,他們以英語為基礎(chǔ),完全按他們的思維方式和觀點(diǎn)搜集和檢索資料,這對于全球不同國家的用戶來說顯然是不適合的。各國的文化傳統(tǒng)、思維方式和生活習(xí)慣不同,在對網(wǎng)站內(nèi)容的搜索要求上也就存在差異。搜索結(jié)果要符合當(dāng)?shù)赜脩舻囊?,搜索引擎就必須本土化?
以上我們大致了解了一些新興技術(shù)在搜索技術(shù)中的應(yīng)用以及搜索引擎的發(fā)展趨勢。隨著搜索技術(shù)的不斷完善與發(fā)展,我們有理由相信將來的搜索引擎一定會朝向更方便易用的人機(jī)界面,更準(zhǔn)確的搜索結(jié)果方向發(fā)展。