中文智能搜索引擎

鴕鳥 2007-01-30

展開全文

傳統(tǒng)搜索引擎

　　1．搜索引擎的分類

　　互聯(lián)網(wǎng)的迅速發(fā)展和廣泛普及導(dǎo)致網(wǎng)上信息爆炸性增長。目前存在數(shù)量眾多的搜索引擎，根據(jù)它們所基于的技術(shù)原理，可以把它們分成三大主要類型:基于機(jī)器人Robot的搜索引擎、目錄式Directory（也叫做Catalog）搜索引擎和Meta元搜索引擎。

　　基于機(jī)器人Robot的搜索引擎　這種搜索引擎的特點(diǎn)是利用一個稱為Robot（也叫做Spider、Web Crawler或Web Wanderer）的程序以某種策略自動地在互聯(lián)網(wǎng)中收集和發(fā)現(xiàn)信息，由索引器為收集到的信息建立索引，由檢索器根據(jù)用戶的查詢輸入檢索索引庫，并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。

　　基于Robot的搜索引擎一般要定期訪問大多數(shù)以前收集的網(wǎng)頁，刷新索引，以反映出網(wǎng)頁的更新情況，去除一些死鏈接，網(wǎng)頁的部分內(nèi)容和變化情況將會反映到用戶查詢的結(jié)果中，這是基于Robot的搜索引擎的一個重要特征。

　　該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時、毋需人工干預(yù)。缺點(diǎn)是返回信息過多，有很多無關(guān)信息，用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是：AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google；國內(nèi)代表為：百度、悠游、OpenFind等。

　　目錄式Directory搜索引擎　這種搜索引擎以人工方式或半自動方式收集信息。目錄式搜索引擎的數(shù)據(jù)庫是依靠專職編輯或志愿人員建立起來的，這些編輯人員在訪問了某個Web站點(diǎn)后撰寫一段對該站點(diǎn)的描述，并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個預(yù)先分好的類別，把站點(diǎn)的URL和描述放在這個類別中。信息大多面向網(wǎng)站，提供目錄瀏覽服務(wù)和直接檢索服務(wù)。很多目錄也接受用戶提交的網(wǎng)站和描述，當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后，就會將之添加到合適的類別中。

　　目錄的用戶界面基本上都是分級結(jié)構(gòu)，首頁提供了最基本的幾個大類的入口，用戶可以一級一級地向下訪問，直至找到自己感興趣的類別。另外，用戶也可以利用目錄提供的搜索功能直接查找一個關(guān)鍵詞，該類搜索引擎因為加入了人的智能，因此用戶從目錄搜索得到的結(jié)果往往比從基于Robot的搜索引擎得到的結(jié)果更具參考價值，缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時。這類搜索引擎的代表是：Yahoo、AOL、Lycos、Open Directory等。

　　Meta元搜索引擎　元搜索引擎（Metasearch Engine），被稱為搜索引擎之上的搜索引擎。用戶只需遞交一次檢索請求，由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個預(yù)先選定的獨(dú)立搜索引擎，并將所有查詢結(jié)果集中起來以整體統(tǒng)一的格式呈現(xiàn)到用戶面前。由于采用了一系列的優(yōu)化運(yùn)行機(jī)制，它能夠在盡可能短的時間內(nèi)提供相對全面、準(zhǔn)確的信息，而且即使不能完全滿足用戶需求，仍可以作為相對可靠的參考源進(jìn)行擴(kuò)展搜索，因此成為備受推崇的檢索首選入口。

　　一個真正的元搜索引擎由三部分組成，即：檢索請求提交機(jī)制、檢索接口代理機(jī)制、檢索結(jié)果顯示機(jī)制?！罢埱筇峤弧必?fù)責(zé)實現(xiàn)用戶“個性化”的檢索設(shè)置要求，包括調(diào)用哪些搜索引擎、檢索時間限制、結(jié)果數(shù)量限制等?！敖涌诖怼必?fù)責(zé)將用戶的檢索請求“翻譯”成滿足不同搜索引擎“本地化”要求的格式?！敖Y(jié)果顯示”負(fù)責(zé)所有源搜索引擎檢索結(jié)果的去重、合并、輸出處理等。這類搜索引擎的代表是：ByteSearch、Mamma、MetaCrawler、Profusion等。

　　2．傳統(tǒng)搜索技術(shù)的局限

　　信息丟失　一般來說，目錄式的搜索引擎由于目錄只在對站點(diǎn)的描述中進(jìn)行搜索，因此站點(diǎn)本身的動態(tài)變化不會反映到搜索結(jié)果中來，對網(wǎng)站的描述也十分簡略，其描述能力不能深入網(wǎng)站的內(nèi)部細(xì)節(jié)，因此用戶不能查詢網(wǎng)站內(nèi)部的重要信息，造成了信息丟失。

　　返回信息太多　基于機(jī)器人的搜索引擎由于應(yīng)用了全文檢索技術(shù)，能夠解決對網(wǎng)頁細(xì)節(jié)的檢索問題。從理論上說，只要網(wǎng)頁上出現(xiàn)了某個關(guān)鍵詞，就能夠使用全文檢索用關(guān)鍵詞匹配把該網(wǎng)頁查出來，但是這又導(dǎo)致了它的缺陷——返回的信息太多。

　　信息無關(guān)　返回信息過多只是全文檢索給人直觀感覺到的問題。除此之外，它還有兩個不很直觀的深層次問題也給信息檢索帶來了不少困難。

　　很多情況下，用戶很難簡單地用關(guān)鍵詞或關(guān)鍵詞串來忠實地表達(dá)他所真正需要檢索的內(nèi)容，表達(dá)困難導(dǎo)致檢索困難。

　　人類的自然語言中，隨著時間、地域或領(lǐng)域的改變，同一概念可以用不同的語言表現(xiàn)形式來表達(dá)。因此，對同一概念的檢索，不同的用戶可能使用不同的關(guān)鍵詞來查詢。

　　這個兩個問題造成的直接結(jié)果就是返回大量的無關(guān)信息。比如，“計算機(jī)”和“電腦”是同一類產(chǎn)品，但是搜索結(jié)果往往大不相同。

　　造成上述信息檢索困難的原因的實質(zhì)在于傳統(tǒng)的搜索引擎對要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來實現(xiàn)，缺乏知識處理能力和理解能力，也就是說搜索引擎無法處理在用戶看來是非常普通的常識性知識，更不能處理隨用戶不同而變化的個性化知識、隨地域不同而變化的區(qū)域性知識以及隨領(lǐng)域不同而變化的專業(yè)性知識等等。

　　因此，結(jié)合人工智能技術(shù)的智能搜索引擎把信息檢索從目前基于關(guān)鍵詞層面提高到基于知識（或概念）層面，是解決問題的根本和關(guān)鍵。

　　智能搜索引擎

　　1．智能搜索引擎發(fā)展?fàn)顩r

　　智能搜索引擎是結(jié)合了人工智能技術(shù)的新一代搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識（或概念）層面，對知識有一定的理解與處理能力，能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識別以及機(jī)器翻譯技術(shù)等。智能搜索引擎具有信息服務(wù)的智能化、人性化特征，允許網(wǎng)民采用自然語言進(jìn)行信息的檢索，為他們提供更方便、更確切的搜索服務(wù)。這類搜索引擎的代表有：尤里卡、問一問、21ilink、孫悟空、悠游等；國外代表：Ask jeeves、Google等。

　　2. 智能搜索引擎的技術(shù)

　　各個智能搜索引擎技術(shù)的實現(xiàn)各不相同、各有特點(diǎn)，但從實現(xiàn)智能搜索基本思路上是相通的。下面以尤里卡搜索引擎為例，簡要說明一下技術(shù)實現(xiàn)。

　　知識庫和信息庫　知識庫是實現(xiàn)智能搜索的基礎(chǔ)和核心，知識庫就像人腦里存放的知識。人腦是人們認(rèn)知、理解世界和改造世界的基礎(chǔ)。人腦所做到的不僅僅是對信息的接受，而是對信息的判斷、提取、分析和概括之后形成自己的知識，然后保存到大腦中，成為下一次分析、概括的依據(jù)和基礎(chǔ)。這樣，人腦的知識就處在一種自增長的過程。人們掌握知識的多少，決定了人們認(rèn)知、理解和改造世界的程度。知識庫的形成與增長，就如同人腦知識的增長，也處于一種自增長自循環(huán)的狀態(tài)，知識庫的豐富程度也同樣決定著檢索能力的高低。

　　信息庫就是互聯(lián)網(wǎng)?；ヂ?lián)網(wǎng)是一個巨大的、非結(jié)構(gòu)化而且處于不停變化的信息空間。信息庫可以起到兩方面的作用。首先，信息庫是知識庫存在和發(fā)展的空間，知識庫所做的其實就是對信息庫的判斷、提取、分析和概括，所謂知識是從信息來，就是這個道理。其次，信息庫也是用戶所要檢索的內(nèi)容，智能搜索引擎所做的就是通過知識庫把用戶的問題提高到知識（概念）的層面，然后利用這個知識（概念）檢索信息庫。

　　語義分析、知識管理和檢索　要做到智能搜索還必須做到知識庫和信息庫的結(jié)合。要做到兩個核心庫的有機(jī)結(jié)合要做到以下三點(diǎn)：語義分析、知識管理和知識檢索。

　　語義分析是分析用戶語言的具體含義。它應(yīng)該實現(xiàn)以下幾個功能：整句分詞、處理同義詞、根據(jù)知識庫分析關(guān)鍵詞明確概念和語義及一定程度地豐富知識庫。

　　知識管理主要實現(xiàn)知識庫的自增長。前面提到，知識庫的增長基礎(chǔ)是對信息庫的概括和提取，所以知識管理首先要做到對信息庫的分析和概括，然后是對知識庫的擴(kuò)充。

　　知識檢索是實現(xiàn)智能搜索的最后一環(huán)，通過前面語義分析結(jié)果，明確用戶用意，對信息庫進(jìn)行知識（概念）層次的檢索，在給出準(zhǔn)確答案的同時，給出用戶相關(guān)問題，從多方位對用戶的問題進(jìn)行回答。

　　3．智能搜索引擎的優(yōu)點(diǎn)

　　搜索結(jié)果的準(zhǔn)確性　由于采取了知識庫為基礎(chǔ)的語義分析，在進(jìn)行檢索過程中，采用的不是關(guān)鍵詞全文檢索，而是基于概念的檢索。比如說當(dāng)你輸入“北京天氣怎么樣？”，傳統(tǒng)搜索引擎返回的結(jié)果連小說都檢索出來，因為小說內(nèi)容包括“北京天氣怎么樣？”這句話。而智能搜索引擎，由于采取語義分析的方法，分析出北京天氣這個概念，直接給出北京的天氣情況預(yù)報。

　　搜索結(jié)果的范圍定位準(zhǔn)確　由于采用知識（概念）檢索技術(shù)，明確和縮小了搜索范圍，減少對無用信息范圍的檢索。比如上面的例子，智能搜索引擎只在天氣這個范圍進(jìn)行檢索，從而提高了檢索效率，減少了無用信息。智能搜索引擎是以搜索結(jié)果準(zhǔn)確、范圍小為特點(diǎn)的。

　　搜索結(jié)果的綜合性　由于采用了知識庫，搜索引擎將給用戶提供更全面、更綜合和更合理的知識框架。在這里，信息檢索只是信息服務(wù)的一部分。比如說當(dāng)你輸入“在北京怎么找工作？”，給出的答案不僅僅是給出“北京地區(qū)的招聘信息”，而且還給出“北京地區(qū)的人才政策”、“求職技巧”等信息。

　　搜索結(jié)果的智能性　所謂“智能來自知識”，有綜合知識庫作為背景，信息檢索和導(dǎo)航服務(wù)將更智能。知識庫中的知識有助于解決前面提到“表達(dá)差異”問題。例如，只要定義“計算機(jī)”、“電子計算機(jī)”、“電腦”是同義關(guān)系就可以消除用戶由于使用不同的詞表達(dá)同一概念而帶來的檢索困難。另一方面，知識庫對用戶的查詢進(jìn)行相關(guān)性聯(lián)想，提供引導(dǎo)用戶進(jìn)行下一步查詢的線索。這樣一步一步地在與用戶的交互過程中誘導(dǎo)用戶“表達(dá)”出他真正想找的東西，從而實現(xiàn)對查詢的智能導(dǎo)航。這種逐步求精的策略解決了信息檢索“忠實表達(dá)”的難題。

　　4．智能搜索引擎的發(fā)展與應(yīng)用

　　建立理論上完備的知識庫是不現(xiàn)實的。這是因為人的知識、特別是常識性知識具有“數(shù)量”上的浩瀚無際，在“質(zhì)量”上又有高度的不確定性和模糊性，要建立這樣一個知識網(wǎng)絡(luò)是極端困難的。

　　然而，這絲毫不會影響基于知識庫的智能搜索技術(shù)的可行性和可操作性。這是因為，理論上完備的知識庫雖然難以實現(xiàn)，但是我們可以通過降低求解目標(biāo)的方法，針對具體的搜索引擎需求，建立相應(yīng)的知識庫（或稱概念圖），這里的知識庫是對理論上完整知識庫的一種近似，一種局部實現(xiàn)。針對某一領(lǐng)域、甚至某一站點(diǎn)所有網(wǎng)頁所反映的知識來構(gòu)造一個局部的小知識庫是相對容易實現(xiàn)的。它的知識在數(shù)量和質(zhì)量上雖然不能與理想的知識庫相比，對具體搜索任務(wù)卻是實用的。更重要的是，知識庫里的知識可以在使用中不斷改進(jìn)，數(shù)量上不斷增加，質(zhì)量上不斷提高。這是一個對知識進(jìn)行訓(xùn)練的過程，可以通過人來完成，也可以使用機(jī)器學(xué)習(xí)等手段來實現(xiàn)。

(轉(zhuǎn)帖)搜索技術(shù)發(fā)展及未來趨勢
　　
陸元婕　飛俠

　　搜索技術(shù)仍不能滿足需求
　　Internet的迅速發(fā)展和廣泛應(yīng)用導(dǎo)致了網(wǎng)上信息爆炸性地增長。據(jù)權(quán)威機(jī)構(gòu)統(tǒng)計，網(wǎng)上約有數(shù)十億的網(wǎng)頁，甚至有些專家宣稱網(wǎng)頁總數(shù)已達(dá)5500億，這一數(shù)字仍然在不斷地快速增長。因此，如何在龐大的Internet上獲得有價值的信息已成為網(wǎng)民日益關(guān)注的問題。搜索技術(shù)的出現(xiàn)為網(wǎng)民從Internet上快速找到所需信息帶來了福音。搜索引擎是一種用于幫助Internet用戶查詢信息的搜索工具，它以一定的策略在Internet中搜集、發(fā)現(xiàn)信息，對信息進(jìn)行理解、提取、組織和處理，并為用戶提供檢索服務(wù)，從而起到信息導(dǎo)航的目的。
　　1993年，Internet上出現(xiàn)了最早的Web瀏覽器Mosaic，次年Netscape推出了Navigator。瀏覽器的發(fā)展促使Web得到迅速推廣，同時也推動了搜索引擎的發(fā)展。
　　早期的搜索引擎是把Internet中資源服務(wù)器的地址收集起來，由其提供資源的類型不同而分成不同的目錄，再一層層地進(jìn)行分類。人們要找自己想要的信息可按它們的分類一層層進(jìn)入，就能最后到達(dá)目的地，找到自己想要的信息。這其實是最原始的方式，只適用于Internet信息并不多的時候。
　　隨著Internet信息按幾何式增長，出現(xiàn)了最早的真正意義上的搜索引擎——Lycos，它創(chuàng)建于1994年的春天，當(dāng)時Michael Mauldin將John Leavitt的Spider程序接入到其索引程序中。隨著Yahoo!的出現(xiàn)，搜索引擎的發(fā)展也進(jìn)入了黃金時代，其性能也更加優(yōu)越。
　　搜索服務(wù)提供者在研發(fā)搜索技術(shù)方面已經(jīng)花費(fèi)了大量的時間和精力，但是網(wǎng)民對于現(xiàn)有的搜索技術(shù)是否滿意呢？
　　2001年，Roper Starch的調(diào)查指出，36%的Internet用戶一個星期花了超過2個小時時間在網(wǎng)上搜索；71%的用戶在使用搜索引擎的時候遇到過麻煩；平均搜索12分鐘以后發(fā)現(xiàn)搜索受挫；搜索受挫中46%都是因為鏈接錯誤；絕大部分(86%)的Internet用戶感到應(yīng)當(dāng)出現(xiàn)更有效的、準(zhǔn)確的信息搜索技術(shù)。
　　另一項由Keen所做的調(diào)查顯示，人們平均每天有四個問題需要從外界獲取答案；其中31%的人使用搜索引擎尋找答案；平均每周花費(fèi)8.75個小時找尋答案；53.3%的時間花在從旁人那里獲得答案，29%的時間花在親戚朋友身上，24.3%的時間花在銷售商那里；網(wǎng)上查找答案的，半數(shù)以上都不成功；他們每周將花費(fèi)14.5美元以上，以獲取正確的信息。
　　從這些調(diào)查數(shù)據(jù)中不難看出，目前的搜索引擎仍然存在不少的局限性。傳統(tǒng)的搜索引擎技術(shù)有哪些局限性呢？主要有信息丟失、返回過多無用信息及信息無關(guān)等幾方面的局限性。造成上述信息檢索困難的原因的實質(zhì)在于傳統(tǒng)的搜索引擎對要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來實現(xiàn)，缺乏知識處理能力和理解能力，也就是說搜索引擎無法處理在用戶看來是非常普通的常識性知識，更不能處理隨用戶不同而變化的個性化知識、隨地域不同而變化的區(qū)域性知識以及隨領(lǐng)域不同而變化的專業(yè)性知識等等。
　　這使得網(wǎng)民仍然在期盼更完美的搜索技術(shù)的出現(xiàn)。網(wǎng)民需要搜索服務(wù)提供者研制更完美的搜索技術(shù)來滿足更快、更準(zhǔn)、更方便的查詢需要。是的，這些正是搜索技術(shù)發(fā)展的最終目標(biāo)：跟上Internet的發(fā)展速度，為網(wǎng)民提供更準(zhǔn)確的查詢結(jié)果。下面將就目前幾大新興技術(shù)在搜索技術(shù)中的應(yīng)用做展望，以設(shè)想更具完美的搜索技術(shù)的未來。
　　自然語言理解技術(shù)
　　隨著社會的日益信息化，人們越來越強(qiáng)烈地希望用自然語言同計算機(jī)交流。自然語言理解是計算機(jī)科學(xué)中一個引人入勝、富有挑戰(zhàn)性的課題。從計算機(jī)科學(xué)，特別是從人工智能的觀點(diǎn)看，自然語言理解的任務(wù)是建立一種計算機(jī)模型，這種計算機(jī)模型能夠給出像人那樣理解、分析并回答自然語言(即人們?nèi)粘Ｊ褂玫母鞣N通俗語言)的結(jié)果。
　　現(xiàn)在計算機(jī)的智能還遠(yuǎn)遠(yuǎn)沒有達(dá)到能夠像人一樣理解自然語言的水平，而且在可預(yù)見的將來也難以達(dá)到這樣的水平。因此，關(guān)于計算機(jī)對自然語言的理解一般是從實用的角度進(jìn)行評判的。如果計算機(jī)實現(xiàn)了人機(jī)會話、機(jī)器翻譯或自動文摘等語言信息處理功能，則認(rèn)為計算機(jī)具備了自然語言的理解能力。
　　以自然語言理解技術(shù)為基礎(chǔ)的新一代搜索引擎，我們稱之為智能搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識（或概念）層面，對知識有一定的理解與處理能力，能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識別以及機(jī)器翻譯技術(shù)等。因而這種搜索引擎具有信息服務(wù)的智能化、人性化特征，允許網(wǎng)民采用自然語言進(jìn)行信息的檢索，為他們提供更方便、更確切的搜索服務(wù)。
　　與傳統(tǒng)的目錄查詢、關(guān)鍵詞查詢模式相比，自然語言查詢的優(yōu)勢體現(xiàn)在:一是使網(wǎng)絡(luò)交流更加人性化；二是使信息查詢變得更加方便、快速和準(zhǔn)確?，F(xiàn)在，已經(jīng)有越來越多的搜索引擎宣布支持自然語言搜索特性，但是要建立真正的基于自然語言理解的智能查詢系統(tǒng)，還存在很多的技術(shù)難點(diǎn)。如：如何理解自然語言及所代表的實際含義；如何根據(jù)問題找出用戶實際想要的答案；如何建立大規(guī)模知識庫等。
　　目前，智能搜索引擎的研發(fā)主要有兩大方向，其一是基于機(jī)器翻譯技術(shù)，比如Google;其二是基于語義理解技術(shù)，國內(nèi)有尤里卡、問一問，國外的主要代表是Ask Jeeves。
　　機(jī)器翻譯(Machine Translation，MT)又稱機(jī)譯，它是利用計算機(jī)把一種自然語言轉(zhuǎn)變成另一種自然語言的過程。智能搜索引擎在這一領(lǐng)域的研究將使得用戶可以使用母語搜索非母語的網(wǎng)頁，并以母語瀏覽搜索結(jié)果。
　　語義理解通過將語言學(xué)的研究成果和搜索引擎技術(shù)結(jié)合在一起，實現(xiàn)了搜索引擎對搜索詞在語義層次上的理解，為用戶提供最確切的搜索服務(wù)。
　　P2P對等網(wǎng)絡(luò)
　　引發(fā)P2P革命的當(dāng)推美國的Napster，2000年7月份的一場官司將Napster的聲望推到頂點(diǎn)，用戶數(shù)也在短短一年內(nèi)激增至4000萬，成為Internet史上一大奇跡。P2P是Peer-to-Peer的縮寫，意為對等網(wǎng)絡(luò)。其在加強(qiáng)網(wǎng)絡(luò)上人的交流、文件交換、分布計算等方面大有前途。P2P被認(rèn)為是Internet實現(xiàn)下一次飛躍的關(guān)鍵，但它將如何浮出水面仍然是個謎。長久以來，人們習(xí)慣的Internet是以服務(wù)器為中心，人們向服務(wù)器發(fā)送請求，然后瀏覽服務(wù)器回應(yīng)的信息。
　　P2P所包含的技術(shù)就是使聯(lián)網(wǎng)電腦能夠進(jìn)行數(shù)據(jù)交換，但數(shù)據(jù)是存儲在每臺電腦里，而不是存儲在既昂貴又容易受到攻擊的服務(wù)器里。網(wǎng)絡(luò)成員可以在網(wǎng)絡(luò)數(shù)據(jù)庫里自由搜索、更新、回答和傳送數(shù)據(jù)。所有人都共享了他們認(rèn)為最有價值的東西，這將使Internet上信息的價值得到極大的提升。
　　P2P引導(dǎo)網(wǎng)絡(luò)計算模式從集中式向分布式轉(zhuǎn)移，也就是說網(wǎng)絡(luò)應(yīng)用的核心從中央服務(wù)器向網(wǎng)絡(luò)邊緣的終端設(shè)備擴(kuò)散：服務(wù)器到服務(wù)器、服務(wù)器到PC機(jī)、PC機(jī)到PC機(jī)、PC機(jī)到WAP手機(jī)……所有網(wǎng)絡(luò)節(jié)點(diǎn)上的設(shè)備都可以建立P2P對話。
　　P2P給Internet的分布、共享精神帶來了無限的遐想，有觀點(diǎn)認(rèn)為至少有100種應(yīng)用能被開發(fā)出來，但從目前的應(yīng)用來看，P2P的威力還主要體現(xiàn)在大范圍的共享、搜索的優(yōu)勢上。P2P技術(shù)的一個優(yōu)勢是開發(fā)出強(qiáng)大的搜索工具。P2P技術(shù)使用戶能夠深度搜索文檔，而且這種搜索無需通過Web服務(wù)器，也可以不受信息文檔格式和宿主設(shè)備的限制，可達(dá)到傳統(tǒng)目錄式搜索引擎（只能搜索到20％～30％的網(wǎng)絡(luò)資源）無可比擬的深度（理論上將包括網(wǎng)絡(luò)上所有開放的信息資源）。以P2P技術(shù)發(fā)展先鋒Gnutella進(jìn)行的搜索為例：一臺PC上的Gnutella軟件可將用戶的搜索請求同時發(fā)給網(wǎng)絡(luò)上另外10臺PC，如果搜索請求未得到滿足，這10臺PC中的每一臺都會把該搜索請求轉(zhuǎn)發(fā)給另外10臺PC，這樣，搜索范圍將在幾秒鐘內(nèi)以幾何級數(shù)增長，幾分鐘內(nèi)就可搜遍幾百萬臺PC上的信息資源。
　　基于P2P對等搜索理念的搜索技術(shù)會為Internet的信息搜索提供全新的解決之道。它使人們在Internet上的共享行為被提到一個更高的層次，使人們以更主動深刻的方式參與到網(wǎng)絡(luò)中去。
　　XML可擴(kuò)展標(biāo)記語言
　　XML將使Web的搜索非常方便。XML可擴(kuò)展標(biāo)記語言是Web數(shù)據(jù)使用的通用語言,具有結(jié)構(gòu)化、規(guī)范性、可擴(kuò)展性及簡潔的特點(diǎn)。XML 能讓開發(fā)人員將來自各種應(yīng)用程序的結(jié)構(gòu)化數(shù)據(jù)傳送給桌面以在本地計算和表示。XML 允許為特定應(yīng)用程序創(chuàng)建獨(dú)特的數(shù)據(jù)格式，它還是結(jié)構(gòu)化數(shù)據(jù)從服務(wù)器到服務(wù)器傳輸?shù)睦硐敫袷?。XML是在超級分布式系統(tǒng)之間實現(xiàn)多數(shù)據(jù)集傳輸?shù)囊环N手段。它同時可以使開發(fā)人員以更具價值的新型方式聚集和組合各種來源的數(shù)據(jù)。XML將成為Internet上最重要的基礎(chǔ)性語言。
　　XML通過DTD定義了文檔的詞法、語法和部分語義，XML規(guī)定了文檔的表現(xiàn)形式，而XLink和XPointer定義了文檔之間的關(guān)系，從而為基于Web的各種應(yīng)用提供了一個描述數(shù)據(jù)和交換數(shù)據(jù)的有效手段。如果說，HTML提供了顯示全球數(shù)據(jù)的通用方法，那么XML進(jìn)一步提供了處理全球數(shù)據(jù)的通用方法。XML繼承了SGML的強(qiáng)大功能，又充分采取了HTML的“易用”原則。它實現(xiàn)了國際性的媒體無關(guān)的電子出版，使工業(yè)界能夠定義平臺無關(guān)的數(shù)據(jù)交換協(xié)議，特別是電子商務(wù)中的數(shù)據(jù)交換協(xié)議。資源標(biāo)注、編目和描述是信息查找的基礎(chǔ)，結(jié)構(gòu)化的資源（XML）和資源的描述框架（RDF）互相配合，將大大提高信息查找效率。XML簡化元數(shù)據(jù)的提取工作，從而協(xié)助人們尋找信息，并協(xié)助信息生產(chǎn)者和信息消費(fèi)者的相互發(fā)現(xiàn)。如果說在網(wǎng)絡(luò)的支持下，HTML語言解決了在異構(gòu)平臺間傳送數(shù)據(jù)和文檔，那么，基于XML的VRML和SMIL解決了在異構(gòu)平臺間傳送感受的可能性問題。使用XML，人們可以利用設(shè)備的智能去訪問不同的網(wǎng)站，并對信息進(jìn)行集中。XML使我們邁向?qū)⒖刂菩畔⒌臋?quán)利交給那些需要信息的人們。由于所有文件都以XML格式存在，所有的用戶都可以方便地查找和使用其中的信息，任何規(guī)模的文化機(jī)構(gòu)都可以使用相同的工具與資源。內(nèi)容供應(yīng)者、合作伙伴和信息內(nèi)容消費(fèi)者可以高效地溝通和共享信息，這樣就創(chuàng)造出了一種全新的協(xié)同工作模式。
　　由于給網(wǎng)民提供更完美的搜索結(jié)果不僅僅需要新興的技術(shù)支持，更涉及搜索技術(shù)的發(fā)展方向問題。下面筆者就搜索引擎的發(fā)展趨勢談幾點(diǎn)個人見解。
　　更方便易用的搜索
　　搜索過程的方便易用，需要搜索服務(wù)提供更好的人機(jī)交互界面技術(shù)和關(guān)聯(lián)式的綜合搜索結(jié)果。
　　1．人機(jī)交互界面技術(shù)
　　人機(jī)界面技術(shù)的不同往往使得搜索引擎表現(xiàn)出不同的特色。當(dāng)前搜索引擎涉及的人機(jī)界面技術(shù)主要有四類：搜索請求提交技術(shù)、搜索結(jié)果表現(xiàn)技術(shù)、搜索向?qū)Ъ夹g(shù)、搜索行為分析技術(shù)。
　　搜索請求提交技術(shù)中有幾個很有用的技術(shù)，包括多語言查詢技術(shù)、編碼轉(zhuǎn)換技術(shù)、模糊語義查詢、精確語義查詢以及采用自然語言的搜索請求提交界面。
　　搜索結(jié)果表現(xiàn)技術(shù)包括搜索結(jié)果的準(zhǔn)確度及相關(guān)度、搜索結(jié)果的母語評價等。
　　搜索向?qū)Ъ夹g(shù)則純粹是網(wǎng)站設(shè)計上的界面技術(shù)。它通過具有親和力、易用的界面，即時的幫助來方便網(wǎng)民的搜索。
　　搜索行為分析技術(shù)的核心是跟蹤、分析用戶的搜索行為，充分利用這些信息來提高用戶的搜索效率。搜索行為分析技術(shù)提高搜索效率的途徑主要有兩種:群體行為分析和個性化搜索。
　　2．關(guān)聯(lián)式的綜合搜索
　　以往的搜索經(jīng)驗大都是在甲網(wǎng)站找圖片，到乙網(wǎng)站找新聞，到丙網(wǎng)站找股票資訊。這種方式十分麻煩而浪費(fèi)時間。那為何不考慮將這些圖片、新聞、股票等等各種有關(guān)聯(lián)的信息整合在同一界面，讓網(wǎng)民一次查詢，全部滿足呢？所謂關(guān)聯(lián)式綜合搜索就是這樣一種一站式的搜索服務(wù)，它使得網(wǎng)民在搜索時只需輸入一次查詢目標(biāo)，即可在同一界面得到各種有關(guān)聯(lián)的查詢結(jié)果。這項服務(wù)的關(guān)鍵在于有一架構(gòu)建在XML基礎(chǔ)上的整合資訊平臺。
　　更精確的搜索
　　搜索引擎技術(shù)本身一個最重要的發(fā)展方向是提供更精確的搜索。要想大幅度地提高搜索引擎的效率和搜索結(jié)果準(zhǔn)確度，應(yīng)考慮這樣幾個方向：智能化搜索、個性化搜索、結(jié)構(gòu)化搜索、垂直化搜索、本土化搜索等。
　　1．智能化搜索
　　準(zhǔn)確的搜索應(yīng)建立在對收集信息和搜索請求的理解之上，也就是說，必須處理語義信息。顯然，基于自然語言理解技術(shù)的搜索引擎，由于可以同用戶使用自然語言交談，并深刻理解用戶的搜索請求，因此查詢的結(jié)果也更加準(zhǔn)確。
　　2．個性化搜索
　　提高搜索精確度的另一個途徑是提供個性化的搜索，也就是將搜索建立在個性化的搜索環(huán)境之下，通過對用戶的不斷了解、分析，使得個性化搜索更符合每個用戶的需求，而不僅僅是準(zhǔn)確。
　　3．結(jié)構(gòu)化搜索
　　所謂結(jié)構(gòu)化搜索，是指充分利用XML等技術(shù)使信息結(jié)構(gòu)化，同時使查詢結(jié)構(gòu)化，從而使搜索的準(zhǔn)確度大大提高。
　　4．垂直化專業(yè)領(lǐng)域搜索
　　由于社會分工的加大，網(wǎng)民從事的職業(yè)有很大不同，不同網(wǎng)民對信息搜索也往往有自己的專業(yè)要求。比如信息技術(shù)類從業(yè)人員最希望有面向信息技術(shù)的專業(yè)搜索引擎，金融證券從業(yè)人員則希望使用金融證券類的搜索引擎。從調(diào)查結(jié)果看：一半網(wǎng)民認(rèn)為目前搜索引擎死鏈接太多，四成以上的網(wǎng)民認(rèn)為目前的搜索結(jié)果中不相關(guān)信息太多，而專業(yè)垂直引擎可解決以上問題，它只針對某領(lǐng)域，可保證此領(lǐng)域信息的收錄齊全與更新非常及時。另外，六成左右的網(wǎng)民認(rèn)為面向某領(lǐng)域的搜索引擎非?；虮容^重要。
　　垂直類搜索引擎面向某一特定專業(yè)領(lǐng)域，專注于自己的特長和核心技術(shù)，保證了對該領(lǐng)域信息的完全收錄與及時更新。因此，基于專業(yè)領(lǐng)域的“垂直搜索引擎”開始成為搜索引擎發(fā)展的一個新趨勢。
　　專業(yè)化的搜索引擎在提供專業(yè)信息方面有著大型綜合引擎無法比擬的優(yōu)勢。專業(yè)搜索引擎和專門信息搜索引擎所采用的基本技術(shù)同綜合引擎一樣，而且基本上都是成熟的技術(shù)（某些專門信息搜索引擎可能還需要一些特殊技術(shù)），它們的發(fā)展沒有技術(shù)障礙，同時正符合了Internet發(fā)展的一個趨勢：Internet將更專業(yè)化、分工更細(xì)。
　　5．本土化的搜索
　　世界上許多著名的搜索引擎都在美國，他們以英語為基礎(chǔ)，完全按他們的思維方式和觀點(diǎn)搜集和檢索資料，這對于全球不同國家的用戶來說顯然是不適合的。各國的文化傳統(tǒng)、思維方式和生活習(xí)慣不同，在對網(wǎng)站內(nèi)容的搜索要求上也就存在差異。搜索結(jié)果要符合當(dāng)?shù)赜脩舻囊?，搜索引擎就必須本土化?
以上我們大致了解了一些新興技術(shù)在搜索技術(shù)中的應(yīng)用以及搜索引擎的發(fā)展趨勢。隨著搜索技術(shù)的不斷完善與發(fā)展，我們有理由相信將來的搜索引擎一定會朝向更方便易用的人機(jī)界面，更準(zhǔn)確的搜索結(jié)果方向發(fā)展。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：鴕鳥 > 《智能搜索》

舉報/認(rèn)領(lǐng)