互聯(lián)網(wǎng)在全球范圍內(nèi)的迅速發(fā)展與成熟,促使社會(huì)各領(lǐng)域信息飛速膨脹,為人們查找、獲取 11 12 13 14 15 16 17 18 19 20 33 36 有用信息提供了豐富的信息源,但也給信息的準(zhǔn)確定位提出了挑戰(zhàn)。提供網(wǎng)上資源的檢索是 網(wǎng)絡(luò)信息服務(wù)的重要內(nèi)容之一,加之現(xiàn)代人也對信息把握的正確性和全面性提出了越來越高 的要求,因此,當(dāng)務(wù)之急是開發(fā)性能優(yōu)越的網(wǎng)絡(luò)信息檢索工具。 1993年,第一批搜索引擎誕生后,發(fā)展至今已經(jīng)逐漸走向成熟,伴隨著計(jì)算機(jī)智能化研究的 不斷發(fā)展,具有適應(yīng)性和學(xué)習(xí)性特征的智能代理技術(shù)也正從試驗(yàn)階段過渡到實(shí)際應(yīng)用。目前 ,搜索引擎(search engine)與智能代理(intelligent agent)已經(jīng)成為網(wǎng)絡(luò)信息搜索的關(guān)鍵 技術(shù)與核心思想。 1 搜索引擎技術(shù)的發(fā)展現(xiàn)狀 1.1 搜索引擎技術(shù) 目前,網(wǎng)絡(luò)信息檢索技術(shù)最主要的是搜索引擎技術(shù),搜索引擎實(shí)際上是一個(gè)專用的WWW服務(wù) 器,也可以說是因特網(wǎng)上的一類網(wǎng)站,這類網(wǎng)站與一般的網(wǎng)站不同,其主要工作是收集網(wǎng)絡(luò) 上成千上萬的網(wǎng)站和網(wǎng)頁信息,組成龐大的索引數(shù)據(jù)庫。使用優(yōu)秀的搜索引擎可以達(dá)到事半 功倍的效果。目前網(wǎng)絡(luò)上大約有3000多種搜索引擎,我們較為熟悉的提供中文搜索引擎的站 點(diǎn)有sina、sohu、 Yahoo、netease和中文Excite等。 一般來說,搜索引擎主要采取兩種方式實(shí)現(xiàn)對網(wǎng)絡(luò)信息資源的檢索,一是采用分類主題目錄 形式,將網(wǎng)站進(jìn)行樹狀的分類,所鏈接的網(wǎng)站必須至少歸屬于其中一個(gè)類別,形成類似圖書 館目錄一樣的分類主題目錄,用戶通過逐級(jí)瀏覽這些目錄來找尋自己需要的內(nèi)容,采用這種 檢索方式的搜索引擎有Yahoo、sohu等,由于使用了專家進(jìn)行歸納和分類,為信息導(dǎo)航帶來 了極大的方便,但這種方式在分類和目錄整理中需要大量的人力;二是使用關(guān)鍵詞匹配方式 ,其處理對象主要是文本,它能夠?qū)Υ罅课臋n建立由字(詞)到文檔的索引庫,在此基礎(chǔ)上, 用戶使用關(guān)鍵詞對網(wǎng)頁進(jìn)行搜索時(shí),系統(tǒng)將會(huì)顯示含有該檢索用詞的所有網(wǎng)站、網(wǎng)頁和新聞 等匹配信息。關(guān)鍵詞檢索能解決對網(wǎng)頁細(xì)節(jié)的檢索問題,只要用戶輸入關(guān)鍵詞,系統(tǒng)通過蜘 蛛機(jī)器人自動(dòng)在選定的范圍內(nèi)進(jìn)行檢索,并將所檢索到的信息自動(dòng)標(biāo)引導(dǎo)入索引數(shù)據(jù)庫中, 匹配所檢范圍中的網(wǎng)頁,就能得到檢索結(jié)果。 1.2 搜索引擎使用的信息檢索技術(shù)及其不足 目前搜索引擎使用的信息檢索技術(shù)主要有:Robot技術(shù)、索引技術(shù)、翻譯技術(shù)、轉(zhuǎn)換技術(shù)、過濾技術(shù)、數(shù)據(jù)庫技術(shù)、結(jié)果處理技術(shù)等。搜索引擎的最大優(yōu)點(diǎn)是:信息的覆蓋面較大,信息 新穎,而且對搜索結(jié)果的相關(guān)性排列上,搜索引擎將其認(rèn)為相關(guān)性高的檢索結(jié)果排列在前。 但由于搜索引擎使用的信息檢索技術(shù)智能水平的限制,以及對自然語言理解的制約,對網(wǎng)絡(luò) 信息的檢索存在許多不足之處。主要有如下幾方面。 (1)現(xiàn)在的搜索引擎主要通過Robot將網(wǎng)頁的全部或部分內(nèi)容下載到自建索引庫中,由于下載的頁面許多是無用或暫時(shí)信息,既影響檢索速度,也增加了用戶檢索負(fù)擔(dān)。 (2)由于搜索引擎一般都采用關(guān)鍵詞檢索方式,但許多情況下,用戶很難簡單地用關(guān)鍵詞或 關(guān)鍵詞之間的組配來準(zhǔn)確地表達(dá)真正需要的信息內(nèi)容,表達(dá)困難導(dǎo)致檢索困難。 (3)每個(gè)引擎的覆蓋面都相當(dāng)有限。經(jīng)考察研究發(fā)現(xiàn),沒有一個(gè)搜索引擎的索引量超過整個(gè) 網(wǎng)頁的1/6。 (4)搜索的結(jié)果不精確。搜索結(jié)果的精確性是由查詢詞與網(wǎng)頁的相關(guān)性來確定的,常常輸入 一個(gè)單一的查詢詞能返回?cái)?shù)萬篇結(jié)果,或者零篇結(jié)果。 2 智能代理技術(shù) 2.1 智能代理 智能代理又稱智能體,是人工智能研究的新成果,它是在用戶沒有明確具體要求的情況下,根據(jù)用戶需要,代替用戶進(jìn)行各種復(fù)雜的工作,如信息查詢、篩選及管理,并能推測用戶的意圖,自主制定、調(diào)整和執(zhí)行工作計(jì)劃。具有智能性,是可進(jìn)行高級(jí)、復(fù)雜的自動(dòng)處理的代理軟件。智能代理可應(yīng)用于廣泛的領(lǐng)域,是人工智能領(lǐng)域近年來研究的一個(gè)熱點(diǎn),應(yīng)用于信息檢索領(lǐng)域之后,成為開發(fā)智能化、個(gè)性化信息檢索的重要技術(shù)之一。 2.2 智能代理的特點(diǎn) ①智能性。具有豐富的知識(shí)和一定的推理能力,能揣測用戶的意圖,并能處理復(fù)雜的難度高的任務(wù),對用戶的需求能分析地接收,自動(dòng)拒絕一些不合理或可能給用戶帶來危害的要求,而且具有從經(jīng)驗(yàn)中不斷學(xué)習(xí)的能力,適當(dāng)?shù)剡M(jìn)行自我調(diào)節(jié),提高處理問題能力。 ②代理性。在功能上是用戶的某種代理,它可以代替用戶完成一些任務(wù),并將結(jié)果主動(dòng)反饋給用戶。 ③移動(dòng)性??梢栽诰W(wǎng)絡(luò)上漫游到任何目標(biāo)主機(jī),并在目標(biāo)主機(jī)上進(jìn)行信息處理操作,最后將結(jié)果集中返回到起點(diǎn),而且能隨計(jì)算機(jī)用戶的移動(dòng)而移動(dòng)。 ④主動(dòng)性。能根據(jù)用戶的需求和環(huán)境的變化,主動(dòng)向用戶報(bào)告并提供服務(wù)。 ⑤協(xié)作性。能通過各種通信協(xié)議和其他智能體進(jìn)行信息交流,并可以相互協(xié)調(diào)共同完成復(fù)雜的任務(wù)。 3 搜索引擎技術(shù)與智能代理技術(shù)的結(jié)合 搜索引擎與智能代理技術(shù)有著各自的優(yōu)勢與不足,把這兩種技術(shù)結(jié)合起來,將為開發(fā)新一代功能更強(qiáng)大的網(wǎng)上信息搜索系統(tǒng)提供廣闊的天地。智能代理主要集成客戶端特殊的環(huán)境,配合用戶興趣完成搜索。它對用戶信息需求、偏好進(jìn)行甄別、歸納、總結(jié),分析用戶的興趣愛好,并借助學(xué)習(xí)好的規(guī)則,自動(dòng)、獨(dú)立地代理用戶查找其感興趣的信息。將搜索引擎與智能代理技術(shù)結(jié)合起來是建立新的檢索模式的必然趨勢。 3.1 服務(wù)器端的個(gè)性化服務(wù)的引入 在服務(wù)器端吸收智能代理技術(shù)的思想,引入個(gè)性化和人性化服務(wù)的思想。引入用戶反饋機(jī)制來完善檢索機(jī)制、提高檢索命中率,同時(shí)也可以提供面向個(gè)人的特殊檢索服務(wù)。這種方式可以通過賬號(hào)制形式來實(shí)現(xiàn),即為每一位用戶提供一個(gè)賬號(hào)(類似于個(gè)人郵箱),以記錄該用戶查詢蹤跡,從而在用戶再次登錄時(shí)結(jié)合以往的用戶檢索記錄來配合提供相關(guān)的檢索服務(wù)。 這種模式體現(xiàn)了個(gè)性化服務(wù)的特色,對于用戶一貫查詢的信息就可以直接從用戶的信息庫中提取,避免了重復(fù)查詢。另外,通過對用戶的反饋意見進(jìn)行跟蹤,獲取用戶對結(jié)果的評(píng)價(jià),據(jù)此提高檢索質(zhì)量。檢索入口的自然語言化發(fā)展將有助于優(yōu)化檢索界面,提高界面的人性化。 3.2 客戶端智能代理技術(shù)的拓展 以智能搜索代理技術(shù)為主,結(jié)合搜索引擎“面向主題”的檢索模式,在密切關(guān)注個(gè)體需求、提高信息與用戶需求相關(guān)系統(tǒng),彼此間可以通過統(tǒng)一的傳輸協(xié)議進(jìn)行溝通,交換信息,從而使更多的信息得以挖掘,以彌補(bǔ)智能代理信息搜索范圍有限的缺陷。 這種模式充分利用了智能搜索代理的流動(dòng)性、交互性、智能性特點(diǎn),同時(shí)又吸取了搜索引擎的主題相關(guān)的思想,為高質(zhì)量的信息個(gè)性化檢索服務(wù)提供了新的模式。 搜索引擎技術(shù)與智能代理技術(shù)在網(wǎng)絡(luò)信息檢索上的結(jié)合發(fā)展?jié)摿κ蔷薮蟮?,要真正?shí)現(xiàn)兩者結(jié)合的各項(xiàng)優(yōu)勢,還有待在機(jī)器學(xué)習(xí)、相關(guān)度分析等方面進(jìn)行逐漸的研究和改進(jìn)。在知識(shí)經(jīng)濟(jì)時(shí)代,人們越來越需要個(gè)性化信息的提供,作為網(wǎng)絡(luò)信息檢索的前沿技術(shù),智能代理技術(shù)將受廣大用戶的青睞,相信它的發(fā)展前景是非常廣闊的。 (來稿時(shí)間:2002年3月) 參考文獻(xiàn): 1.張惠文.網(wǎng)絡(luò)信息檢索技術(shù)的智能化趨勢.情報(bào)理論與實(shí)踐,2001(1)(6)447-450 2.黃?NFEE2?.網(wǎng)絡(luò)搜索引擎與智能代理的對比研究.圖書情報(bào)工作,2001(10)53-57 3.馬靜.網(wǎng)上信息資源及其檢索技術(shù)智能化研究.圖書情報(bào)工作,2001(1)56-58 4.楊濤.中文智能搜索引擎淺析.圖書情報(bào)工作,2002(1)62-65 On the Network Search Engine and Intelligent Acting Technology Liu Yan (Fushun City Library) 〔Abstract〕 This paper discusses the principles of the netw ork search engine and intelligent acting technology and their important role. 〔作者簡介〕 劉艷,館員,畢業(yè)于北京大學(xué)信息管理系,現(xiàn)任撫順市圖書館副館長。 |
|