搜索引擎發(fā)展的隨想 --北京博越世紀科技有限公司項目總監(jiān) 朱紅軍
前段時間百度上市,使得本已硝煙四起的搜索引擎行業(yè)愈發(fā)的沸沸揚揚,一時間,幾乎所有的媒體、網(wǎng)絡都在關(guān)注著這一個IT行業(yè)的新熱點。閑來無事,也想把自己的一些感受記錄下來,湊湊熱鬧。 在我們許多人的印象里,似乎很多的新技術(shù)都來自一個地方——新的技術(shù)來自于哪里,去大學里看看,大學是新思想的一個主要來源。1990年由蒙特利爾的幾個學生發(fā)明的Archie僅僅是自動索引互聯(lián)網(wǎng)匿名FTP網(wǎng)站文件的程序,到麻省的3w wanderer,到斯坦福的excite概念搜索,到yahoo,到斯坦福的backRub項目蛻變的Google。無一不是著名高校的產(chǎn)物或者和學校的項目相關(guān)。(我國的高等教育成果有待加強啊!呃,扯遠了,呵呵) 實際上今天的搜索問題跟五年前已是大不相同?,F(xiàn)在網(wǎng)絡上不光有書籍、論文,還有數(shù)字化的電視節(jié)目,這就要求搜索技術(shù)比以前更加優(yōu)秀。人們希望找到可以信賴的信息,希望搜索工具可以對更加復雜的問題進行搜索。 搜索引擎要用到信息檢索、人工智能、計算機網(wǎng)絡、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和技術(shù),并且由于搜索引擎能擁有大量的用戶,在注意力引導上有著天生的優(yōu)勢,這位新生的帥哥必然受到眾多IT豪門的追捧。在我看來,搜索引擎的發(fā)展有以下幾個方面:
1.智能搜索和個性化服務 我所說的智能搜索并非指信息智能代理這個較大的范疇,而是搜索的核心技術(shù),目前在智能分析領(lǐng)域,語義分析過于復雜,一直沒有成熟的產(chǎn)品出現(xiàn),而基于神經(jīng)網(wǎng)絡的智能分析才剛剛起步,只有少數(shù)的國外先進搜索引擎技術(shù)提供商的模式匹配技術(shù)(以數(shù)學為基礎(chǔ)的統(tǒng)計量化)成功走出了實驗室并在全球成功商業(yè)化。他們中的部分技術(shù)不是真正的語義分析,但它使用的技術(shù)達到了語義理解的高度,也是目前智能分析領(lǐng)域的進步。而且只能搜索應該對多種格式存儲的信息進行檢索。
信息智能代理是一種綜合利用互聯(lián)網(wǎng)信息的機制。它使用自動獲得的領(lǐng)域模型(如web知識、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織結(jié)構(gòu))、用戶模型(如用戶背景、興趣、行為、風格)知識進行信息搜集、索引、過濾(包括興趣過濾和不良信息過濾),并自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理具有不斷學習、適應信息和用戶興趣動態(tài)變化的能力,從而提供個性化的服務。智能代理可以在用戶端進行,也可以在服務器端運行。
2.交叉語言檢索的研究和開發(fā)
交叉語言信息檢索是指我用漢語文字提交查詢,搜索引擎能在多種語言的數(shù)據(jù)庫中進行信息檢索,返回結(jié)果可以用母語顯示。但是因為語言的區(qū)域特性,在表達方式和語義對應上的不同語言的差別很大,因此技術(shù)實現(xiàn)有相當?shù)碾y度。但是對于網(wǎng)絡互聯(lián),數(shù)據(jù)共享的目的而言,這似乎又是大眾需要的一種目標。
3.提高信息查詢的精度,提高用戶輸入查詢條件的命中率
當我們在互聯(lián)網(wǎng)上進行搜索的時候,我們更關(guān)注的是問題的答案,而不是給我們一個浩浩蕩蕩的查詢結(jié)果列表,對于搜索引擎返回的大量繁雜的結(jié)果,用戶不得不在結(jié)果中進行人工的分選,實際上還是花費了許多的時間。我認為一方面,用戶本身需要提高搜索引擎使用的技巧,很多人不太關(guān)注這點,其實同樣一個問題,兩個人得到的搜索結(jié)果的質(zhì)量可能有非常大的差別。另一方面,搜索引擎技術(shù)提供商和服務商要注意改進用戶模型,追蹤用戶檢索行為,使用相關(guān)度反饋機制,逐步求精。或者采用正文分類技術(shù)將結(jié)果分類,用戶可以只瀏覽自己感興趣的類別。再則是進行站點類聚或內(nèi)容類聚,減少信息的總量。 4.從商業(yè)應用的模式上來看,可以做專注的技術(shù)提供商(比如杰出的autonomy),也可以做搜索的服務提供商;當前的搜索服務除了網(wǎng)站推介,門戶搜索之外,在行業(yè)領(lǐng)域內(nèi)的專業(yè)檢索,政府和企業(yè)行業(yè)的垂直檢索,政府和企業(yè)內(nèi)的知識庫檢索都會有比較旺盛的需求,尤其是搜索引擎在對于語義分析的智能分析技術(shù)提高后,和KM的融合會有非常現(xiàn)實的客戶效益,從而促進KM市場的發(fā)展。 歡迎訪問我的BLOG http://kjolen.blogchina.com/ |
|