日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

微軟對(duì)象級(jí)別的垂直搜索技術(shù):所搜即所得

 書(shū)袋熊 2009-02-25

    微軟對(duì)象級(jí)別的垂直搜索技術(shù):所搜即所得

          http://www.sina.com.cn 2007年05月21日 15:44  互聯(lián)網(wǎng)周刊

  通用搜索引擎在某些方面的表現(xiàn)越來(lái)越差強(qiáng)人意,一種全新的基于對(duì)象的垂直搜索技術(shù)更加一目了然。

  本刊記者 李洋

  小李要買(mǎi)一部智能手機(jī),想了解幾款產(chǎn)品的介紹、價(jià)位和評(píng)價(jià)等信息。但是當(dāng)他用通用搜索引擎查找信息時(shí),卻得到了五花八門(mén)的結(jié)果。令人頭疼的是,他必須挨個(gè)點(diǎn)進(jìn)鏈接,注冊(cè)一堆論壇賬號(hào),還要自己把各種看到的信息綜合起來(lái),才能獲得關(guān)于這部手機(jī)的完整資料。

  是的,通用搜索引擎在某些方面的表現(xiàn)越來(lái)越差強(qiáng)人意。那么,如何讓搜索結(jié)果變得更加一目了然?微軟亞洲研究院的聶再清和文繼榮研究員,向《互聯(lián)網(wǎng)周刊》介紹了一種由他們研究成功的“對(duì)象級(jí)別的垂直搜索技術(shù)”(Object-level Vertical Search)。

  一目了然的結(jié)果

  這個(gè)聽(tīng)起來(lái)有點(diǎn)學(xué)術(shù)化的技術(shù)其實(shí)并不難理解。當(dāng)你使用這種搜索引擎時(shí),它列出的結(jié)果將是最終對(duì)象的集合,而不是雜亂的網(wǎng)頁(yè)列表。一切的一切都圍繞著你所搜索的那個(gè)對(duì)象。

  比如,當(dāng)你搜索“多普達(dá)”時(shí),系統(tǒng)列出的不是包含此信息的各種頁(yè)面標(biāo)題、內(nèi)容檢索,而是一個(gè)個(gè)多普達(dá)手機(jī)—除型號(hào)、圖片等直觀信息外,每個(gè)產(chǎn)品下還列出介紹、價(jià)格、用戶評(píng)價(jià)等相關(guān)信息,就像我們?cè)谫?gòu)物網(wǎng)站中看到的陳列頁(yè)面一樣,但內(nèi)容要遠(yuǎn)比某個(gè)網(wǎng)站所陳列的豐富,因?yàn)槭莵?lái)自整個(gè)互聯(lián)網(wǎng)。搜索引擎所列出的對(duì)象內(nèi)容并不是通過(guò)人工來(lái)整理的,而是計(jì)算機(jī)通過(guò)自動(dòng)抓取、自動(dòng)分類而形成的“虛擬”頁(yè)面。

  這項(xiàng)技術(shù)目前已經(jīng)獲得初步應(yīng)用。在微軟亞洲研究院作為實(shí)驗(yàn)的學(xué)術(shù)搜索(libra./)中,當(dāng)你輸入“Data Mining”(數(shù)據(jù)挖掘)這一關(guān)鍵詞,便可獲得相關(guān)論文的排名列表。結(jié)果以論文為對(duì)象進(jìn)行排列,每篇論文下都可列出被引用次數(shù)和作者;點(diǎn)進(jìn)每篇論文的鏈接,可以看到該論文的介紹、可供瀏覽和下載的原始鏈接,以及相關(guān)的參考論文。

  與此同時(shí),在論文的結(jié)果列表左側(cè),還有相關(guān)作者、會(huì)議、期刊的排名。如果再按“作者”(Author)搜索,系統(tǒng)會(huì)自動(dòng)排列出“數(shù)據(jù)挖掘”領(lǐng)域內(nèi)最權(quán)威的科學(xué)家名單,與此類似的,你還可以進(jìn)行相關(guān)的會(huì)議、期刊和學(xué)術(shù)社區(qū)等方面的搜索。目前,微軟的該學(xué)術(shù)搜索還僅限于計(jì)算機(jī)領(lǐng)域。

  與基于文字的搜索結(jié)果相比,基于對(duì)象的搜索結(jié)果顯然更加一目了然,實(shí)現(xiàn)更加垂直而專業(yè)的搜索效果。目前,這項(xiàng)來(lái)自微軟亞洲研究院的技術(shù),正在應(yīng)用到Windows Live產(chǎn)品搜索引擎(Http://products.live.com)的測(cè)試版開(kāi)發(fā)中。以產(chǎn)品作為對(duì)象的搜索結(jié)果中,用戶還可以按照相關(guān)度、價(jià)格進(jìn)行排名,或按照一些熱點(diǎn)針對(duì)某家網(wǎng)站進(jìn)行搜索。

  據(jù)聶再清研究員介紹,經(jīng)過(guò)第一個(gè)月的試運(yùn)行,該系統(tǒng)已經(jīng)自動(dòng)地找到了10萬(wàn)家

        電子商務(wù)
網(wǎng)站和數(shù)千萬(wàn)個(gè)網(wǎng)頁(yè),并從這些網(wǎng)頁(yè)中抽取出了上億條商品對(duì)象信息—這一數(shù)字是任何一個(gè)商家平臺(tái)無(wú)法獨(dú)立實(shí)現(xiàn)的,在未來(lái)它有可能成為世界上最全的產(chǎn)品目錄庫(kù)。面向?qū)ο蟮乃阉饕鏌o(wú)疑充當(dāng)了跨越眾多購(gòu)物網(wǎng)站的基礎(chǔ)平臺(tái)。

  核心技術(shù)

  那么,這項(xiàng)技術(shù)是如何實(shí)現(xiàn)的?細(xì)心的讀者可能從前面的介紹中看出端倪,這是區(qū)別于傳統(tǒng)搜索引擎思路的一個(gè)新的體系結(jié)構(gòu)。

  首先,它要依靠網(wǎng)頁(yè)爬蟲(chóng)技術(shù),抓取某一個(gè)特定領(lǐng)域(比如一個(gè)照相機(jī)產(chǎn)品)中的所有相關(guān)網(wǎng)頁(yè)。在獲得這些頁(yè)面后,系統(tǒng)要對(duì)這些網(wǎng)頁(yè)中所包含的對(duì)象信息類型進(jìn)行分類,也就是說(shuō),它要分辨某個(gè)網(wǎng)頁(yè)究竟是一篇論文、一個(gè)博客頁(yè)面,還是一個(gè)商品信息頁(yè)面。

  在完成了這項(xiàng)工作后,系統(tǒng)就可以分門(mén)別類地將內(nèi)容集成到對(duì)象信息倉(cāng)庫(kù)中。而這項(xiàng)工作需要事前進(jìn)行大量的訓(xùn)練和模型組建。比如,在一個(gè)商品頁(yè)面的訓(xùn)練中,要告訴系統(tǒng)什么情況下是商品名稱、商品圖片、價(jià)格;通過(guò)此類學(xué)習(xí)之后,系統(tǒng)就可以自動(dòng)找到它所要的關(guān)鍵內(nèi)容。

  在這一領(lǐng)域的研究中,曾有人在HTML代碼上做過(guò)嘗試,卻都不太成功,因?yàn)榇a的編寫(xiě)總是千差萬(wàn)別的,但最后它們所實(shí)現(xiàn)的頁(yè)面顯示卻幾乎大同小異。在發(fā)現(xiàn)了這一點(diǎn)后,微軟亞洲研究院的研究員們?cè)谶@一過(guò)程中巧妙地結(jié)合了視覺(jué)分析技術(shù),設(shè)計(jì)一些算法讓計(jì)算機(jī)能夠像人類一樣,看到一個(gè)頁(yè)面的“興趣中心”,并智能地做出判斷。

  在進(jìn)行了抓取、分類、抽取之后,垂直搜索引擎就可以利用這些結(jié)構(gòu)化的對(duì)象信息,來(lái)應(yīng)對(duì)用戶的提問(wèn),進(jìn)行各種智能分析和挖掘工作。

  推翻現(xiàn)有架構(gòu)

  這樣一種技術(shù)是具有革命性的。用戶可以利用它進(jìn)行各種垂直類的深度搜索。它在推翻即有架構(gòu)之后,無(wú)疑要比傳統(tǒng)搜索引擎經(jīng)受更多的考驗(yàn)。

  比如,要保證結(jié)構(gòu)化信息的高質(zhì)量、全面性、準(zhǔn)確度。并且,由于這一搜索引擎的數(shù)據(jù)庫(kù),要存儲(chǔ)互聯(lián)網(wǎng)上以及各地離線數(shù)據(jù)庫(kù)中的相關(guān)對(duì)象信息,對(duì)存儲(chǔ)和運(yùn)行規(guī)模的可伸縮性也提出了挑戰(zhàn),這一技術(shù)必須擁有一個(gè)能夠存儲(chǔ)數(shù)以十萬(wàn)計(jì)的“超級(jí)數(shù)據(jù)庫(kù)”,并且保證其算法能夠足夠快速地進(jìn)行檢索。

  在給用戶帶來(lái)便利的同時(shí),新的搜索引擎帶來(lái)了一系列圍繞技術(shù)規(guī)則改變而衍生的商業(yè)模式潛在變化。比如,在基于對(duì)象的搜索引擎中,傳統(tǒng)的網(wǎng)頁(yè)排名方法(PageRank)已不適用。微軟亞洲研究院的研究員們提出了流行度排級(jí)(PopRank)。

  這項(xiàng)所搜即所得的技術(shù)具有很強(qiáng)的通用性,除了產(chǎn)品搜索、學(xué)術(shù)搜索外,還可以應(yīng)用到黃頁(yè)、博客、人物、工作職位、飯館、機(jī)票搜索等多種垂直搜索領(lǐng)域,而其與電子商務(wù)的結(jié)合、新廣告形式的衍生,將是一個(gè)嶄新的話題。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多