今日頭條又將搜索業(yè)務(wù)往前推進(jìn)了一步。4 月 30 日,今日頭條宣布上線“頭條百科”測試版。界面簡潔,除了搜索框外,只有一個(gè) Slogan:來這里,認(rèn)識(shí)世界! 這是頭條搜索繼 2019 年 8 月推出頭條搜索網(wǎng)頁版,2020 年 2 月上架頭條搜索 APP 之后的新動(dòng)作。僅經(jīng)過一年多的發(fā)展,盡管沒有大肆宣傳,頭條搜索也吸引了不少用戶的注意,在用戶體驗(yàn)方面也獲得了用戶的肯定。 關(guān)于頭條搜索的相關(guān)技術(shù),在外界極少量的資料中,我們看到朱文佳在他的演講中提到:“我們建立了一套業(yè)界獨(dú)有的搜索技術(shù)架構(gòu),我們從推薦引擎上探索出機(jī)器學(xué)習(xí)的方案,然后把這套技術(shù)架構(gòu)和底層算法遷移到搜索引擎上,發(fā)現(xiàn)效果也很好。“ 實(shí)際上,今日頭條于 2017 年才開始組建搜索技術(shù)團(tuán)隊(duì),頭條搜索如何在這么短的時(shí)間里,做到這種效果?他們的搜索引擎到底與傳統(tǒng)引擎有何不同?頭條搜索是否打造出自己“理想的搜索中臺(tái)架構(gòu)”? 為此,InfoQ 獨(dú)家采訪了今日頭條搜索技術(shù)部門,這也是頭條搜索技術(shù)團(tuán)隊(duì)第一次接受外界采訪。 從推薦到搜索從 2012 年開始,今日頭條開始做推薦引擎。而到了 2016 年,在資訊信息分發(fā)市場上,有 50% 的內(nèi)容分發(fā)是通過算法來完成的。 智能推薦引擎通過算法,綜合用戶特征、文章特征、環(huán)境特征,得出用戶對內(nèi)容感興趣的概率,返回 TopN 的結(jié)果滿足用戶的需求。今日頭條從無到有搭起平臺(tái),隨著大數(shù)據(jù)技術(shù)的發(fā)展,在 2014 年及時(shí)引入實(shí)時(shí)流架構(gòu),用戶的行為信息可以被模型快速捕捉并反饋至下一次刷新的推薦效果。 從成立開始,這家企業(yè)就開始大量招募擅長機(jī)器學(xué)習(xí)、推薦算法的技術(shù)人才。當(dāng)時(shí)互聯(lián)網(wǎng)還正處于招移動(dòng)端、iOS 技術(shù)人員的階段,有獵頭評價(jià):“很多人認(rèn)為他們瘋掉了”。 實(shí)際上,這些人才為推薦系統(tǒng)底層算法打下了基礎(chǔ)。 隨后,今日頭條在構(gòu)建搜索系統(tǒng)架構(gòu)時(shí),將從推薦引擎上探索出的技術(shù)架構(gòu)和底層算法遷移到搜索引擎上。“發(fā)現(xiàn)效果也很好?!苯袢疹^條 CEO 朱文佳在演講中說。 頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人在采訪里表示:“推薦和搜索有一些相通的地方,背后都要有 AI 來理解用戶的需求和內(nèi)容,理解的越清楚,就越能幫助到用戶。像大規(guī)模機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、實(shí)時(shí)更新等推薦上成功應(yīng)用的方法,都是建模用戶、內(nèi)容的有效方法。所以將這些技術(shù)應(yīng)用到搜索上,也會(huì)取得不錯(cuò)的效果?!?/p> 實(shí)時(shí)更新也是傳統(tǒng)搜索引擎的短板。最近幾年隨著 Storm、Spark streaming、Flink 等框架的成熟,實(shí)時(shí)流處理才能成為各公司 AI 平臺(tái)的標(biāo)配。 現(xiàn)在實(shí)時(shí)架構(gòu)同樣也被引入到頭條搜索的搜索引擎里。“基于新聞推薦時(shí)效性的理解和經(jīng)驗(yàn),我們在搜索上也研發(fā)了全量實(shí)時(shí)更新的百億倒排索引架構(gòu),大幅提升了內(nèi)容的時(shí)效性,大事件發(fā)生時(shí),往往最先能在頭條搜索到?!鳖^條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人表示。 即便如此,推薦與搜索還是存在不少差異。頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人在采訪中指出:“搜索要解決好長尾問題,不能過度依賴用戶的行為反饋去理解特定的查詢詞、網(wǎng)頁,而是需要尋找更泛化的方法。為了讓通用技術(shù)發(fā)揮優(yōu)勢,也需要把搜索上特有的問題理解得更加充分,例如怎么做好對多語言的理解,怎么在萬億網(wǎng)頁的檢索系統(tǒng)中權(quán)衡好 Explore/Exploit,怎么在性能要求苛刻的場景中應(yīng)用好復(fù)雜模型等等。另一方面,在推薦上目前不一定那么有效的方法,在搜索上卻有可能大展拳腳,例如強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)。整體來看,搜索系統(tǒng)復(fù)雜多樣,對技術(shù)的廣度、深度有非常高的要求,發(fā)揮的空間也更大?!?/p> 新技術(shù)應(yīng)用
作為全球最大的搜索引擎公司,Google 也是我們公認(rèn)的大數(shù)據(jù)鼻祖,它存儲(chǔ)著全世界幾乎所有可訪問的網(wǎng)頁,數(shù)目可能超過十萬億規(guī)模。為了將這些文件存儲(chǔ)并使用起來,Google 開發(fā)了 GFS、Bigtable 和 MapReduce 三駕馬車。從此大數(shù)據(jù)得以繁榮發(fā)展,行業(yè)里也產(chǎn)生了數(shù)百萬大數(shù)據(jù)從業(yè)需求。隨著數(shù)據(jù)采集、存儲(chǔ)、計(jì)算能力的提升,進(jìn)一步開啟了“AI 時(shí)代”。 搜索引擎的進(jìn)化史,就是人工智能技術(shù)的進(jìn)化史。今天,無論是搜索、還是信息流,所用的技術(shù)完全都是人工智能技術(shù),包括谷歌在內(nèi)的搜索引擎廠商,都在不斷將人工智能新技術(shù)應(yīng)用到搜索引擎中。 頭條搜索在新技術(shù)應(yīng)用上,也做了很多大膽的嘗試。 例如,BERT 是 2018 年時(shí) Google 在 NLP 上的一個(gè)重要突破,2019 年 10 月,Google 宣布將 BERT 算法應(yīng)用到搜索引擎中,搜索結(jié)果得到了 10% 的提升。Google 宣稱這是 Google 搜索引擎過去五年中最大、最正向的變化,而且也許是有史以來最大的變化。 但 Google 并不是第一家將 BERT 應(yīng)用在搜索引擎里的,頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人在采訪中提到:“早在 2019 年初,頭條搜索就已經(jīng)將 BERT 在頭條搜索上全流量應(yīng)用,并且獲得了顯著的效果提升。上線得比 Google 更早,依靠的是大家大膽創(chuàng)新和快速迭代?!?/p> 此外,頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人也認(rèn)為,AI 技術(shù)能夠更好的對問題進(jìn)行端到端建模,例如網(wǎng)頁內(nèi)容的理解,傳統(tǒng)方法會(huì)對這一問題進(jìn)行不斷細(xì)分,基于 HTML 結(jié)構(gòu)等信息,對不同的子任務(wù)應(yīng)用不同的規(guī)則,反復(fù)迭代來提升效果。而利用 AI 技術(shù),頭條搜索將網(wǎng)頁渲染成圖片,聯(lián)合視覺、文本、HTML 結(jié)構(gòu)等特征,對相似任務(wù)進(jìn)行統(tǒng)一的端到端建模和多任務(wù)學(xué)習(xí),大幅提高了分類、信息抽取的效果和效率。 頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人表示,頭條搜索技術(shù)團(tuán)隊(duì)也在繼續(xù)借助 AI 探索更多的搜索引擎技術(shù)問題,例如多模態(tài)技術(shù)是否可端到端地搜索出更相關(guān)的圖片、小視頻;抓取、索引構(gòu)建系統(tǒng)有沒有可能基于模型重新設(shè)計(jì);強(qiáng)化學(xué)習(xí)是否能讓搜索排序更加智能并節(jié)約計(jì)算成本等等。 搜索的另一種可能
搜索引擎是極其復(fù)雜的大工程,它通常都要將整個(gè)系統(tǒng)分解為若干子系統(tǒng),比如會(huì)分解為鏈接發(fā)現(xiàn)、索引篩選、Query 理解、Ranking 等步驟。每一步驟內(nèi)部又會(huì)進(jìn)一步分解,這個(gè)過程可以無限分解下去,由不同的人和團(tuán)隊(duì)分工解決。但這個(gè)過程有個(gè)致命缺點(diǎn),在每一步的分解過程中都會(huì)有信息損失,最后聯(lián)合起來導(dǎo)致整個(gè)系統(tǒng)不能達(dá)到最優(yōu)狀態(tài),比如 A 步驟精度 90%、B 步驟精度 90%、對接起來最終系統(tǒng)精度可能只有 80%。 這種精分細(xì)解,是傳統(tǒng)搜索引擎受限于當(dāng)時(shí)的技術(shù)手段,為了有效開展工作、更好地提升產(chǎn)品效果采取的技術(shù)決策,這在當(dāng)時(shí)是非常正確的?!暗炔蛔?,也限制了傳統(tǒng)搜索引擎進(jìn)一步提升效果?!痹谡劦絺鹘y(tǒng)搜索引擎的缺陷時(shí),頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人提到。 現(xiàn)在做搜索引擎,頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人告訴 InfoQ,頭條搜索技術(shù)團(tuán)隊(duì)主要有三個(gè)優(yōu)勢:
我們在招聘字節(jié)跳動(dòng)公司搜索部門匯聚了大量行業(yè)頂尖技術(shù)精英,旨在從 0 到 1 打造一個(gè)用戶體驗(yàn)更加理想的通用搜索引擎,支持公司所有產(chǎn)品的搜索功能,包括今日頭條、抖音、西瓜、火山、懂車帝等多款備受歡迎的知名 app。在這里你有機(jī)會(huì)參與工業(yè)級(jí)搜索引擎從無到有的研發(fā)工作,并在此過程中挑戰(zhàn)大規(guī)模分布式存儲(chǔ)和計(jì)算架構(gòu)、NLP、人工智能、ranking 等世界難題,很好地鍛煉自己的工程能力、算法能力、業(yè)務(wù)能力。加入我們,參與并見證一個(gè)新產(chǎn)品的成長和成功,和大牛們一起完成最有挑戰(zhàn)性的工作吧! |
|