讓用戶吃石頭,給披薩涂膠水,Google AI 搜索翻車的事情還近在眼前。號(hào)稱要顛覆 Google 的 Perplexity,緊接著也出了狀況。AI 搜索比起 ChatGPT,能聯(lián)網(wǎng),引用信源,不那么容易胡說八道了。但如果,信源本身就是垃圾呢?AI 搜索,已經(jīng)在引用另一個(gè) AI 搜索了「林黛玉倒拔垂楊柳」的梗很多人都聽過,最近在重溫水滸傳,我靈機(jī)一動(dòng),用中文問 Perplexity,「林黛玉的性格和魯智深的性格有什么相似之處」。回答得平平無奇,但引用來源出現(xiàn)了一個(gè)意想不到的角色:字節(jié)豆包,抖音旗下的 AI 助手。這難道是什么新奇的商戰(zhàn)形式嗎?點(diǎn)進(jìn)去發(fā)現(xiàn),內(nèi)容就是用戶和豆包的聊天記錄,AI 回復(fù)得還很八股文。如果質(zhì)量寫得比營(yíng)銷號(hào)好就罷了,寫成這樣是罪加一等。當(dāng)我直接在 Google 搜索同一個(gè)問題,豆包又來刷存在感了,并且高居第二,和 Perplexity 引用的不是同一條,但點(diǎn)進(jìn)去還是「首先」「其次」打頭的廢話連篇。之前 The Information 報(bào)道過,Perplexity 使用 API 訪問有關(guān) Bing 和 Google 搜索排名的數(shù)據(jù),這些數(shù)據(jù)決定了網(wǎng)頁的相關(guān)性、質(zhì)量和權(quán)威性。換言之,如果豆包容易被 Google 搜到,可能也就更容易被 Perplexity 引用。這就讓人好奇了,為什么豆包可以出現(xiàn)在搜索引擎?等我登錄豆包網(wǎng)頁版的最新版本,答案出現(xiàn)了,它默認(rèn)勾選了一個(gè)選項(xiàng):允許分享內(nèi)容被搜索引擎收錄,在搜索結(jié)果頁顯示。現(xiàn)豆包已更新,不是默認(rèn)勾選,用戶可選擇。讓用戶和 AI 的聊天記錄被索引,豆包似乎是開了先例。Perplexity、天工、秘塔、360 AI 都可以將聊天記錄以鏈接形式分享,但沒有看到類似豆包的選項(xiàng)。ChatGPT 也支持以鏈接分享對(duì)話,但承諾只是用于個(gè)人之間的共享,不會(huì)出現(xiàn)在互聯(lián)網(wǎng)的公共搜索結(jié)果。早年的「內(nèi)容農(nóng)場(chǎng)」,盜取或拼湊他人文章,快速生產(chǎn)內(nèi)容,憑借關(guān)鍵詞優(yōu)化、頻繁更新等 SEO(搜索引擎優(yōu)化)策略,搶占搜索頁面的前排,賺取流量和廣告費(fèi)。那時(shí)候,內(nèi)容貢獻(xiàn)者還是真人,每天生產(chǎn)數(shù)篇文章,但現(xiàn)在輪到了 AI,復(fù)制、粘貼、洗稿、批量產(chǎn)出的戰(zhàn)斗力完全不在一個(gè)量級(jí)。「林黛玉倒拔垂楊柳」「魯智深唱葬花吟」本不是事實(shí),說的人多了,權(quán)重高了,也就成了 AI 搜索眼中的事實(shí),引用的信源,是知乎、抖音、簡(jiǎn)書用戶編造出來的有鼻子有眼的故事。如果信源成了 AI,結(jié)果只會(huì)更加慘烈。想象一下,更多 AI 生成內(nèi)容被 Google 收錄,AI 搜索參考 Google 的搜索排名,然后最終呈現(xiàn)在用戶面前的,就是 AI 疊加 AI 的垃圾結(jié)果。被投喂的人類,只能修煉得更加火眼金睛,從廢話里挑出有用的干貨。80 分的 AI 搜索平心而論,我仍然很喜歡 Perplexity 等 AI 搜索產(chǎn)品,它們?cè)?ChatGPT 之后,再次提高了我的生產(chǎn)力。人類提出問題,它們搜索、摘要、成文,自己已經(jīng)是一個(gè)成熟的工作流,我們付出更少,但效率更高。大部分的情況下,AI 搜索的表現(xiàn)還是相當(dāng)不錯(cuò)的。Google AI 翻車,一部分原因應(yīng)該是急于推出功能,只顧著提高 Reddit 在搜索中的權(quán)重,沒能讓 AI 反思結(jié)果是否符合常識(shí)。當(dāng)我把讓 Google AI 搜索翻車的同款問題輸入 Perplexity,結(jié)果就比較讓人滿意。關(guān)于「人一天吃多少石頭」,Perplexity 能夠準(zhǔn)確地找到洋蔥新聞的信源,再解釋這是胡說八道,不像 Google AI 搜索把洋蔥新聞當(dāng)成圭臬。還有「披薩的奶酪容易滑落怎么辦」,Google AI 搜索之前建議加點(diǎn)膠水,Perplexity 顯然更加聰明,先給出一些合理的辦法,在我追問能不能加膠水之后,精準(zhǔn)地找到了誤導(dǎo) Google AI 搜索的 Reddit 帖子,說這是在開玩笑。為了讓結(jié)果更嚴(yán)謹(jǐn),Perplexity 甚至跑去亞馬遜搜索了一番,表示它只搜到各種無毒膠水產(chǎn)品,沒說這些膠水能用于食品。相比 Perplexity,Google 顯然不差在模型能力,而是差在后續(xù)的工程和產(chǎn)品化。AI 搜索從原理上來說,是先搜索再總結(jié),比起不聯(lián)網(wǎng)的聊天機(jī)器人幻覺更少,核心技術(shù)之一是 RAG(檢索增強(qiáng)生成)。RAG 結(jié)合了信息檢索和生成模型,信息檢索根據(jù)用戶查詢,從龐大的文檔庫中找到相關(guān)信息;生成模型則將這些檢索到的文檔作為上下文,生成更加準(zhǔn)確和詳細(xì)的回答。這里的文檔庫,可以是傳統(tǒng)搜索引擎的索引庫,也可以是法律等專有數(shù)據(jù)庫、社交媒體等用戶生成內(nèi)容。如果網(wǎng)頁上充斥著大量 AI 生成的低質(zhì)量?jī)?nèi)容,就會(huì)對(duì) AI 搜索的 RAG 產(chǎn)生負(fù)面影響。那么,面對(duì)氣勢(shì)洶洶的 AI 生成內(nèi)容,AI 搜索的下半場(chǎng),可能就是繼續(xù)比拼模型之外的工程能力,較量數(shù)據(jù)源質(zhì)量和搜索能力,包括能不能搜到更多網(wǎng)頁,搜到更權(quán)威的網(wǎng)頁,或者整合財(cái)報(bào)等專有信息。現(xiàn)狀就是,我們漸漸已經(jīng)離不開 AI 搜索,如果說靠關(guān)鍵詞和手工打開鏈接的傳統(tǒng)搜索是 40 分,容易胡說八道的大模型是 60 分,聯(lián)網(wǎng)的 AI 搜索把標(biāo)準(zhǔn)提到了 80 分。盡管還會(huì)出錯(cuò),但體驗(yàn)過就回不到過去了,不必全然否定。花樣引用信源,AI 搜索的商戰(zhàn)除了司空見慣的網(wǎng)頁,AI 搜索產(chǎn)品們,似乎有一個(gè)不約而同的想法:提供多模態(tài)的信源。360 AI 可以找到視頻,秘塔可以找到播客和學(xué)術(shù)論文,Perplexity 可以搜索 Reddit 和 YouTube。但 AI 搜索更多是提供一個(gè)引子,想要更多的詳情內(nèi)容,還是不能偷懶,要到信源的出處去看。