今日頭條的推薦機制，怎么可以推薦更多人呢？

水針智客 2016-12-12

展開全文

機器能聰明地將文章精準(zhǔn)地推薦給可能感興趣的用戶，是因為它既能「讀懂」文章在講什么，又能「猜出」用戶想看到什么。

一、機器是怎樣理解你的文章的？

在門戶網(wǎng)站和傳統(tǒng)新聞客戶端上，哪些文章能上首頁是由編輯們決定的，編輯們會在閱讀完文章后，會決定是否將其推上版面。因為每個用戶看到的頁面都是相同的，編輯們的工作量雖然大，但還能夠應(yīng)付。

而在今日頭條客戶端上，每位用戶的信息流都是完全不同的，如果5億用戶的信息流都交由編輯來推薦，則是一件不可能完成的任務(wù)。

但是機器可以做到，因為其「閱讀」文章的方式，在速度上要遠(yuǎn)遠(yuǎn)勝過人類。

系統(tǒng)會對文章進(jìn)行特征識別，從而判斷文章講的是什么類型和領(lǐng)域的內(nèi)容。特征識別的維度有很多，在這里我們重點解釋「關(guān)鍵詞」。

系統(tǒng)會根據(jù)文章中出現(xiàn)的頻率，提取出一些詞語作為關(guān)鍵詞，關(guān)鍵詞的判定原則有二：

· 詞頻高：如一篇體育類文章內(nèi)容關(guān)于某場足球比賽，那么文章可能會出現(xiàn)的高頻詞就包括球員名字、足球術(shù)語或技巧等，如「C 羅」、「射門」、「突破」。

· 同類文章中出現(xiàn)次數(shù)少：作者撰文時常用到的虛詞、轉(zhuǎn)折詞等出現(xiàn)頻率也很高，但它們不會作為關(guān)鍵詞被提取出來，因為這些詞在文章中是普遍存在的。

系統(tǒng)判定出一篇文章的關(guān)鍵詞后，會將這些關(guān)鍵詞與文章分類模型進(jìn)行比對，命中哪些分類詞庫關(guān)鍵詞的比例大，文章即被打上該分類的標(biāo)簽。如，一篇文章排名靠前的關(guān)鍵詞為「C 羅」、「射門」、「西甲」、「馬德里」，那么該篇文章可能會被打上「足球」、「國際足球」、「西班牙」等標(biāo)簽。機器便是這樣，完成對文章的初步認(rèn)知。

因為這種關(guān)鍵詞識別機制的存在，作者應(yīng)盡量避免在文中過度使用非常規(guī)詞語，如活久見、腿玩年、城會玩等，給自己的文章增加理解障礙。行文用詞規(guī)范，機器可能更懂你的文章。

除文章正文關(guān)鍵詞識別外，機器還會對標(biāo)題進(jìn)行關(guān)鍵詞的識別和分類比對。因此，在標(biāo)題中露出具代表性的實體詞，可幫助機器理解你的文章。例如，同樣一篇足球類文章，標(biāo)題「大胡子梅西，大胡子阿奎羅，大胡子伊瓜因，阿根廷美洲杯冠軍穩(wěn)了！」，就比標(biāo)題「三人蓄須明志，誓要實現(xiàn)多年遠(yuǎn)大理想」含義更明確，更利于系統(tǒng)識別，獲得更多的推薦量。

二、你的文章會被推薦給哪些用戶？

每個人的閱讀興趣都是大不相同的，個性化推薦機制要做的事情就是——讓每位用戶看到可能感興趣的內(nèi)容，這也是用戶每天會「沉迷」在今日頭條上的原因。

因此反過來，作者創(chuàng)作的內(nèi)容也就只會被推薦給可能對它感興趣的用戶。比如，某一篇關(guān)于C羅的足球文章寫得極出色，閱讀量超過了100萬，放在朋友圈是可以刷屏的爆款文章，但對足球毫無興趣的用戶在今日頭條上仍然是看不到這篇文章的。

這種精準(zhǔn)推薦，是建立在機器對每位用戶都有充分認(rèn)知的前提下的。在機器中，每位用戶實際是由大量數(shù)據(jù)構(gòu)成的，用戶的閱讀興趣就藏在這些數(shù)據(jù)中。

不同數(shù)據(jù)對用戶興趣計算所占權(quán)重不同，數(shù)據(jù)包括：

· 用戶的基本信息

性別、年齡、所處地理位置（城市或地區(qū)）；

使用機型、授權(quán)賬戶（如微博、微信等）、手機上經(jīng)常使用的其他 App 等；

· 用戶主動訂閱或喜歡的內(nèi)容

訂閱賬號；

訂閱頻道；

關(guān)注的話題；

· 機器通過計算得出的用戶閱讀興趣

用戶閱讀過的文章分類和關(guān)鍵詞；

用戶聚類：相似類型用戶還喜歡閱讀的其他文章類型；

用戶在今日頭條客戶端主動標(biāo)記「不感興趣」的實體詞或文章類型；

根據(jù)以上數(shù)據(jù)，系統(tǒng)對用戶的閱讀興趣就能有個基本的判斷。一般來講，用戶使用產(chǎn)品時間越長，系統(tǒng)積累的閱讀數(shù)據(jù)越多，對其興趣的判斷也就越準(zhǔn)確。使用產(chǎn)品的用戶越多，系統(tǒng)對用戶聚類的判斷也越準(zhǔn)確。

通過對數(shù)據(jù)的處理，每位用戶將被機器打上各種標(biāo)簽，如一個用戶閱讀的文章中關(guān)鍵詞排名靠前的是：C 羅、皇家馬德里、歐洲杯、小米、魅族、蘋果。那么，這位用戶可能被打上「足球」、「皇馬」、「科技」、「手機」、「米粉」等標(biāo)簽。不同的用戶會被打上不同的標(biāo)簽。

當(dāng)一篇帶有「C 羅」、「足球」標(biāo)簽的文章在進(jìn)行推薦時，系統(tǒng)會將其自動匹配給帶有「C 羅」或「足球」標(biāo)簽的用戶，這便是推薦引擎的個性化推薦。當(dāng)然，系統(tǒng)推薦的實際情況會遠(yuǎn)比這復(fù)雜得多，但推薦的基本原理便是，機器通過數(shù)據(jù)來理解文章和用戶，并對兩者進(jìn)行匹配。

三、你的文章是如何被被推薦的？

為讓受歡迎的內(nèi)容被更多用戶看到，不受歡迎的內(nèi)容不占用過多推薦資源。頭條號文章在推薦時，會分批次推薦給對其感興趣的用戶。

如何理解分批次推薦呢？文章首先會被推薦給一批對其最可能感興趣的用戶（這批用戶的閱讀標(biāo)簽與文章標(biāo)簽重合度最高，被系統(tǒng)認(rèn)定最可能對該文章感興趣。），這批用戶產(chǎn)生的閱讀數(shù)據(jù)，將對文章下一次的推薦起到?jīng)Q定性作用。數(shù)據(jù)包括點擊率、收藏數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù)、讀完率，頁面停留時間等，其中，點擊率占的權(quán)重最高。

這很好理解，能吸引眾多用戶點擊的文章自然會被認(rèn)為更可能是好文章。

延伸閱讀：

擴(kuò)大推薦機制（注意：以下舉例僅用于說明點擊率對文章推薦的影響，不代表實際推薦情況）

文章的首次推薦，如果點擊率低，系統(tǒng)認(rèn)為文章不適合推薦給更多的用戶，會減少二次推薦的推薦量；如果點擊率高，系統(tǒng)則認(rèn)為文章受用戶喜歡，將進(jìn)一步增加推薦量。以此類推，文章新一次的推薦量都以上一次推薦的點擊率為依據(jù)。此外，文章過了時效期后，推薦量將明顯衰減，時效期節(jié)點通常為24小時、72小時和一周。

例如，一篇文章首次推薦給了1000個用戶，如果這批用戶的點擊率較高，系統(tǒng)判定用戶非常喜歡這篇文章，將其擴(kuò)大推薦給10000個用戶，如果這輪推薦用戶的點擊率仍然維持在較高水平，那么系統(tǒng)會將文章再次擴(kuò)大推薦給30000個用戶、50000個用戶、100000個用戶 ······推薦量和閱讀量便如滾雪球一般節(jié)節(jié)攀升。直到文章過了24小時時效期，新一輪推薦的推薦量才會逐漸衰減。

因為這種擴(kuò)大推薦的機制，作者想獲得更多的閱讀量，就必須努力把各維度閱讀數(shù)據(jù)（點擊率、用戶閱讀時間、收藏數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù)等）維持在高位水平。這就要求文章：

· 標(biāo)題和封面圖具有足夠的吸引力、表意清晰（提高點擊率）

· 圖文并茂，易讀性強（提高用戶閱讀時間）

· 內(nèi)容詳實，給讀者干貨般的充實感（提高收藏數(shù)和用戶閱讀時間）

· 觀點鮮明，引發(fā)讀者討論（增加評論數(shù)和轉(zhuǎn)發(fā)數(shù)）

其中，至關(guān)重要的當(dāng)然是點擊率，也因此，標(biāo)題和封面圖的重要性便不言而喻。這也是今天注意力稀缺時代，文章獲得好的傳播的關(guān)鍵要素。

有吸引力的標(biāo)題能帶來更多點擊，但這不意味作者要成為慣用夸張標(biāo)題的標(biāo)題黨。恰恰相反，標(biāo)題黨反而會被平臺通過技術(shù)手段（標(biāo)題黨模型等）識別和打壓，限制推薦量。

除了標(biāo)題夸張，用戶舉報密集、負(fù)面評論過多、無效異常點擊、時效期已過都是限制文章推薦量的因素。

今日頭條的推薦機制，怎么可以推薦更多人呢？

四、為什么會產(chǎn)生推薦效果不好的情況？

常有作者抱怨自己的某篇文章推薦效果不好，或者對自己的文章閱讀量不穩(wěn)定感到焦慮。文章的閱讀量由系統(tǒng)推薦量直接決定，而推薦量又取決于上一輪推薦的點擊率。因此單篇文章推薦效果不好，原因無外乎三類：點擊率低、推薦量低、閱讀量低。

1.點擊率低

我們知道，低質(zhì)內(nèi)容對用戶閱讀體驗會有負(fù)面影響。為了提升用戶體驗，機器會減少那些不受歡迎的內(nèi)容（即點擊率低的內(nèi)容）的展示量，如果點擊率持續(xù)走低，展示量也相應(yīng)地持續(xù)減少。

一般來說，如果初次點擊率不高，就很難再有較高的展示量和閱讀量。點擊率較低可能是如下原因?qū)е拢?/p>

· 賬號內(nèi)容垂直度較低，沒有及時推薦給相應(yīng)的用戶

假使一賬號是體育類賬號，這一次卻發(fā)表了娛樂類內(nèi)容。對于這種不屬于賬號擅長領(lǐng)域的文章，機器需要重新識別分類再進(jìn)行推薦，這在一定程度上會延長推薦時間，不能保證在規(guī)定時效內(nèi)，推薦給相應(yīng)的用戶。因此，作者若想保證較高水平的點擊率，堅持創(chuàng)作垂直內(nèi)容是極有必要的。

· 文章內(nèi)容自身問題，導(dǎo)致點擊率低

1. 標(biāo)題平淡，沒有起到吸引讀者閱讀的作用

2. 配圖無吸引力，文章配圖與內(nèi)容相關(guān)度不高，或者前三張圖片質(zhì)量較差

3. 內(nèi)容過于低質(zhì)，引起讀者反感甚至投訴

2.推薦量低

推薦量是決定閱讀量大小的重要因素，推薦量低的主要原因有：

· 點擊率過低

· 潛在的用戶群過小，推薦量不高

如果賬號潛在的用戶群實在過小，機器將很難挖掘到**戶，推薦量自然高不了。而**戶群過小有如下原因：

1. 話題過于冷門、生僻

2. 涉及領(lǐng)域過于專業(yè)，晦澀難懂，與主流群眾有一定距離

· 內(nèi)容供過于求