日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

清華張敏教授:個性化推薦研究進展(可解釋性、魯棒性和公平性)

 昵稱16619343 2019-02-13

[導 語]本文是清華大學張敏副教授在Byte Tech 2019 機器智能前沿論壇上的分享實錄。Byte Tech 2019由中國人工智能學會、字節(jié)跳動、清華大學聯(lián)合主辦,清華大學數(shù)據(jù)科學研究院協(xié)辦。

大家好,今天和大家分享一下個性化推薦研究進展。主要探討三個關鍵詞:可解釋性、魯棒性和公平性。我們大概2013年左右就開始做可解釋的推薦,此后也開始逐漸研究魯棒性和公平性。為什么這三個詞很重要呢?

圖說:可解釋性、魯棒性和公平性是人工智能目前面對的三個重要挑戰(zhàn)。

可能大家對人工智能的發(fā)展非常耳熟能詳。的確,在這次人工智能熱潮開始之后,人們認為人工智能越來越強大。但對很多從事人工智能研究的學者來說,現(xiàn)在更多想的是人工智能在哪些地方遇到了最大的瓶頸。目前大家基本達成了共識:當前人工智能領域的兩個核心的挑戰(zhàn)是可解釋性和魯棒性。

除了可解釋性和魯棒性之外,從兩三年前開始,國外的研究越來越關注第三個問題:公平性。我們在研究過程中發(fā)現(xiàn),可解釋性、魯棒性和公平性這三點并不是完全割裂的。所以今天的報告既會分別討論這三點,但也試圖呈現(xiàn)它們之間的關聯(lián)。因為這三個話題很大,所以我們用一個具體的領域來討論,也就是我們課題組這些年一直在研究的個性化推薦。

首先是可解釋性。什么叫可解釋性?其實很簡單。我們除了知道怎么做一件事,怎么完成一個任務之外,還想知道“為什么”。這個“為什么”其實有兩個不同角度。首先從用戶的角度來說,我們不僅希望給用戶看到推薦的結果,例如在線購物網(wǎng)站呈現(xiàn)的推薦商品,還能告訴用戶為什么推薦這個商品。另一個例子是新聞推薦。為什么系統(tǒng)從今天的幾百條新聞中給用戶推了這些內容。我們需要理由,并且要把這個理由解釋給用戶。這就是結果的可解釋性。第二個方面是系統(tǒng)角度的可解釋性,也就是系統(tǒng)開發(fā)人員需要的解釋。在我們實驗室的研究過程中,有時候學生對我說這個結果很好或很不好,他們可能很怕我問一個問題:為什么結果會這樣?為什么我們方法的效果比別人的好?如果不好,問題出在哪里?特別的,到底是哪些因素/特征/數(shù)據(jù)帶來了問題,有沒有可能改進?這是關于系統(tǒng)的可解釋性。在現(xiàn)在的人工智能(特別是深度學習)研究中,大家對解釋性機器學習探討得比較多。很多人說深度學習的缺點是不知道結果是怎么給出來的,就是指缺少系統(tǒng)的可解釋性。

我們現(xiàn)在先討論一下面向用戶的可解釋性。之后在討論魯棒性問題時會提到系統(tǒng)的可解釋性。

目前推薦系統(tǒng)已經(jīng)有了非常廣泛的應用。大家一定用過推薦系統(tǒng),無論是新聞閱讀信息流還是在線購物等?,F(xiàn)在推薦系統(tǒng)給出的理由非常簡單,最常見的理由之一是買了某件商品的用戶也買了其他什么東西,然后說“你可能也感興趣…”。事實上,現(xiàn)在推薦系統(tǒng)沒有給出更有說服力的推薦理由的原因,并不是不想給,而是給不出來。為什么呢?我們從推薦算法說起。這里我簡單介紹一下基本概念,盡量讓沒有推薦系統(tǒng)背景的朋友也能理解。

推薦系統(tǒng)簡明原理

在推薦系統(tǒng)技術中,協(xié)同過濾是一個很常用也很有效的辦法。在協(xié)同過濾技術中,我們經(jīng)常會看到類似下圖所示的矩陣。這個矩陣中記錄了某個用戶是否買了什么商品,這時系統(tǒng)根據(jù)買了同一個商品的人,還買過什么其他商品,來產(chǎn)生推薦的商品候選。但系統(tǒng)并不是直接查矩陣就把結果推出來了。人們會把這個矩陣分解成兩部分:一部分是用戶,另一部分是商品。這兩個部分的隱變量會共享相同的維度,對接用戶和商品,把它們映射到同一個空間上。這就是常用的隱變量分解機模型。事實上,給你推薦這個商品的真正理由可能是,在你的第三個、第十個、第十二個維度代表的向量上,你的喜好和被推薦商品的這三個維度代表的向量非常匹配。但如果系統(tǒng)告訴用戶說,“我把這個商品推薦給你,是因為你在第十二維上的特征和商品的第十二維很匹配”,用戶可能會覺得莫名其妙。

圖說:分解機模型可以用來協(xié)助基于協(xié)同過濾方法的推薦系統(tǒng)的實現(xiàn)。

所以我們想知道,到底有沒有一種方法,既可以給出精準的推薦,同時還能給出可靠的解釋。于是人們開始在這個方向做一些嘗試。我們在2014年左右提出了Explainable Recommendation這個概念(如下圖)。后來也有不少人在這個方向做了相關研究,我們提出的EFM模型也成為了大家做可解釋推薦時經(jīng)常用來比較的baseline方法。當時的思路就是,雖然中間的隱變量是不可解釋的,但如果找到中間橋梁——這個橋梁就是具體的特征,比如商品的特性——那么推薦的結果就能被解釋。例如,系統(tǒng)在推薦一個手機的時候,會解釋說這款手機拍照性能好,外觀漂亮。這樣可能會比較適合一個時尚的女孩。如果系統(tǒng)發(fā)現(xiàn)其他用戶感興趣的是另外的特征,就能找到別的合適的手機來推薦,例如把一款屏幕大、字體大、操作簡單、待機時間長的手機推薦給你,而你正在給父母買一款智能老人機,你就很可能會被說服。我們用了這種方法后,可以把用戶點擊率從3%到4%,這是非常大的提升。

人們可能會問:“也許我們不需要理由呢?”所以我們用在線購物網(wǎng)站真實的數(shù)據(jù)做了實驗來分析這樣的解釋到底有沒有效果。第一組實驗直接給推薦結果,沒有解釋;第二組給同樣的推薦結果,只是同時給出了“看過這個商品的這個用戶還看了什么”的簡單解釋,這樣就可以把點擊率從3.20%到3.22%;第三,我們給了新的解釋,提供了例如屏幕較大,待機時間較長這樣更具體的信息,發(fā)現(xiàn)點擊率又進一步提升到4.34%。所以真實的用戶實驗告訴我們,只要給出了合理的解釋,推薦精準度會有非常大的提升 —— 有時候人做事情需要別人給我們一個理由。

圖說:可解釋的推薦算法EFM的原理解釋

但是,上述方法也有問題。首先,并不是所有東西都很容易找出特征。比如對新聞來說,我們很難描述這個新聞帶有什么樣的屬性,讓我們可以做類似的處理。此外,因為人的語言表達很自由,所以自然語言處理表達有非常大的多樣性。比如說有人可能在評論中說“這個東西也沒有明顯的缺點,但是感覺不太好用”。這種情況很難快速找出完整、精準的特征描述。所以我們認為也許可以嘗試把粒度提升一點,不在那么細的粒度上做特征級別的可解釋性。于是這就給了我們更多的思路。下圖是亞馬遜購上的評論。大家可能會發(fā)現(xiàn)其實除了用戶對商品的評論和打分之外,其他用戶還會對某個用戶的評論打分:分數(shù)代表了其他用戶覺得這個評論到底有沒有用。如果我們對所有商品都找到這樣的有用的評論信息,當用戶瀏覽購買的時候,我們可以把最有用的評論呈現(xiàn)給用戶,那么推薦系統(tǒng)影響的不單是購買的結果,還會幫助用戶挑選商品時的早期和中間的選擇決策過程。

圖說:用戶的評論也可以被其他用戶評論。

因此,我們從這個角度做了一些工作。我們首先研究是否可以自動發(fā)現(xiàn)評論的有用性。因為互聯(lián)網(wǎng)上有一個重要的原則叫“l(fā)azy user”,也就是不要指望用戶主動做太多事情。所以愿意給出別人的評論是否有用的用戶非常少,數(shù)據(jù)就很稀疏。那么我們系統(tǒng)能不能自己學習出來呢?其次我們在研究有用性的過程中有沒有可能把它與最終的推薦算法結合在一起?而不是僅僅判斷某些評論是否有用卻沒有讓推薦系統(tǒng)利用到這一點。

所以我們設計了下圖中的模型,這是一個基于注意力機制網(wǎng)絡(Attention network)的深度學習模型。我們在這個模型中,試圖在最終給出評論推薦的同時,通過中間注意力的機制的選擇,挑出更有用更可靠的評論。這個工作我們發(fā)表在2018年的WWW會議上。模型的效果非常好,與經(jīng)典的推薦算法以及基于深度學習的算法等state of art方法相比,我們的模型都會有統(tǒng)計意義上顯著的提升。此外,模型是否考慮Attention,效果會有非常大的差異和變化。如下圖所示。

圖說:基于Neural Attention Network來給出評論級別的可解釋的推薦算法。

圖說:加入了基于attention 機制的可解釋推薦方法,模型的性能得到顯著提升。

怎么看這個模型對用戶是否有效?我們對比了幾種常見的方式。比如現(xiàn)在大多數(shù)購物網(wǎng)站主要有以下幾種方式對評論排序:

  • 時間排序,最近的評論在前面;

  • 隨機排序;

  • 排除垃圾評論后按照內容長度排序(因為一般認為越長的評論越有用)。

然而,基于時間和長度的排序往往效果比隨機還要差,而我們提出的方法表現(xiàn)更好。這里有一點值得注意的是,事實上,我們這個拿來做標準答案的大規(guī)模用戶標注的有效性數(shù)據(jù),是有偏的(bias)。因為曾經(jīng)被人評過有用的東西,會因為馬太效應,更容易被其他人認為有用。而那些事實上有用,但卻沒有機會立刻呈現(xiàn)的評論會永遠沉寂下去。而這個bias也是我們所說的“不公平性”的情況之一。所以我們做了第三方更客觀的評價,發(fā)現(xiàn)這種bias的確存在,而通過算法分析找到的方法,比靠用戶在系統(tǒng)中的投票,是更可靠更有效的方法。

在可解釋性方面還有更多要討論的問題,比如應該用產(chǎn)生式的方法還是判別式的方法,我們的觀點是都可以。還有怎么評價這個解釋的有效性呢?我們覺得一個可行的思路是要和用戶的行為結合在一起。另外,推薦算法可能帶來的偏差怎么處理?尤其是解釋本身是否帶來不公平性?這也是非常容易存在的一個問題,有可能變成哲學問題。

魯棒性問題

第二個要討論的問題,是魯棒性。這個問題涉及到很多方面。在個性化推薦領域,魯棒性問題的具體表現(xiàn)之一是很嚴重的數(shù)據(jù)缺失的挑戰(zhàn)。我們都知道可以根據(jù)用戶的歷史做推薦,但如果一個新用戶什么歷史都沒有,你要怎么做推薦呢?這稱作冷啟動(cold-start)問題。

在推薦系統(tǒng)中有一類方法基于協(xié)同過濾,還有一類方法是基于內容匹配,前者雖然一般來說效果更好但是無法處理冷啟動情況,而后者即使冷啟動時還能夠工作。我們可以把他們融合起來,用歷史數(shù)據(jù)學到給這兩種方法分配的權值:例如0.8和0.2。冷啟動的時候,協(xié)同過濾那部分是0,但還至少有0.2權重的基于內容(content-based)的方法能夠使用。但很顯然對不同用戶、不同的商品,這種融合的權值應該是不一樣的。所以我們提出一個思路(如下圖):我們不要固定選好一個對所有人一樣的權值,而是提出一個統(tǒng)一的框架(unified framework),自動用注意力網(wǎng)絡學習出在不同的情況下不一樣的權值。如果大家感興趣的話,可以看一下我們發(fā)表在CIKM 2018上的論文:Attention-based Adaptive Model to Unify Warm and Cold Starts Recommendation。效果確實非常好,能非常有效地解決冷啟動問題,并且對總體效果非常有幫助。

圖說:統(tǒng)一的框架可以解決冷啟動推薦問題。

更有趣的是,當學生把下圖拿給我的時候,我覺得這可以算是個很漂亮的工作了,因為這項工作同時也體現(xiàn)了系統(tǒng)的可解釋性。為什么剛才提到的模型結果很好呢?這是因為通過學習到的不同Attention,會發(fā)現(xiàn)左上角是新的item(例如新商品或新的消息),右下角是新的用戶。對于信息充足的情況和信息嚴重不足的情況(新的商品+新的用戶),這幅圖都給了解釋。所以你會發(fā)現(xiàn),當我們解決魯棒性的同時,對于系統(tǒng)級別的可解釋性也有非常大的改善。

圖說:提升推薦系統(tǒng)的魯棒性同時也可能提升系統(tǒng)的可解釋性。

公平性問題

最后我們用很短的時間再探討一下公平性問題。公平性問題很值得注意。比如2018年的一個研究發(fā)現(xiàn),在兩個公開數(shù)據(jù)集MovieLens和LastFM上,對男性的推薦效果比對女性推薦效果好,對老人和18歲以下年輕人的推薦效果,比18歲到50歲之間的人群的推薦效果更好,這不是系統(tǒng)有意識地產(chǎn)生偏見,可能和數(shù)據(jù)量以及用戶習慣有關,但是不公平性的確存在。另一方面對被推薦物及相關信息也存在不公平性,例如我們前面討論過的對評論的不公平性,以及更多推薦流行的東西,也會帶來對不熱門的東西的不公平性。有時候對用戶和對物品的公平性,是有沖突的。例如我們希望增加推薦的多樣性,但是有研究表明,增加多樣性的時候提升了對被推薦物的公平性,但是卻降低了對用戶的公平性。

圖說:推薦系統(tǒng)對不同人群的效果不同,降低了對用戶和對推薦物的公平性。

最后一分鐘時間分享一下我們在用戶行為的不公平性上發(fā)現(xiàn)的有趣現(xiàn)象。人們常在看新聞的信息流時經(jīng)常說這個文章質量太差了,怎么給我推薦這些呢?事實上我們來看看點擊率,會吃驚地發(fā)現(xiàn):低質量的新聞總體點擊率(下面左圖中的藍線)始終比高質量新聞點擊率(圖中的紅線)高,甚至我們會發(fā)現(xiàn)有一些用戶在點擊之前其實是知道這條新聞的質量肯定不怎么樣的,但人們還是有獵奇心理,“我知道它不太好可我就是要點”,點完以后發(fā)現(xiàn)這條新聞質量果然是不怎么樣。但反過來,對推薦系統(tǒng)來說就感到很奇怪了——用戶們你們明明喜歡點的呀,怎么還覺得不好呢。所以這種大量存在的點擊的偏置也是不公平的,是對高質量新聞的不公平。

圖說:低質量新聞的點擊率始終比高質量新聞的點擊率高。

怎么解決呢?從算法思路可以一定程度上來解決。我們的思路是不要光看點擊,不能只拿點擊率來做評價指標,而要看用戶的滿意度。這個滿意度雖然沒有被用戶顯式地給出來,但是可以從用戶的行為找到蛛絲馬跡來進行自動分析。相關的工作我們發(fā)表到了2018年的SIGIR上(文章和主要方法可見下圖)。

圖說:低質量新聞的點擊率始終比高質量新聞的點擊率高。

以上是我今天跟大家簡短分享的內容,主要是希望大家關注到可解釋性、魯棒性、公平性這三個非常重要的因素,而且這三個因素并非獨立存在,而是在相互作用的。如果我們希望有一個更好的人工智能系統(tǒng),一定要在這三個方面做進一步的工作。真正智能化的人工智能技術依然前路漫漫,還有非常多的挑戰(zhàn)和非常多的機會等待我們去發(fā)現(xiàn)和面對。

編輯:文婧

校對:洪舒越

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多