日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

Embedding從入門到專家必讀的十篇論文

 520jefferson 2019-06-28

Embedding從入門到專家

必讀的十篇論文

作者 王喆

來自 「王喆的機(jī)器學(xué)習(xí)筆記」

今天我們不分析論文,而是總結(jié)一下Embedding方法的學(xué)習(xí)路徑,這也是我三四年前從接觸word2vec,到在推薦系統(tǒng)中應(yīng)用Embedding,再到現(xiàn)在逐漸從傳統(tǒng)的sequence embedding過渡到graph embedding的過程,因此該論文列表在應(yīng)用方面會(huì)對(duì)推薦系統(tǒng)、計(jì)算廣告方面有所偏向。

第一部分 Word2vec基礎(chǔ)

1. [Word2Vec] Distributed Representations of Words and Phrases and their Compositionality (Google 2013)

Google的Tomas Mikolov提出word2vec的兩篇文章之一,這篇文章更具有綜述性質(zhì),列舉了NNLM、RNNLM等諸多詞向量模型,但最重要的還是提出了CBOW和Skip-gram兩種word2vec的模型結(jié)構(gòu)。雖然詞向量的研究早已有之,但不得不說還是Google的word2vec的提出讓詞向量重歸主流,拉開了整個(gè)embedding技術(shù)發(fā)展的序幕。

2. [Word2Vec] Efficient Estimation of Word Representations in Vector Space (Google 2013)

Tomas Mikolov的另一篇word2vec奠基性的文章。相比上一篇的綜述,本文更詳細(xì)的闡述了Skip-gram模型的細(xì)節(jié),包括模型的具體形式和 Hierarchical Softmax和 Negative Sampling兩種可行的訓(xùn)練方法。

3. [Word2Vec] Word2vec Parameter Learning Explained (UMich 2016)

雖然Mikolov的兩篇代表作標(biāo)志的word2vec的誕生,但其中忽略了大量技術(shù)細(xì)節(jié),如果希望完全讀懂word2vec的原理和實(shí)現(xiàn)方法,比如詞向量具體如何抽取,具體的訓(xùn)練過程等,強(qiáng)烈建議大家閱讀UMich Xin Rong博士的這篇針對(duì)word2vec的解釋性文章。惋惜的是Xin Rong博士在完成這篇文章后的第二年就由于飛機(jī)事故逝世,在此也致敬并緬懷一下Xin Rong博士。

第二部分 Word2vec的衍生及應(yīng)用

4. [Item2Vec] Item2Vec-Neural Item Embedding for Collaborative Filtering (Microsoft 2016)

這篇論文是微軟將word2vec應(yīng)用于推薦領(lǐng)域的一篇實(shí)用性很強(qiáng)的文章。該文的方法簡(jiǎn)單易用,可以說極大拓展了word2vec的應(yīng)用范圍,使其從NLP領(lǐng)域直接擴(kuò)展到推薦、廣告、搜索等任何可以生成sequence的領(lǐng)域。

5. [Airbnb Embedding] Real-time Personalization using Embeddings for Search Ranking at Airbnb (Airbnb 2018)

Airbnb的這篇論文是KDD 2018的best paper,在工程領(lǐng)域的影響力很大,也已經(jīng)有很多人對(duì)其進(jìn)行了解讀。簡(jiǎn)單來說,Airbnb對(duì)其用戶和房源進(jìn)行embedding之后,將其應(yīng)用于搜索推薦系統(tǒng),獲得了實(shí)效性和準(zhǔn)確度的較大提升。文中的重點(diǎn)在于embedding方法與業(yè)務(wù)模式的結(jié)合,可以說是一篇應(yīng)用word2vec思想于公司業(yè)務(wù)的典范。

第三部分 Graph Embedding

基于word2vec的一系列embedding方法主要是基于序列進(jìn)行embedding,在當(dāng)前商品、行為、用戶等實(shí)體之間的關(guān)系越來越復(fù)雜化、網(wǎng)絡(luò)化的趨勢(shì)下,原有sequence embedding方法的表達(dá)能力受限,因此Graph Embedding方法的研究和應(yīng)用成為了當(dāng)前的趨勢(shì)。

6. [DeepWalk] DeepWalk- Online Learning of Social Representations (SBU 2014)

以隨機(jī)游走的方式從網(wǎng)絡(luò)中生成序列,進(jìn)而轉(zhuǎn)換成傳統(tǒng)word2vec的方法生成Embedding。這篇論文可以視為Graph Embedding的baseline方法,用極小的代價(jià)完成從word2vec到graph embedding的轉(zhuǎn)換和工程嘗試。

7. [LINE] LINE - Large-scale Information Network Embedding (MSRA 2015)

相比DeepWalk純粹隨機(jī)游走的序列生成方式,LINE可以應(yīng)用于有向圖、無向圖以及邊有權(quán)重的網(wǎng)絡(luò),并通過將一階、二階的鄰近關(guān)系引入目標(biāo)函數(shù),能夠使最終學(xué)出的node embedding的分布更為均衡平滑,避免DeepWalk容易使node embedding聚集的情況發(fā)生。

8. [Node2vec] Node2vec - Scalable Feature Learning for Networks (Stanford 2016)

node2vec這篇文章還是對(duì)DeepWalk隨機(jī)游走方式的改進(jìn)。為了使最終的embedding結(jié)果能夠表達(dá)網(wǎng)絡(luò)局部周邊結(jié)構(gòu)和整體結(jié)構(gòu),其游走方式結(jié)合了深度優(yōu)先搜索和廣度優(yōu)先搜索。

9. [SDNE] Structural Deep Network Embedding (THU 2016)

相比于node2vec對(duì)游走方式的改進(jìn),SDNE模型主要從目標(biāo)函數(shù)的設(shè)計(jì)上解決embedding網(wǎng)絡(luò)的局部結(jié)構(gòu)和全局結(jié)構(gòu)的問題。而相比LINE分開學(xué)習(xí)局部結(jié)構(gòu)和全局結(jié)構(gòu)的做法,SDNE一次性的進(jìn)行了整體的優(yōu)化,更有利于獲取整體最優(yōu)的embedding。

10. [Alibaba Embedding] Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba (Alibaba 2018)

阿里巴巴在KDD 2018上發(fā)表的這篇論文是對(duì)Graph Embedding非常成功的應(yīng)用。從中可以非常明顯的看出從一個(gè)原型模型出發(fā),在實(shí)踐中逐漸改造,最終實(shí)現(xiàn)其工程目標(biāo)的過程。這個(gè)原型模型就是上面提到的DeepWalk,阿里通過引入side information解決embedding問題非常棘手的冷啟動(dòng)問題,并針對(duì)不同side information進(jìn)行了進(jìn)一步的改造形成了最終的解決方案EGES(Enhanced Graph Embedding with Side Information)。

注:由于上面十篇論文都是我之前整理的paper list里面的內(nèi)容,所以沒有再引用原文鏈接,希望大家見諒。想偷懶的同學(xué)也可以直接fork我的github paper list:wzhe06/Reco-papers

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多