提到社交網(wǎng)絡(luò)分析,推薦系統(tǒng)、風(fēng)控模型這些名詞,相信你并不陌生,社交網(wǎng)絡(luò)分析無非是 Pandas+Matplotlib,推薦系統(tǒng)大概率是余弦相似性、協(xié)同過濾,風(fēng)控則被 LR(邏輯回歸)、XGBoost 這些成熟的模型占據(jù)。 但也許你不知道的是,看似相去甚遠(yuǎn)的社交網(wǎng)絡(luò)分析、推薦系統(tǒng)、金融風(fēng)險預(yù)測,都可以用網(wǎng)絡(luò)挖掘的思想來實現(xiàn)。網(wǎng)絡(luò)挖掘還可以應(yīng)用到其他的領(lǐng)域,比如搜索引擎、知識圖譜、城市計算等。 什么是網(wǎng)絡(luò)挖掘 其實與一般意義上的數(shù)據(jù)挖掘/數(shù)據(jù)分析殊途同歸,都是通過挖掘/分析方法,獲取數(shù)據(jù)中的包含的信息和知識。 不同的是,一般意義的數(shù)據(jù)挖掘是通過算法模型(比如常用的回歸、分類、聚類模型)進(jìn)行描述/預(yù)測,網(wǎng)絡(luò)挖掘則給出了新的解決方式。 通過將數(shù)據(jù)/問題抽象為網(wǎng)絡(luò)模型,來幫助我們更好地進(jìn)行數(shù)據(jù)分析/數(shù)據(jù)挖掘。 為什么要抽象為網(wǎng)絡(luò)模型?比如我們在一個社交網(wǎng)絡(luò)中,通常我們怎么去尋找最具傳播力的大V,一般來說無非把各個用戶的粉絲數(shù)排個序。 而網(wǎng)挖掘的思路不太一樣,我們可以通過構(gòu)建用戶相互關(guān)注的網(wǎng)絡(luò)模型來尋找出大V,這里我們關(guān)注的是在信息傳播中真正的影響力(很多時候,粉絲最多的,并不一定是最具傳播力的)。 除此之外,我們還可以看到網(wǎng)絡(luò)中不同的組群(比如不同愛好的群體)、分布的密度等等,這可以從宏觀上去幫助我們分析整個數(shù)據(jù)樣本中的關(guān)系。 基于社交網(wǎng)絡(luò)的組群發(fā)現(xiàn) 可以說網(wǎng)絡(luò)挖掘在基本的描述性統(tǒng)計方面又更進(jìn)了一步,從關(guān)鍵節(jié)點(diǎn)的識別到組群發(fā)現(xiàn),從某種程度上,可以發(fā)現(xiàn)很多我們做一般的描述性分析所得不到的深刻洞見。 網(wǎng)絡(luò)模型如何實現(xiàn) 網(wǎng)絡(luò)挖掘無非是把問題抽象為網(wǎng)絡(luò)的模型來進(jìn)行分析,所以對于網(wǎng)絡(luò)建模來說,我們主要是要去了解節(jié)點(diǎn)和連邊。而對于節(jié)點(diǎn)的重要性,中心性則是關(guān)鍵的指標(biāo);對于節(jié)點(diǎn)間的關(guān)系,傳遞性和相似度有著重要的意義。 以及網(wǎng)絡(luò)相似衡量指標(biāo):節(jié)點(diǎn)度數(shù)分布、聚類系數(shù)、平均路徑長度等等。 網(wǎng)絡(luò)的節(jié)點(diǎn)和連邊 當(dāng)然更重要的是,在面對真實的問題或者數(shù)據(jù)的時候,如何將實際的問題抽象為網(wǎng)絡(luò)模型,我們也稱為問題形式化。 比如對于不同的領(lǐng)域,我們通??梢詷?gòu)建這樣的一些網(wǎng)絡(luò)。 比如我們有這樣一份數(shù)據(jù)(Stack Overflow 的用戶技能數(shù)據(jù)),用技能間的連線的值表示技能之間的相關(guān)性權(quán)重。 根據(jù)技能之間的關(guān)系,我們就可以構(gòu)建如下網(wǎng)絡(luò)模型,你看著這個網(wǎng)絡(luò)很嚇人,其實用networkx(Python庫)來構(gòu)建,也就是幾行代碼的事情。 通過這個網(wǎng)絡(luò)模型我們就可以發(fā)現(xiàn)很多有意思的事情,比如蘋果系的開發(fā)技能(ios/mac)是聚在一塊,windows 系開發(fā)聚在一塊,網(wǎng)頁開發(fā)也是如此,這就是不同的社區(qū)。如果跟這些社區(qū)都有鏈接的,一定是一些相對通用的技能,比如 Linux、Git、Python 等。 當(dāng)然,這只是網(wǎng)絡(luò)模型探索的開始,后續(xù)還有很多有意思的問題(幫助我們發(fā)現(xiàn)更多知識,應(yīng)用到不同的業(yè)務(wù)模型中):
網(wǎng)絡(luò)挖掘的應(yīng)用 網(wǎng)絡(luò)挖掘在用戶畫像、商品推薦、金融風(fēng)險評估、城市交通優(yōu)化、流言信息傳播等方面有著廣泛的應(yīng)用。很多業(yè)務(wù)用一般的數(shù)據(jù)挖掘方法效果不佳的,加入網(wǎng)絡(luò)模型之后,卻能大幅提升??梢哉f網(wǎng)絡(luò)挖掘的應(yīng)用舞臺無限寬廣…… 網(wǎng)頁排序 比如谷歌的 PageRank,本身也是在構(gòu)建龐大的網(wǎng)頁網(wǎng)絡(luò)模型的基礎(chǔ)上(網(wǎng)頁為節(jié)點(diǎn),超鏈為邊),通過計算不同網(wǎng)頁的中心度(權(quán)重),來對網(wǎng)頁進(jìn)行排序,從而實現(xiàn)更加精準(zhǔn)的搜索和推薦。 社交網(wǎng)絡(luò)分析 社交網(wǎng)絡(luò)天然適合構(gòu)建網(wǎng)絡(luò)模型進(jìn)行分析,比如信息的傳播預(yù)測、影響力分析、社交組群發(fā)現(xiàn)、好友推薦、用戶畫像等等,單獨(dú)拿出來看個體,和其他的個體拿出來看,發(fā)現(xiàn)一些不一樣的東西。從某種程度說,社交網(wǎng)絡(luò)分析是建立在網(wǎng)絡(luò)模型分析的基礎(chǔ)之上。 推薦系統(tǒng) 傳統(tǒng)的協(xié)同過濾算法的基本思想是,將與目標(biāo)用戶選擇相似性度較高的用戶喜歡的商品,推薦給目標(biāo)用戶。而網(wǎng)絡(luò)模型的加入(比如好友網(wǎng)絡(luò)、商品網(wǎng)絡(luò)),怎么可以很大程度上解決多樣性問題、冷啟動問題、社會推薦問題,從而提升某些場景下的推薦精度。 知識圖譜 網(wǎng)絡(luò)挖掘在知識圖譜中也發(fā)揮著重要的作用,比如遍歷與路徑探尋、關(guān)鍵節(jié)點(diǎn)挖掘等。PatientsLikeMe.com 將病人、病癥、醫(yī)院、醫(yī)生、藥品等等醫(yī)療數(shù)據(jù)組織成知識圖譜。在圖譜上,醫(yī)生可以搜索家族病史網(wǎng)絡(luò),查詢相似病例及解決方案;病人可以搜索疾病相關(guān)的病癥、藥品、醫(yī)生、相似病例等。 所以,網(wǎng)絡(luò)挖掘其實是強(qiáng)化了數(shù)據(jù)分析/挖掘的技能,以一種全新的視角,探索更為全面、宏觀的網(wǎng)絡(luò)知識,以及個體之間的關(guān)系。 |
|