日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

數(shù)據(jù)風控的探索實踐:機器學(xué)習(xí)識別欺詐

 拓端數(shù)據(jù) 2020-03-18

在信息爆炸時代,“信用”已成為越來越重要的無形財產(chǎn)。 ”數(shù)據(jù)風控“的實際意義是用DT(Data Technology)識別欺詐,將欺詐防患于未然,然后凈化信用體系。

挑戰(zhàn)

信貸風險和欺詐風險是消費金融業(yè)務(wù)發(fā)展中最重要的兩種風險,信息不對稱是導(dǎo)致這些風險的主要原因。
數(shù)據(jù)防欺詐”是數(shù)據(jù)風控武器之一。這種武器的力量的重要保證是數(shù)據(jù)和信息收集的完整性和準確性。通過這些有價值的數(shù)據(jù),找到欺詐者留下的線索,以防止發(fā)生欺詐。

實施過程

用戶立體化呈現(xiàn)——多維數(shù)據(jù)采集

tecdat深入分析用戶的基本屬性、社會屬性、消費者行為、興趣偏好、社會偏好、資產(chǎn)特征、信用特征等數(shù)據(jù),通過數(shù)據(jù)挖掘,使用戶更加立體化地實時呈現(xiàn)。

挖掘潛在的團伙欺詐——社區(qū)發(fā)現(xiàn)算法    

一方面,基于機構(gòu)的存量數(shù)據(jù),運營商等數(shù)據(jù)構(gòu)建復(fù)雜的網(wǎng)絡(luò)。 同時,采用社區(qū)挖掘算法實現(xiàn)風險分組。 在此基礎(chǔ)上,我們訓(xùn)練機器學(xué)習(xí)模型。

建模的原材料——特征工程

建模的第一步是特征工程,眾所周知,特征是機器學(xué)習(xí)建模的原材料,對最終模型的影響至關(guān)重要。數(shù)據(jù)和特征比模型更重要,數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法逼近這個上限。特征加工和衍生工作越完備,那么構(gòu)建的機器學(xué)習(xí)模型效果越好。但是,面對不同數(shù)據(jù),不同業(yè)務(wù)場景,特征加工衍生往往是最耗時間與資源的工作。

尤其在弱數(shù)據(jù)方面,充斥著大量文本、時序類數(shù)據(jù),人工特征定義的方法天然存在較大局限性。

tecdat引入基于機器學(xué)習(xí)的特征提取框架(如 random forest,SVM,CNN)來適應(yīng)不同的數(shù)據(jù)類型,自動從大量復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)中產(chǎn)生高質(zhì)量的特征,完成模型訓(xùn)練后可以輸出特征的重要性,結(jié)合多種方法進行特征選擇和解釋。

和而不同——集成模型

具體的模型,我們知道在弱勢數(shù)據(jù)的基礎(chǔ)上加工和衍生的特點,機構(gòu)往往面臨很多特征維度,從數(shù)千到數(shù)萬以上,非常稀疏。 超出了傳統(tǒng)風控的基于評分卡系統(tǒng)的建模能力。

tecdat引入集成模型(ensemble models)來解決這個問題。 集成模型從“投票”的思想簡單的理解,也就是我們對不同類型的數(shù)據(jù)使用最合適的子模型(Logistic回歸,GBDT,CNN,xgboost), 然后每個子模式投票作出決策。

能夠使整體模型的準確度和防止過擬合的能力達到協(xié)調(diào),從而達到在總體上的最佳準確度。

復(fù)雜的集成模式框架除了當前場景和業(yè)務(wù)建模具有很好的表現(xiàn),其另一個重要價值在于可以快速應(yīng)用于新業(yè)務(wù)應(yīng)用,對冷啟動階段有非常重要的作用。

結(jié)果/效果總結(jié)

最后,在線上信用貸場景實踐下來,經(jīng)過多批次多個跨時間段的驗證,可以看到,效果上還是有非常直接的提升,模型性能相比傳統(tǒng)模型提升了大約30%。

版權(quán)聲明:為拓端數(shù)據(jù)原創(chuàng)文章,未經(jīng)允許不得轉(zhuǎn)載!

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多