通過(guò)兩周前的文章“美林?jǐn)?shù)據(jù): 數(shù)據(jù)挖掘方法論—企業(yè)數(shù)據(jù)挖掘成功之道(方法篇)| 會(huì)員專欄”大家應(yīng)該已經(jīng)對(duì)“數(shù)據(jù)挖掘”有了一個(gè)更清晰全面的認(rèn)識(shí)。哪些在具體業(yè)務(wù)中,如何有效應(yīng)用,快速落地一個(gè)項(xiàng)目應(yīng)用實(shí)踐呢?今天我們將以一個(gè)行業(yè)實(shí)際案例為主,依據(jù)“數(shù)據(jù)挖掘方法論”“詳細(xì)可參閱歷史推文《數(shù)據(jù)挖掘方法論》”為大家詳細(xì)解析,如何快速完成一個(gè)項(xiàng)目應(yīng)用實(shí)踐,通過(guò)數(shù)據(jù)挖掘技術(shù)和方法,獲取業(yè)務(wù)應(yīng)用價(jià)值。 數(shù)據(jù)挖掘方法論為開(kāi)展數(shù)據(jù)挖掘項(xiàng)目提供了一套完整的、高效的、質(zhì)量可控的項(xiàng)目管理過(guò)程。CRISP-DM方法論將一個(gè)數(shù)據(jù)挖掘項(xiàng)目的生命周期分為六個(gè)階段,其中包括業(yè)務(wù)理解(businessunderstanding),數(shù)據(jù)理解 (data understanding),數(shù)據(jù)準(zhǔn)備(data preparation),建立模型(modeling),評(píng)估模型(evaluation)和結(jié)果部署(deployment)。 那么,在一個(gè)實(shí)際的數(shù)據(jù)挖掘工作中,如何落地實(shí)踐這套挖掘方法論呢?下面我們將以“公募基金精準(zhǔn)營(yíng)銷”為例,詳細(xì)介紹數(shù)據(jù)挖掘項(xiàng)目開(kāi)展流程和步驟【建模工具采用:TempoAI完成】。 階段一:業(yè)務(wù)理解(businessunderstanding)業(yè)務(wù)背景:券商發(fā)行的公募基金產(chǎn)品,傳統(tǒng)的營(yíng)銷方式為外呼人員電話營(yíng)銷。傳統(tǒng)電話營(yíng)銷方式存在的問(wèn)題主要有兩點(diǎn):
涉及部門:信息技術(shù)部、營(yíng)銷部、客服部(外呼中心) 業(yè)務(wù)目標(biāo):提升意向成功率,優(yōu)化外呼營(yíng)銷策略,切實(shí)增加意向成功用戶數(shù),提高投入產(chǎn)出率。 分析方案:
分析成果驗(yàn)證:將分析產(chǎn)生的預(yù)測(cè)會(huì)夠買的人員名單,提供給外呼中心,進(jìn)行外呼推薦公募基金產(chǎn)品,最終將推薦名單外呼和傳統(tǒng)的外呼效果進(jìn)行比對(duì),對(duì)比外呼成功率,從而判斷分析成果是否顯著。 收集的數(shù)據(jù)表信息包括:
針對(duì)收集到的數(shù)據(jù)信息,進(jìn)行數(shù)據(jù)理解: 用戶特征探索:待營(yíng)銷用戶群體的分布形態(tài),營(yíng)業(yè)部分布,性別分布,風(fēng)險(xiǎn)等級(jí)分布及業(yè)務(wù)開(kāi)通情況。 數(shù)據(jù)準(zhǔn)備工作包括為建模工作準(zhǔn)備數(shù)據(jù)的選擇、轉(zhuǎn)換、清洗、構(gòu)造、整合及格式化等多種數(shù)據(jù)預(yù)處理工作。這里主要進(jìn)行了數(shù)據(jù)指標(biāo)體系設(shè)計(jì)、建模所需字段的生成、缺失值處理等。 TempoAI數(shù)據(jù)處理: 基于用戶基本信息如風(fēng)險(xiǎn)等級(jí)、開(kāi)戶年限、年齡等,資產(chǎn)信息如總資產(chǎn)、近一年最大資產(chǎn)、近半年日均資產(chǎn)等,產(chǎn)品交易信息如股票交易次數(shù)、近兩年最后買公墓基金天數(shù)、近半年理財(cái)持有比例,構(gòu)建用戶公募基金潛客預(yù)測(cè)模型,基于該模型,可以預(yù)測(cè)高概率購(gòu)買公募基金的潛在客戶,為券商提供精準(zhǔn)營(yíng)銷客戶名單。在TempoAI中構(gòu)建的建模流程如下: 建模步驟說(shuō)明: 1、讀取數(shù)據(jù) 拖入關(guān)系數(shù)據(jù)庫(kù)輸入節(jié)點(diǎn),選擇數(shù)據(jù)源,選擇購(gòu)買公募基金用戶的歷史數(shù)據(jù)集,完成數(shù)據(jù)讀取。 2、設(shè)置角色 在設(shè)置角色節(jié)點(diǎn),選擇參與模型訓(xùn)練的變量設(shè)置自變量(影響因素)和因變量(預(yù)測(cè)變量)。 自變量為:用戶基本信息/資產(chǎn)信息及產(chǎn)品交易信息等字段; 因變量為:flag(是否購(gòu)買公募基金,1代表購(gòu)買,0代表不夠買)。 3、數(shù)據(jù)拆分 為了保證模型的可靠性,我們一般將原始數(shù)據(jù)集拆分成兩個(gè)或三個(gè)數(shù)據(jù)集,這里我們拆分為兩部分:一部分用于訓(xùn)練模型,另外一部分用于測(cè)試模型的泛化能力(預(yù)測(cè)能力)。如下圖所示,70%的數(shù)據(jù)作為訓(xùn)練集 30%的數(shù)據(jù)作為測(cè)試集。 4、梯度提升決策樹(shù) 選擇一個(gè)分類算法,構(gòu)建分類模型,這里我們選擇梯度提升決策樹(shù)算法,將數(shù)據(jù)拆分后的訓(xùn)練集接入算法,參數(shù)設(shè)置如下: 5、訓(xùn)練集分類評(píng)估 將算法的M端口和D端口連接一個(gè)分類評(píng)估節(jié)點(diǎn),評(píng)估訓(xùn)練集的預(yù)測(cè)效果。分類評(píng)估節(jié)點(diǎn)參數(shù)設(shè)置如下: 6、模型利用 將算法輸出的M端口連接模型利用節(jié)點(diǎn),同時(shí)將數(shù)據(jù)拆分后的測(cè)試集D端口接入模型利用,這里將利用梯度提升決策樹(shù)產(chǎn)生的模型對(duì)測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè)。 7、測(cè)試集分類評(píng)估 將模型利用輸出的M端口和D端口連接一個(gè)分類評(píng)估節(jié)點(diǎn),評(píng)估測(cè)試集的預(yù)測(cè)效果。 8、模型輸出 將訓(xùn)練好的模型輸出到模型庫(kù)。 9、連接END端點(diǎn) 完成流程構(gòu)建,點(diǎn)擊執(zhí)行。 評(píng)估模型,指在此階段,需要從技術(shù)層面判斷模型效果以及從業(yè)務(wù)層面判斷模型在實(shí)際商業(yè)環(huán)境當(dāng)中的實(shí)用性。 流程執(zhí)行成功后,可在洞察頁(yè)面,查看流程執(zhí)行的結(jié)果: 這里我們主要看分類模型評(píng)估結(jié)果及分類模型預(yù)測(cè)結(jié)果。
下圖為模型內(nèi)容:決策樹(shù)及層級(jí)說(shuō)明信息 下圖為預(yù)測(cè)結(jié)果數(shù)據(jù)集信息:可從業(yè)務(wù)角度評(píng)估預(yù)測(cè)結(jié)果的合理性。
訓(xùn)練集評(píng)估結(jié)果:包括模型的準(zhǔn)確率、混淆矩陣、ROC/PR、Lift曲線、Gains曲線、基尼系數(shù) 、K-S曲線。綜合各評(píng)估指標(biāo)及曲線,模型評(píng)估效果較好。 ![]() 測(cè)試集評(píng)估結(jié)果:如下圖 ![]() 經(jīng)過(guò)模型訓(xùn)練和模型測(cè)試,得到了比較理想的預(yù)測(cè)模型。需要將模型的成果書面化,結(jié)合前幾個(gè)階段進(jìn)行總結(jié),形成數(shù)據(jù)“分析報(bào)告”。如果涉及到工程化應(yīng)用,還需要將模型發(fā)布成不同方式(調(diào)度、同步/異步服務(wù)API、實(shí)時(shí)服務(wù)等),供其它業(yè)務(wù)系統(tǒng)進(jìn)行整合,形成最終的決策應(yīng)用系統(tǒng),需要“部署應(yīng)用”。 分析報(bào)告 TempoAI洞察頁(yè)面,支持直接導(dǎo)出Word格式的完整挖掘流程建模分析報(bào)告。如下圖所示: ![]() 部署應(yīng)用 構(gòu)建一個(gè)預(yù)測(cè)流程,利用訓(xùn)練好的模型,然后把預(yù)測(cè)流程發(fā)布,并部署為應(yīng)用。 (1)構(gòu)建預(yù)測(cè)流程 將要預(yù)測(cè)的數(shù)據(jù)作為數(shù)據(jù)源,讀取并利用已輸出的分類預(yù)測(cè)模型,構(gòu)建預(yù)測(cè)流程。如下所示: ![]() (2)發(fā)布預(yù)測(cè)流程 進(jìn)入“部署”“-“發(fā)布”,將預(yù)測(cè)流程發(fā)布。 (3)構(gòu)建調(diào)度 在“部署”-“應(yīng)用”,將已發(fā)布的預(yù)測(cè)流程構(gòu)建調(diào)度任務(wù)。平臺(tái)提供任務(wù)調(diào)度器,可配置調(diào)度任務(wù),將的一個(gè)或多個(gè)流程在指定的日期范圍內(nèi)按一定的頻率定期執(zhí)行,完成預(yù)測(cè)任務(wù)。如下所示: ![]() (4)構(gòu)建服務(wù) 在“部署”-“應(yīng)用”,用戶可將已發(fā)布流程構(gòu)建一個(gè)服務(wù),根據(jù)流程數(shù)據(jù)源的不同,分為同步服務(wù)、異步服務(wù)和流服務(wù)。同步服務(wù):支持第三方系統(tǒng)通過(guò)Thrift/Rest調(diào)用流程,實(shí)時(shí)返回預(yù)測(cè)結(jié)果。異步服務(wù):支持第三方系統(tǒng)通過(guò)Rest調(diào)用流程,按照指定頻率定期執(zhí)行,完成模型構(gòu)建或數(shù)據(jù)預(yù)測(cè),預(yù)測(cè)結(jié)果輸入到指定數(shù)據(jù)庫(kù)。流服務(wù):開(kāi)啟服務(wù),當(dāng)Kafka的隊(duì)列中有消息時(shí),即可執(zhí)行流程,完成對(duì)于流式數(shù)據(jù)的實(shí)時(shí)處理。 (5)服務(wù)調(diào)用 第三方系統(tǒng)可調(diào)用相應(yīng)的API,通過(guò)在第三方系統(tǒng)輸入?yún)?shù),調(diào)用服務(wù),并返回服務(wù)的執(zhí)行狀態(tài)。 調(diào)用方式:打開(kāi)該服務(wù)的測(cè)試頁(yè)面,“下載示例代碼”、“下載SDK”。將下載的示例代碼文件中的代碼段復(fù)制粘貼,即可通過(guò)運(yùn)行代碼調(diào)用該異步服務(wù)。調(diào)用接口可供營(yíng)銷業(yè)務(wù)系統(tǒng)進(jìn)行整合,形成最終的決策應(yīng)用系統(tǒng),給營(yíng)銷外呼中心提供營(yíng)銷名單,指導(dǎo)實(shí)際業(yè)務(wù)的開(kāi)展。 (6)部署結(jié)果驗(yàn)證 將預(yù)測(cè)分析產(chǎn)生的預(yù)測(cè)購(gòu)買人員名單,提供給外呼中心,進(jìn)行外呼推薦公募基金產(chǎn)品,最終將推薦名單外呼和傳統(tǒng)的外呼效果進(jìn)行比對(duì),對(duì)比結(jié)果如下:推薦外呼11天,撥打5877通電話(占傳統(tǒng)外呼36.01%),得到意向客戶數(shù)1664個(gè),是傳統(tǒng)外呼開(kāi)展32天的整體意向客戶數(shù)的1.08倍。結(jié)合營(yíng)銷活動(dòng)的成本和成果兩個(gè)方面考慮,綜合效果提升3.14倍。 ![]() 【會(huì)員企業(yè)】美林?jǐn)?shù)據(jù) 美林?jǐn)?shù)據(jù)技術(shù)股份有限公司(簡(jiǎn)稱:美林?jǐn)?shù)據(jù),NEEQ:831546)是國(guó)內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商,重點(diǎn)面向企業(yè)客戶提供數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)開(kāi)發(fā)應(yīng)用為主的大數(shù)據(jù)產(chǎn)品及增值解決方案,引領(lǐng)大數(shù)據(jù)應(yīng)用和產(chǎn)業(yè)數(shù)據(jù)運(yùn)營(yíng)等創(chuàng)新服務(wù)模式。 公司專注數(shù)據(jù)價(jià)值發(fā)掘、深耕行業(yè)應(yīng)用,以大數(shù)據(jù)、人工智能技術(shù)及產(chǎn)品創(chuàng)新應(yīng)用為方向,構(gòu)建企業(yè)核心競(jìng)爭(zhēng)力。公司現(xiàn)已形成數(shù)據(jù)資源管理平臺(tái)(TempoDM)、數(shù)據(jù)可視化平臺(tái)(TempoBI)、人工智能平臺(tái)(TempoAI)系列大數(shù)據(jù)管理與分析應(yīng)用系列產(chǎn)品,為企業(yè)級(jí)用戶提供一體化、一站式大數(shù)據(jù)服務(wù)。依托領(lǐng)先的產(chǎn)品和技術(shù)優(yōu)勢(shì),美林?jǐn)?shù)據(jù)聚焦智能制造、智慧能源兩大核心領(lǐng)域,同時(shí)拓展智慧軍工、汽車裝配、家電制造、智慧水務(wù)、智慧金融等細(xì)分領(lǐng)域,致力于打造企業(yè)級(jí)大數(shù)據(jù)應(yīng)用樣板,以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)、探索行業(yè)數(shù)據(jù)運(yùn)營(yíng)新模式。 會(huì)員專欄 會(huì)員專欄是針對(duì)會(huì)員企業(yè)的高質(zhì)量原創(chuàng)內(nèi)容與精彩觀點(diǎn)的分享欄目,為會(huì)員企業(yè)提供深度思考、創(chuàng)新理念、案例經(jīng)驗(yàn)、專業(yè)成就等內(nèi)容分享的平臺(tái),旨在擴(kuò)大會(huì)員企業(yè)先進(jìn)思想的影響,傳播AI大數(shù)據(jù)的正確理念,促進(jìn)AI大數(shù)據(jù)落地應(yīng)用,助力傳統(tǒng)產(chǎn)業(yè)智能化轉(zhuǎn)型升級(jí)。 投稿郵箱:contact@tsingdata.com |
|