3月28日,恒生電子首席架構(gòu)師、數(shù)據(jù)中臺發(fā)展部經(jīng)理、恒生研究院首席技術(shù)專家章樂焱在雷鋒網(wǎng) 公開課上,以「智慧金融的新基礎(chǔ)設(shè)施」為題,深度剖析數(shù)據(jù)中臺在金融領(lǐng)域的應(yīng)用與實踐。 章樂焱把金融機構(gòu)的數(shù)據(jù)分為兩處,一邊是各種各樣的業(yè)務(wù)系統(tǒng)歸攏出來的業(yè)務(wù)數(shù)據(jù)中心,也就是數(shù)據(jù)倉庫(數(shù)倉);另一邊是有著大量外部數(shù)據(jù)的資訊數(shù)據(jù)中心,業(yè)務(wù)系統(tǒng)的關(guān)鍵小數(shù)據(jù)就是疊加了大量來自外部的資訊類的大數(shù)據(jù)——數(shù)據(jù)中臺的作用,就是將兩大中心串聯(lián)起來,建立相應(yīng)的數(shù)據(jù)標準,讓這些數(shù)據(jù)產(chǎn)生價值,再回饋到業(yè)務(wù)場景中去。 結(jié)合恒生電子的建設(shè)經(jīng)驗和最新的技術(shù)趨勢,章樂焱不僅解釋了金融機構(gòu)數(shù)據(jù)中臺的構(gòu)建之必要,還給出了頗為詳細的中臺構(gòu)建步驟。 以下為章樂焱分享內(nèi)容節(jié)選,雷鋒網(wǎng)AI金融評論做了不改變原意的編輯。 數(shù)據(jù)中臺這個概念最近確實很火,特別是過去的一年。2018年年底,恒生電子就成立了數(shù)據(jù)中臺發(fā)展部,專門幫助金融機構(gòu)搭建數(shù)據(jù)中臺??赡芎闵浵伣鸱幸欢ǖ年P(guān)系,我們一直也在討論大中臺這樣的概念。 在整個金融行業(yè)里面,大家有一個普遍的說法,認為拉長來看,最近的一兩百年,技術(shù)對金融行業(yè)的影響還是很明顯的,包括工業(yè)革命、信息技術(shù)的升級。 拉近到最近的幾十年,可以明顯地看到整個金融行業(yè)數(shù)字化、網(wǎng)絡(luò)化、智能化“三浪疊加”的態(tài)勢。特別是智能化的基礎(chǔ)其實就是數(shù)據(jù)。因為金融行業(yè)本身就有大量的數(shù)據(jù),加上互聯(lián)網(wǎng)技術(shù)的疊加之后,產(chǎn)生了更多的數(shù)據(jù),有助于我們構(gòu)建相應(yīng)的智能化應(yīng)用。 中國持牌的金融機構(gòu),包括證券、期貨、基金、銀行、保險、信托,再加上交易所,也就是我們所說的整個行業(yè)的基礎(chǔ)設(shè)施,包括登記結(jié)算公司、滬深交易所、期貨交易所等等。恒生電子20多年來就一直圍繞著金融行業(yè)在做相應(yīng)的IT建設(shè)。 以恒生電子一直關(guān)注的財富資管領(lǐng)域為例。證券公司、基金公司提供金融產(chǎn)品、銷售金融產(chǎn)品,就是經(jīng)常說的財富管理;資金募集起來之后,金融機構(gòu)如何去做投資,就涉及到資產(chǎn)管理。 細分來看,這兩個行業(yè)需要以數(shù)據(jù)為本,來實現(xiàn)相應(yīng)的業(yè)務(wù)驅(qū)動,包括投資研究、風險管理、客戶服務(wù)、運營管理等等,都是和數(shù)據(jù)有關(guān)系的。我們看到的變化是也從傳統(tǒng)的做法向數(shù)字化轉(zhuǎn)變。 例如投資研究里面,需要引用大數(shù)據(jù),實現(xiàn)智能投研??蛻糇R別方面,持牌的金融機構(gòu)有KYC要求,需要對客戶的適當性進行相應(yīng)的清晰判斷,否則需要承擔相應(yīng)的法律責任。 比如在參與金融活動的時候,你可能是個投資者,也可能是個金融消費者,作為金融消費者的話就要受到消費者權(quán)益保護的相應(yīng)的法律法規(guī)的制約,所以金融機構(gòu)怎么來理解你的客戶,也會有很多數(shù)字化上的要求。 從整個行業(yè)來看,數(shù)據(jù)上的智能化應(yīng)用對整個行業(yè)的影響越來越大。 數(shù)據(jù)中臺在金融機構(gòu)里的「角色分析」金融機構(gòu)的數(shù)據(jù),可以分為兩塊,一塊就是各種各樣的業(yè)務(wù)系統(tǒng)歸攏出來的業(yè)務(wù)數(shù)據(jù)中心,一般傳統(tǒng)領(lǐng)域我們就叫數(shù)據(jù)倉庫(數(shù)倉)。從上個世紀開始,大家都在做數(shù)據(jù)倉庫的一些建設(shè),到了現(xiàn)在,隨著技術(shù)的發(fā)展,數(shù)倉其實也有很多相應(yīng)的變化。 還有一塊就是資訊數(shù)據(jù)中心,這里的數(shù)據(jù)大量來自外部,業(yè)務(wù)系統(tǒng)的關(guān)鍵小數(shù)據(jù)疊加了大量來自外部的資訊類的大數(shù)據(jù)。 金融機構(gòu)要建立數(shù)據(jù)中臺的話,需要同時關(guān)注業(yè)務(wù)數(shù)據(jù)中心和資訊數(shù)據(jù)中心。這兩方面的數(shù)據(jù)當然不可能是割裂的,我們觀察到,這兩方面的數(shù)據(jù)會通過機構(gòu)、人、產(chǎn)品,緊緊地聯(lián)系在一起。我們從經(jīng)營管理、財富管理業(yè)務(wù)、風險管理業(yè)務(wù)、資產(chǎn)管理業(yè)務(wù)、機構(gòu)服務(wù)業(yè)務(wù)、經(jīng)紀業(yè)務(wù)等這些金融機構(gòu)的各個業(yè)務(wù)系統(tǒng)中,把數(shù)據(jù)抽取出來,建立相應(yīng)的標準。 這些數(shù)據(jù)產(chǎn)生價值,需要回饋到業(yè)務(wù)場景中去。 比如說做數(shù)倉有很多BI分析人員,分析公司的經(jīng)營情況、各項業(yè)務(wù)的趨勢;金融機構(gòu)有很多金融工程包括行業(yè)研究的人員,需要去挖掘各種投資機會,控制相應(yīng)的投資風險。 作為數(shù)據(jù)中臺能提供哪些服務(wù)賦能到各個業(yè)務(wù)場景,這也是數(shù)據(jù)中臺去做實施建設(shè)的時候需要去回答的。
在業(yè)務(wù)數(shù)據(jù)中心和資訊數(shù)據(jù)中心之間有個關(guān)聯(lián),最重要的就兩塊,我們叫兩個畫像,一個叫做用戶畫像,一個叫企業(yè)畫像。 金融機構(gòu)都是服務(wù)行業(yè),服務(wù)行業(yè)就是服務(wù)于你的客戶。如何刻畫客戶?特別是做財富管理這個領(lǐng)域就很重要,需要從各個渠道包括外部拿到相應(yīng)的數(shù)據(jù)來刻畫客戶,這叫用戶畫像。 募集資金之后,你投資的標的都是跟一些企業(yè)有關(guān)系,核心的就是圍繞著投資標的企業(yè),所以對這個標的企業(yè)怎么刻畫也很重要,比如財務(wù)數(shù)據(jù)分析、公告/研報/公文分析、關(guān)聯(lián)金融產(chǎn)品分析、企業(yè)圖譜-股權(quán)風險分析、產(chǎn)業(yè)圖譜-產(chǎn)業(yè)風險分析、新聞輿情分析等等。 這里以企業(yè)畫像為例。隨著技術(shù)的進步,我們發(fā)現(xiàn)要分析一家企業(yè),有越來越多的新手段,比如分析的不只是一家企業(yè),而會去建立所謂的企業(yè)圖譜、股權(quán)關(guān)系,對整個產(chǎn)業(yè)鏈上下游關(guān)系進行分析。 在構(gòu)建知識圖譜的時候,會有很多外部的信息是文本信息,不像財務(wù)報表可以很容易結(jié)構(gòu)化。在處理大量的外部文本資訊信息的時候,就要用到自然語言處理相應(yīng)的技術(shù),才能把核心的關(guān)鍵的內(nèi)容提取出來。 當然,投資的時候,投資者比較喜歡聽小道消息,所以新聞輿情大家也會很關(guān)注,包括專業(yè)性的分析、高管事件、生產(chǎn)安全事故、專業(yè)人員對行業(yè)事件的解讀等等。新聞輿情同樣是大家關(guān)注的領(lǐng)域,傳導(dǎo)過來會影響到整個企業(yè)。 阿里在說數(shù)據(jù)中臺的時候經(jīng)常說一個概念叫One ID,在傳統(tǒng)金融機構(gòu)里面,如果你的數(shù)據(jù)只是來自內(nèi)部業(yè)務(wù)系統(tǒng),One ID 相對是容易實現(xiàn)的;但是如果引入了大量的外部信息,One ID確實是一個很挑戰(zhàn)的事情。 例如恒生電子,如果是股票的話,600570是一個明顯的ID,但是你到新聞資訊里去看,它可能是中文寫的“恒生電子”,可能是全稱,可能是簡稱,包括很多上市公司還有集團公司、股份公司。但是在新聞資訊里講的時候,如何準確識別出來這個信息說的是這家公司,還是它的關(guān)聯(lián)公司? 這時候要進行One ID的處理,確實是一件很有挑戰(zhàn)性的事情,需要通過上下文或者說建立金融大詞林,類似于大的詞典,這樣就能知道恒生電子有哪幾種說法,通過上下文分析知道講的是母公司、股份公司還是子公司。 構(gòu)建One ID,有時候會用機器去識別,特別是AI 的技術(shù),實際上很多時候最后出來的結(jié)果是一個概率的問題,可能要人工和機器結(jié)合來實現(xiàn)。 金融機構(gòu)做數(shù)據(jù)中臺,要分幾步?一家金融機構(gòu)有很多數(shù)據(jù)資產(chǎn),首先要理清楚有多少數(shù)據(jù)資產(chǎn),只有理清楚了,數(shù)據(jù)才能成為資產(chǎn),基于數(shù)據(jù)才能做一些協(xié)同。 各個業(yè)務(wù)要做協(xié)同,有兩種做法,一是傳統(tǒng)的每個業(yè)務(wù)系統(tǒng)開放接口,就可以互相協(xié)同了。 還有一種,一般來說金融機構(gòu)會有好多開發(fā)商的系統(tǒng),這些開發(fā)商系統(tǒng)的API控制,并不是想要開發(fā)商提供就可以有的。API不行的時候如何進行業(yè)務(wù)協(xié)同呢?其實通過數(shù)據(jù)也是可以做相應(yīng)的協(xié)同的,但這個前提是需要清楚的知道到底有哪些數(shù)據(jù)資產(chǎn)。 內(nèi)部的數(shù)據(jù)資產(chǎn)可能還好理,當你引入大量的外部數(shù)據(jù),所謂的大數(shù)據(jù)很多是大量外部數(shù)據(jù),這些外部數(shù)據(jù)可能還是不同的業(yè)務(wù)部門買進來的——從整個公司的視角來看,有哪些數(shù)據(jù)?這就是要梳理的。
有了那么多數(shù)據(jù)資產(chǎn),如何應(yīng)用?很重要的一點就是要有相應(yīng)的數(shù)據(jù)標準,否則大家對概念的定義、數(shù)據(jù)的統(tǒng)計口徑、指標的定義都不一樣,要實現(xiàn)協(xié)同也是很困難的。 首先把所有的資產(chǎn)通過資產(chǎn)地圖、資產(chǎn)目錄進行管理,通過相應(yīng)的元素進行描述:哪個數(shù)據(jù)?在哪個庫里?誰負責的?跟哪個業(yè)務(wù)系統(tǒng)相關(guān)?所謂的元數(shù)據(jù),要去把它搞清楚,在這個基礎(chǔ)上標準化。 所以其實一般講數(shù)據(jù)中臺,會講到數(shù)據(jù)治理很重要的一塊就是數(shù)據(jù)的標準,包括概念的定義、指標定義如何統(tǒng)一口徑。 金融領(lǐng)域尤其如此。在金融領(lǐng)域有些指標很重要,因為金融機構(gòu)需要承擔相關(guān)的法律責任,一方面是需要向監(jiān)管機構(gòu)報送各種各樣的信息,另一方面需要向公眾披露各種各樣的信息,這兩方面的數(shù)據(jù)的統(tǒng)計口徑需要保持一致,不然就會出現(xiàn)問題。在這背后需要進行相應(yīng)的數(shù)據(jù)標準的制定。 制定數(shù)據(jù)標準跟制定API接口是類似的,一個是穩(wěn)定,一個是最小化原則。
數(shù)據(jù)整理好了、該標準化的數(shù)據(jù)標準化之后,就是為要使用數(shù)據(jù)的部門提供相應(yīng)的數(shù)據(jù)服務(wù),要把數(shù)據(jù)服務(wù)化,畢竟數(shù)據(jù)中臺是培育業(yè)務(wù)創(chuàng)新的土壤,也是利用數(shù)據(jù)促進業(yè)務(wù)創(chuàng)新的保障。實際上在數(shù)據(jù)中臺項目的實施階段,很難定義清楚總共需要提供多少數(shù)據(jù)服務(wù)。 所以在建數(shù)據(jù)中臺的時候,我們希望能夠為金融機構(gòu)構(gòu)建一個相對敏捷、能為下游提供數(shù)據(jù)服務(wù)的平臺。在這其中,工具很重要。 當下游業(yè)務(wù)系統(tǒng)提供取數(shù)需求的時候,如何快速地進行相應(yīng)的實施?原來金融機構(gòu)在做數(shù)倉的時候,下游公司有需求就直接告訴下游公司的表結(jié)構(gòu),讓下游公司直接連上來自己取。 這時候就會發(fā)現(xiàn)很多問題:數(shù)據(jù)中心的表暴露給了多少對象?有多少下游應(yīng)用與你相關(guān)?這其實是很難控制的。如果在中間增加一層所謂的數(shù)據(jù)服務(wù)層,以API的形式、微服務(wù)的形式向下游提供,這時候就可以數(shù)據(jù)應(yīng)用與數(shù)據(jù)中心的進一步解耦,并可以對數(shù)據(jù)的使用對象、使用頻率進行相應(yīng)的控制。 最后,數(shù)據(jù)都整好了,人工智能的應(yīng)用如何來體現(xiàn)?做人工智能有很多專業(yè)的要求,比如機器學習、自然語言處理、知識圖譜等,這些人很專業(yè),但是下面的應(yīng)用部門不可能配備很多類似的專業(yè)人員,這時候中臺部門就要承接這些專業(yè)能力的沉淀作用,要去搭建跟人工智能相關(guān)的團隊、平臺,為下游用數(shù)的部門提供這種專業(yè)服務(wù)。 這樣的數(shù)據(jù)中臺,我們把它叫做新的基礎(chǔ)設(shè)施。 為什么說新的?從上個世紀開始,數(shù)倉我們就已經(jīng)開始建了,現(xiàn)在說的數(shù)據(jù)中臺有更多的數(shù)據(jù)挖掘、數(shù)據(jù)分析的技術(shù)引進,有AI的加工能力。我們現(xiàn)在發(fā)現(xiàn)很多金融機構(gòu)確實有傳統(tǒng)的數(shù)倉技術(shù),當有大量的外部大數(shù)據(jù)進來的時候,整個技術(shù)平臺確實也是需要做相應(yīng)的一些升級。 因為數(shù)據(jù)格式上來講,有大量的文本的非結(jié)構(gòu)化的數(shù)據(jù)進來了,數(shù)據(jù)量也越來越多,所以需要建立起新的基礎(chǔ)設(shè)施。 那么,新的基礎(chǔ)設(shè)施建設(shè)的時候,眼前你會看到什么?確實大家對數(shù)據(jù)治理相應(yīng)的一些基礎(chǔ)工作,數(shù)據(jù)資產(chǎn)怎么梳理、數(shù)據(jù)質(zhì)量怎么保證、數(shù)據(jù)標準如何制定、智能的應(yīng)用……還是比較薄弱的。所以我說給金融機構(gòu)建數(shù)據(jù)中臺的時候,確實有很多眼前的問題要解決。 去年數(shù)據(jù)中臺概念火了之后,很多人都說可以提供數(shù)據(jù)中臺服務(wù),實際上在大部分情況下,提供的是數(shù)據(jù)平臺的一套技術(shù)工具。工具是必要的,但在有了工具之后,很多事情還要人去做。 比如資本市場的各個金融機構(gòu),他們最關(guān)鍵的核心系統(tǒng)就有三四十套,有時候還包括同一類業(yè)務(wù)系統(tǒng)找兩家開發(fā)商來建設(shè),或者同一類業(yè)務(wù)根據(jù)客戶屬性不同建設(shè)不同的系統(tǒng)。 核心業(yè)務(wù)系統(tǒng)的種類很多,多年來的版本也很多。要把數(shù)據(jù)收集起來,就需要核心業(yè)務(wù)系統(tǒng)的對接能力。
此外,數(shù)據(jù)中臺也需要對接各種各樣的資訊廠商。 整個資本市場,外部資訊廠商也有好幾十家,有一些提供的數(shù)據(jù)比較全面,有些是特色的數(shù)據(jù)。除了這些主要的資訊廠商之外,有時候金融機構(gòu)也會根據(jù)自己的特色,采購某些數(shù)據(jù),比如某個行業(yè)網(wǎng)站的數(shù)據(jù)。這些外部的數(shù)據(jù)都要進行相應(yīng)的關(guān)聯(lián)和管理。 而且來自資訊廠商的外部數(shù)據(jù)還有一個很重要的特點,就是它的數(shù)據(jù)結(jié)構(gòu)很不穩(wěn)定,沒有一個統(tǒng)一的行業(yè)標準,企業(yè)需要建立自己的企業(yè)標準,否則來自外部的同類的數(shù)據(jù),可能會出現(xiàn)某個字段名字一樣但內(nèi)涵不一樣的情況。這些數(shù)據(jù)既然不穩(wěn)定,就要建大量的檢驗規(guī)則來保障數(shù)據(jù)的質(zhì)量。 另外,既然建立了數(shù)據(jù)中臺,不用業(yè)務(wù)系統(tǒng)、下游應(yīng)用直接按的指標應(yīng)該有同樣的口徑,需要梳理清楚有多少這樣的公共指標,保證口徑的統(tǒng)一,這也是中臺價值的重要體現(xiàn)。這些內(nèi)容目前來講就是靠人力。 AI很酷,但AI背后也需要大量的人力投入。例如金融機構(gòu)要處理很多的資訊信息,也就是文本的處理。中文文本處理里面一個很重要的問題就是,中文的歧義很嚴重,特別是人民、地名。如何解決?需要建立詞林、相應(yīng)的知識圖譜,通過NLP的技術(shù)進行上下文的判斷,還需要大量的負面樣本。這里面需要很多的人工勞動。
AI領(lǐng)域另一個很重要的就是知識圖譜。比如構(gòu)建企業(yè)鏈,投資的時候要判斷投資標的企業(yè)的風險,還要判斷它的關(guān)聯(lián)企業(yè)。能獲得的工商數(shù)據(jù)可能是幾千萬級別的,加上相應(yīng)的屬性……這些知識圖譜,或者說數(shù)據(jù)圖、數(shù)據(jù)庫的構(gòu)建和應(yīng)用能力,前期也需要人力來進行。RPA最近比較流行,在金融領(lǐng)域除了購買資訊之外也需要一些外面的數(shù)據(jù),就需要通過一些技術(shù)手段對互聯(lián)網(wǎng)數(shù)據(jù)進行處理。 數(shù)據(jù)應(yīng)用領(lǐng)域也很重要,畢竟花了這么多錢搭建起了數(shù)據(jù)中臺,如果不說做完之后數(shù)據(jù)中臺項目能夠支持哪些應(yīng)用,在企業(yè)內(nèi)部立項也會有問題。 在金融機構(gòu),數(shù)據(jù)中臺最主要支撐的應(yīng)用有四塊:經(jīng)營管理、風險管理、營銷管理、投資研究。 經(jīng)營管理,大家很好理解,公司領(lǐng)導(dǎo)要出報表,是不是還要看各項的數(shù)據(jù)?營銷是以客戶為中心,要去服務(wù)相應(yīng)的投資者,營銷管理人員需要大量的數(shù)據(jù)應(yīng)用做支撐。但是對于投資來講,風險也是很重要的,所以風險管理、風險合規(guī)、風險控制各方面也是數(shù)據(jù)強依賴的。投資研究就更加需要大量的外部數(shù)據(jù)了。 所以要建數(shù)據(jù)中臺,很多問題,目前來講可能要靠人力去應(yīng)對,這部分占的比重還是比較大的。我們也希望后面的技術(shù)進步能很大程度地提升人力處理的效率。 總結(jié)一下:底層是數(shù)據(jù)中臺的技術(shù)平臺,要管理數(shù)據(jù),做相應(yīng)的數(shù)據(jù)開發(fā),對外提供服務(wù),構(gòu)建相應(yīng)的AI能力,搭建AI工具平臺。有了這個工具平臺之后,幫助金融機構(gòu)構(gòu)建各種各樣的數(shù)據(jù)中心,包括業(yè)務(wù)數(shù)據(jù)中心和資訊數(shù)據(jù)中心,也會根據(jù)上游的場景分階段建立,原來的應(yīng)用可以逐步遷移到新的數(shù)據(jù)中臺的架構(gòu)上來。在沒有數(shù)據(jù)中臺之前,整個金融行業(yè)大家對數(shù)據(jù)也是非常重視的,有大量的應(yīng)用在用。建數(shù)據(jù)中臺之后,不能簡單地把老的應(yīng)用鏟掉,全部重新來過,所以需要有一個把大量的下游應(yīng)用進行平滑遷移的升級方案。 應(yīng)用詳解之企業(yè)畫像除了上面說到的這些“臟活累活”,做數(shù)據(jù)中臺還是很多看上去讓人覺得很酷的事情。 比如說企業(yè)畫像,資訊中心里面非常重要的數(shù)據(jù)是要把投資標的企業(yè)描述清楚,描述清楚之后確實會對金融機構(gòu)下游的核心業(yè)務(wù)起到很好的支撐。在這其中我們也看到大量AI技術(shù)被應(yīng)用。 比如企業(yè)畫像里面有一個叫“企業(yè)智查”,這并不是簡單地買一些工商數(shù)據(jù)描述一下就結(jié)束了,實際上會有更多的另類的數(shù)據(jù)關(guān)聯(lián)上去。如何關(guān)聯(lián)?這就涉及到后面的知識圖譜、圖數(shù)據(jù)庫,除了公司數(shù)據(jù),還有產(chǎn)業(yè)鏈數(shù)據(jù),這些數(shù)據(jù)構(gòu)成了企業(yè)之間相互關(guān)系的核心網(wǎng)絡(luò)。 在這個網(wǎng)絡(luò)之后,還可以疊加金融機構(gòu)自己的研究人員在企業(yè)業(yè)務(wù)發(fā)展過程中調(diào)研到的、分析到的企業(yè)信息,從而形成一個相對完備的企業(yè)畫像。 這里面的企業(yè)數(shù)可能是千萬級別的,從工商數(shù)據(jù)、企業(yè)之間的相互關(guān)聯(lián)關(guān)系、股權(quán)關(guān)系,通過股權(quán)、債券或者說高管,把這些企業(yè)連接起來。還有通過產(chǎn)業(yè)的上下游、金融機構(gòu)投資研究人員建立的所謂產(chǎn)業(yè)鏈分析的網(wǎng)絡(luò),關(guān)聯(lián)起來。 關(guān)聯(lián)之后就可以查到圍繞這家公司有哪些信息,有沒有違約,有點像企業(yè)的“情報系統(tǒng)”。在這個“情報系統(tǒng)”里面,可以查到一個企業(yè),周邊有一層層衍生出來的很多信息。
也許你還會關(guān)心當下發(fā)生了哪些事情,所以很多公司也在建設(shè)輿情監(jiān)控系統(tǒng)。 恒生從事件的角度來看,把輿情轉(zhuǎn)換成各種各樣的事件,比如針對企業(yè)的事件、針對企業(yè)所在行業(yè)的事件、宏觀方面的事件等,這些都會對企業(yè)產(chǎn)生影響。通過各種事件分類,給企業(yè)打上標簽,從而形成相應(yīng)的風險事件預(yù)警,其中需要RPA技術(shù)去獲取外面的輿情。 獲取大量的輿情信息之后的處理,需要用到很多自然語言處理相關(guān)的技術(shù),需要靠智能文本處理,把關(guān)鍵信息提取出來,在這個過程中,消歧是非常重要的,怎么樣消歧、準確地關(guān)聯(lián)到相關(guān)企業(yè)。 而且企業(yè)畫像并不是靜態(tài)地,特別是金融領(lǐng)域有很多持續(xù)數(shù)據(jù),隨著時間點不同,數(shù)據(jù)都會改變。同樣的一個事情,也有發(fā)酵的過程,大家要知道事件的前因后果是什么,所以這是一個動態(tài)的、持續(xù)發(fā)展的過程。
很重要。有些企業(yè)會存在財務(wù)造假的問題,通過很多粉飾性的內(nèi)容,造得天衣無縫,包括隱瞞壞賬、商譽問題、不務(wù)正業(yè)等等。 如何識別財務(wù)造假?除了傳統(tǒng)的財務(wù)分析之外,也會通過機器學習來進行。但是機器學習需要負面樣本,負面樣本不夠,特征就找不到?所以需要搞一些另類的指標出來。我們需要去分析已有的數(shù)據(jù),找到里面的負面樣本。 比如商譽暴雷,我們就去看看最近幾年商譽暴雷的公司,把他們的財報拿過來,看看是什么樣子的,然后把他們放到機器學習的模型里,看看能不能把問題找出來。 當然,如果專業(yè)人員本身就有一些規(guī)則,那就更簡單了,可以把一些原來沒有結(jié)構(gòu)化的數(shù)據(jù)提取出來,然后專業(yè)的分析人員寫一些規(guī)則,就能直接進行判斷了。一般來說,我們會把這兩種方式結(jié)合起來使用。
是說做一些關(guān)聯(lián)關(guān)系的挖掘,包括整個的風險網(wǎng)絡(luò)。關(guān)聯(lián)分析圖看起來是平面的,但實際上這是一個立體的網(wǎng)絡(luò)。在立體的網(wǎng)絡(luò)上如何進行快速地搜索響應(yīng),特別是復(fù)雜的幾度以上的搜索?在圖上做搜索,最簡單的就是明確告訴我們一個實體,沿著實體做瀏覽性的搜索是很容易的,但是你要做幾度以上的這種分析,對水平的要求就很高了——當網(wǎng)絡(luò)很大的時候,要找出幾度以上的相互關(guān)系的時候,能不能實現(xiàn)秒級響應(yīng),還是說要跑很久? 股權(quán)穿透,相對來說是一個比較簡單的關(guān)聯(lián)關(guān)系的分析,但其中還有一些規(guī)則。如何確定一個閾值多少是合適的?有些法律法規(guī)本身就有定義,有些不行怎么辦?可能就需要使用統(tǒng)計學的手段,找一些負面樣本。穿透一般要求穿透到自然人,或者說國資委,一層層穿透下去。 數(shù)據(jù)中臺作為一個新基礎(chǔ)設(shè)施,在構(gòu)建過程中確實是比較有講究的,要有基本的數(shù)據(jù)治理和IT治理。從傳統(tǒng)的關(guān)系數(shù)據(jù)庫到有些地方要大數(shù)據(jù)技術(shù)、AI技術(shù),技術(shù)與業(yè)務(wù)的結(jié)合也很重要,不然花了很大成本建了這個中臺卻不知道該怎么用,或者不知道上層的分析模型該怎么建,這就很難發(fā)揮數(shù)據(jù)的作用。 在做金融行業(yè)數(shù)據(jù)中臺的時候,我們內(nèi)部會進行分層,一層是偏技術(shù)的,一層是偏業(yè)務(wù)的。數(shù)據(jù)過來之后,偏技術(shù)層的會進行基本的處理,比如打個標簽、關(guān)聯(lián)到圖數(shù)據(jù)庫里去,這對業(yè)務(wù)的要求貌似不高,對技術(shù)基礎(chǔ)的要求會高一點。數(shù)據(jù)結(jié)構(gòu)化處理之后,業(yè)務(wù)團隊就要上來發(fā)揮作用。比如剛才提到的財務(wù)分析有很多模型,這種模型不一定是IT團隊所擅長的。 比如說像恒生,我們也做債券違約的預(yù)警,要做數(shù)據(jù)分析。第一,分析現(xiàn)狀是什么。第二分析原因,比如增長的原因是什么?一個投資掙錢了,到底是哪個部分掙的錢,這叫績效歸因。第三是預(yù)警,能預(yù)測到后面的要做預(yù)測。包括剛說到的做原因分析的時候,實際上是有很多專業(yè)的模型的。 這些一般是我們偏業(yè)務(wù)的團隊會來做,我們會找金融工程相應(yīng)的人來做上層的模型,才能支撐到下游的場景。偏技術(shù)和偏業(yè)務(wù)的人,對數(shù)據(jù)處理的深度確實不太一樣。比如債券預(yù)警的模型怎么做?看起來都很簡單,是個多因子的積分卡一樣的東西,但是關(guān)鍵是每個因子怎么選,權(quán)重怎么附,這些都需要一些專業(yè)的人員來做。 金融AI技術(shù)投入,為什么數(shù)據(jù)挖掘能排第二?展望未來,數(shù)據(jù)挖掘在金融AI技術(shù)投入中,排名第二,圖像識別排名第一。我覺得比較好理解,因為現(xiàn)在圖像識別確實相對來講是應(yīng)用比較成熟的領(lǐng)域,準確度也很高。但是我們發(fā)現(xiàn)數(shù)據(jù)挖掘竟然是在整個的技術(shù)投入中排名第二?我們感覺到現(xiàn)在用的好多手段還是比較傳統(tǒng),為什么它會排名第二? 如果把Gartner分析報告里的這一頁上列的這些技術(shù)也算在數(shù)據(jù)挖掘的技術(shù)里的話,確實可能投入就上去了。這是Gartner去年對數(shù)據(jù)技術(shù)發(fā)展趨勢的分析,我挑了幾條。
為什么要有這樣的技術(shù)投入?其實數(shù)據(jù)的運用越來越普遍了,不是說只有一些專業(yè)的分析人員才用它,整個生態(tài)里的各個環(huán)節(jié)的業(yè)務(wù)人員,可能都需要數(shù)據(jù)。對這些人員來說,你不能把數(shù)據(jù)的獲取、分析的要求提得很高,所以會引用一些自然語言技術(shù)去處理。 我們之前提到的知識圖譜,實際上它的技術(shù)底層有2種,一個圖數(shù)據(jù)庫叫圖的存儲,還有一個圖的分析,這塊的話Gartner預(yù)測也是說每年是百分之百的速度增長。 你要做數(shù)據(jù)分析,最重要的就是關(guān)聯(lián),要把數(shù)據(jù)關(guān)聯(lián)起來才能做更多的分析,這確實是圖數(shù)據(jù)庫比較擅長的。關(guān)聯(lián)大量數(shù)據(jù)的時候,你也會發(fā)現(xiàn)說數(shù)據(jù)結(jié)構(gòu)是很難提前預(yù)定、預(yù)測好的,那圖數(shù)據(jù)庫的好處就是,相應(yīng)的結(jié)構(gòu)、屬性增加一些,對原來的分析是沒有什么影響的。 最后一條,其實這個是我比較希望看到的,因為我剛才說到無論是建數(shù)據(jù)中心也好,做數(shù)據(jù)中臺也好,還是需要大量人力投入。 但是Gartner也預(yù)測,其實我們實際上也看到大量的利用機器學習的方式,利用各種自動化在整個數(shù)據(jù)管理或者數(shù)據(jù)準備上。當對業(yè)務(wù)不熟悉的時候,機器學習可以很大地減輕負擔。當你換個行業(yè)去分析人家的數(shù)據(jù)的時候,或者一個新人進來,有大量的自動化手段來幫助你做數(shù)據(jù)管理、做數(shù)據(jù)的準備,可以有效提升做數(shù)據(jù)中臺的效率。 |
|