“萬(wàn)物皆有聯(lián)”,是大數(shù)據(jù)一個(gè)最重要的核心思維。 所謂聯(lián),這里指的就是事物之間的相互影響、相互制約、相互印證的關(guān)系,這種關(guān)系就叫做相關(guān)關(guān)系,就是我們常說(shuō)的相關(guān)性。 簡(jiǎn)單地說(shuō),如果有兩個(gè)事物,當(dāng)一個(gè)事物發(fā)生變化時(shí),另一個(gè)事物也隨著發(fā)生規(guī)律變化,我們就說(shuō)這兩個(gè)事物存在相關(guān)性。 世界上的所有事物,都會(huì)受到其它事物的影響。 比如,產(chǎn)品的銷量是受到各種因素的影響的,比如產(chǎn)品價(jià)格、品牌、質(zhì)量、售后服務(wù)等等,這些因素都會(huì)對(duì)產(chǎn)品銷量有著直接的影響。 又比如,產(chǎn)品的價(jià)格是受到供求狀況的影響和制約的。供給增加,價(jià)格就相對(duì)下降;供給減少,價(jià)格就相對(duì)上升。 再比如,在生活中,我們經(jīng)常會(huì)遇到下面的情況: HR經(jīng)常會(huì)問(wèn):影響員工離職的原因是什么? 銷售人員會(huì)問(wèn):哪些要素會(huì)促使客戶選擇某產(chǎn)品? 營(yíng)銷人員會(huì)問(wèn):影響客戶流失的關(guān)鍵因素有哪些? 銷售主管會(huì)問(wèn):影響產(chǎn)品銷量下降的原因有哪些? …… 所有上述類似的這些業(yè)務(wù)問(wèn)題,轉(zhuǎn)化為數(shù)據(jù)問(wèn)題,都可以是相關(guān)性的問(wèn)題。 影響因素分析,這是過(guò)去在小數(shù)據(jù)時(shí)代的叫法。在大數(shù)據(jù)時(shí)代,我們經(jīng)常用相關(guān)性分析來(lái)代替影響因素分析的說(shuō)法。 因果關(guān)系 在過(guò)去,我們強(qiáng)調(diào)的是因果關(guān)系,即先有原因,再有結(jié)果。如果找不到原因,我們往往會(huì)覺得結(jié)果也不可信。比如產(chǎn)品價(jià)格下降,會(huì)導(dǎo)致銷量上升,這個(gè)價(jià)格與銷量之間應(yīng)該是存在因果關(guān)系的,這從心理學(xué)和社會(huì)經(jīng)濟(jì)學(xué)上都能得到解釋。 所以,我們把尋找影響目標(biāo)變量的關(guān)鍵因素的過(guò)程,叫做影響因素分析。 相關(guān)關(guān)系 但在,隨著統(tǒng)計(jì)學(xué)的進(jìn)一步發(fā)現(xiàn),有些事物之間看起來(lái)并不存在因果關(guān)系: 在電影視頻的網(wǎng)站上,放上零食的廣告,會(huì)提升零食的銷售; 銀行業(yè)中信用較高的人,其發(fā)生交通事故的概率會(huì)較低; 鄉(xiāng)村音樂(lè)的喜好者傾向于支持共和黨,而搖滾歌迷傾向于支持民主黨; 選舉年,犯罪率會(huì)下降,但之后,犯罪率卻會(huì)上升; …… 這些也能夠體現(xiàn)事物之間的關(guān)系,但這些關(guān)系并不意味著因果。音樂(lè)愛好與政治傾向到底有什么關(guān)系?基本上很難找到合理的解釋,也就是說(shuō)“音樂(lè)”和“政治傾向”之間不一定存在因果關(guān)系,但這些在統(tǒng)計(jì)學(xué)上卻是有意義的。 像這種不一定存在因果關(guān)系的事物,我們用另一個(gè)比較貼切的說(shuō)法,就叫做相關(guān)關(guān)系。而尋找兩個(gè)事物之間是否存在相關(guān)性的過(guò)程,就叫做相關(guān)分析。 在不引起混淆的情況下,在本書中我們依然會(huì)使用影響因素分析的說(shuō)法。 相關(guān)關(guān)系≠因果關(guān)系 理論上,現(xiàn)在數(shù)據(jù)分析領(lǐng)域中所用的相關(guān)性分析方法,基本上都是基于統(tǒng)計(jì)的,所以只能說(shuō)兩個(gè)事物在統(tǒng)計(jì)意義上存在相關(guān)關(guān)系,卻無(wú)法判斷是否是因果關(guān)系。 存在相關(guān)關(guān)系的兩個(gè)事物,是否存在因果關(guān)系呢?這個(gè)僅憑數(shù)據(jù)方法是無(wú)法給出結(jié)論的,這還得需要專業(yè)人士從業(yè)務(wù)邏輯的角度來(lái)進(jìn)行人為地判斷。 比如:價(jià)格會(huì)影響銷量,這是已知的因果關(guān)系。即價(jià)格和銷量有因果關(guān)系,那么從數(shù)據(jù)上一定也會(huì)判斷出價(jià)格和銷量呈相關(guān)性。 再舉一個(gè)例子:父母的身高一定會(huì)影響子女的身高(這從基因的角度可以理解為因果關(guān)系),所以可知,父母身高與兒子身高呈相關(guān)性,父母身高與女兒身高也呈相關(guān)性;但是,在數(shù)據(jù)上,你有可能會(huì)發(fā)現(xiàn)哥哥身高與妹妹身高也呈相關(guān)性(他們都受父母身高影響),但哥哥身高與妹妹身高就不存在因果關(guān)系(從生物學(xué)上沒(méi)有因果關(guān)系)。即有相關(guān)性的兩個(gè)變量,不一定是因果關(guān)系。最多也只能說(shuō),有可能是因果關(guān)系(暫時(shí)沒(méi)有找到理論依據(jù))。 再比如,在前面章節(jié)提到的股民的情緒指數(shù)與道瓊斯指數(shù),股民的情緒指數(shù)在某種程度上可以用來(lái)反應(yīng)股票的漲跌情況,說(shuō)明存在相關(guān)關(guān)系,但是否存在因果關(guān)系,這就無(wú)法確定了。 按照《大數(shù)據(jù)時(shí)代》的說(shuō)法,即使找不到因果關(guān)系,只要能夠?qū)ふ业阶銐蚨嗟南嚓P(guān)性,并將這種相關(guān)性用于問(wèn)題的解決過(guò)程中,也能夠起到巨大的作用。 相關(guān)性與影響因素分析世界上的所有事物,都會(huì)受到其它事物的影響。HR經(jīng)常會(huì)問(wèn):影響員工離職的關(guān)鍵原因是什么?是工資還是發(fā)展空間?銷售人員會(huì)問(wèn):哪些要素會(huì)促使客戶購(gòu)買某產(chǎn)品?是價(jià)格還是質(zhì)量?營(yíng)銷人員會(huì)問(wèn):影響客戶流失的關(guān)鍵因素有哪些?是競(jìng)爭(zhēng)還是服務(wù)等?產(chǎn)品設(shè)計(jì)人員:影響汽車產(chǎn)品受歡迎的關(guān)鍵功能有哪些??jī)r(jià)格、還是動(dòng)力等? 所有的這些商業(yè)問(wèn)題,轉(zhuǎn)化為數(shù)據(jù)問(wèn)題,不外乎就是評(píng)估一個(gè)因素與另一個(gè)因素之間的相互影響或相互關(guān)聯(lián)的關(guān)系。而分析這種事物之間關(guān)聯(lián)性的方法,就是相關(guān)性分析方法。 當(dāng)然,有相關(guān)關(guān)系,并不一定意味著是因果關(guān)系。但因果關(guān)系,則一定是相關(guān)關(guān)系。 在過(guò)去,主要是要尋找影響事物的因果關(guān)系,所以過(guò)去也叫影響因素分析。但是,從統(tǒng)計(jì)學(xué)方法來(lái)說(shuō),因果關(guān)系一定會(huì)有統(tǒng)計(jì)顯著,但統(tǒng)計(jì)顯著并不一定就是因果關(guān)系,所以準(zhǔn)確地說(shuō),影響因素分析應(yīng)該改為相關(guān)性分析。所以,在不引起混淆的情況下,我們也會(huì)用影響因素分析。 相關(guān)性種類 客觀事物之間的相關(guān)性,大致可歸納為兩大類:一類是函數(shù)關(guān)系,一類是統(tǒng)計(jì)關(guān)系。 函數(shù)關(guān)系,就是兩個(gè)變量的取值存在一個(gè)函數(shù)來(lái)唯一描述。比如,銷售額與銷售量之間的關(guān)系,可用函數(shù)y=px(y表示銷售額,p表示單價(jià),x表示銷售量)來(lái)表示。所以,銷售量和銷售額存在函數(shù)關(guān)系。這一類關(guān)系,不是我們關(guān)注的重點(diǎn)。 統(tǒng)計(jì)關(guān)系,指的是兩事物之間的非一一對(duì)應(yīng)關(guān)系,即當(dāng)變量x取一定值時(shí),另一個(gè)變量y雖然不唯一確定,但按某種規(guī)律在一定的范圍內(nèi)發(fā)生變化。比如,子女身高與父母身高、廣告費(fèi)用與銷售額的關(guān)系,是無(wú)法用一個(gè)函數(shù)關(guān)系唯一確定其取值的,但這些變量之間確實(shí)存在一定的關(guān)系。大多數(shù)情況下,父母身高越高,子女的身高也就越高;廣告費(fèi)用花得越多,其銷售額也相對(duì)越多。這種關(guān)系,就叫做統(tǒng)計(jì)關(guān)系。 進(jìn)一步,統(tǒng)計(jì)分析如果按照相關(guān)的形態(tài)來(lái)說(shuō),可分為線性相關(guān)和非線性相關(guān)(曲線相關(guān));如果按照相關(guān)的方向來(lái)分,可分為正相關(guān)和負(fù)相關(guān),等等。 詳細(xì)見下面的圖形。 相關(guān)性描述方式 描述兩個(gè)變量是否有相關(guān)性,常見的方式有:相關(guān)圖(典型的如散點(diǎn)圖和列聯(lián)表等等)、相關(guān)系數(shù)、統(tǒng)計(jì)顯著性。如果用可視化的方式來(lái)呈現(xiàn)各種相關(guān)性,常見有如下散點(diǎn)圖。 至于相關(guān)系數(shù)和統(tǒng)計(jì)顯著性,請(qǐng)參后續(xù)章節(jié)。 相關(guān)性方法種類 對(duì)于不同的因素類型,采用的相關(guān)性分析方法也不相同。下面簡(jiǎn)單總結(jié)一下所選用的相關(guān)性分析方法。
舉一個(gè)簡(jiǎn)單的例子: 某電信運(yùn)營(yíng)商,面臨增量不增收的困境,想弄明白哪些因素有可能會(huì)影響客戶的消費(fèi)水平(也就是說(shuō),哪些因素與費(fèi)用有相關(guān)性),以及哪些因素與客戶流失有相關(guān)性,于是收集了如下的表格,請(qǐng)分析并給出結(jié)論。 從方法的適用場(chǎng)景,可知: 1) 如果要評(píng)估收入對(duì)于基本費(fèi)用的相關(guān)性,則可用相關(guān)性分析。 2) 如果要評(píng)估婚姻狀況對(duì)于基本費(fèi)用的相關(guān)性,則可用方差分析。 3) 如果要評(píng)估教育水平對(duì)于客戶流失的相關(guān)性,則可用列聯(lián)分析。 其余可采用類似的方法。 大數(shù)據(jù)建模五步法前一陣子,某網(wǎng)絡(luò)公司發(fā)起了一個(gè)什么建模大賽,有個(gè)學(xué)員問(wèn)我,數(shù)據(jù)建模怎么搞?為了滿足他的好學(xué)精神,我決定寫這一篇文章,來(lái)描述一下數(shù)據(jù)分析必須要掌握的技能:數(shù)據(jù)建模。本文將嘗試來(lái)梳理一下數(shù)據(jù)建模的步驟,以及每一步需要做的工作。 第一步:選擇模型或自定義模式 這是建模的第一步,我們需要基于業(yè)務(wù)問(wèn)題,來(lái)決定可以選擇哪些可用的模型。 比如,如果要預(yù)測(cè)產(chǎn)品銷量,則可以選擇數(shù)值預(yù)測(cè)模型(比如回歸模型,時(shí)序預(yù)測(cè)……);如果要預(yù)測(cè)員工是否離職,則可以選擇分類模型(比如決策樹、神經(jīng)網(wǎng)絡(luò)……)。 如果沒(méi)有現(xiàn)成的模型可用,那么恭喜你,你可以自定義模型了。不過(guò),一般情況下,自己定義模型不是那么容易的事情,沒(méi)有深厚的數(shù)學(xué)基礎(chǔ)和研究精神,自己思考出一個(gè)解決特定問(wèn)題的數(shù)學(xué)模型基本上是幻想。所以,自定義模型的事情還是留給學(xué)校的教授們?nèi)パ芯亢烷_發(fā)吧。當(dāng)前絕大多數(shù)人所謂的建模,都只是選擇一個(gè)已有的數(shù)學(xué)模型來(lái)工作而已。 一般情況,模型都有一個(gè)固定的模樣和形式。但是,有些模型包含的范圍較廣,比如回歸模型,其實(shí)不是某一個(gè)特定的模型,而是一類模型。我們知道,所謂的回歸模型,其實(shí)就是自變量和因變量的一個(gè)函數(shù)關(guān)系式而已,如下表所示。因此,回歸模型的選擇,也就有了無(wú)限的可能性,回歸模型的樣子(或叫方程)可以是你能夠想到的任何形式的回歸方程。所以,從某種意義上看,你自己想出一個(gè)很少人見過(guò)的回歸方程,也可以勉強(qiáng)算是自定義模型了哈! 那么,這么多可選的模型,到底選擇哪個(gè)模型才好呢?我的答復(fù)是:天知道! 天知道應(yīng)該選擇哪個(gè)模型會(huì)好一些!你問(wèn)我,我問(wèn)誰(shuí)啊?如果在這個(gè)時(shí)候有人告訴你,你的業(yè)務(wù)應(yīng)該選擇哪個(gè)回歸方程會(huì)更好一些,那么,我敢肯定,你遇上的肯定是“磚家”而不是“專家”。模型的好壞是不能夠單獨(dú)來(lái)評(píng)論的(你往下看就知道了)!就如小孩子討論的你爸爸好還是我爸爸好一樣,你說(shuō)誰(shuí)好? 那么,是不是我們?cè)谶x擇模型時(shí)就得靠運(yùn)氣了?其實(shí)真有那么一點(diǎn)靠運(yùn)氣的成份,不過(guò)好在后續(xù)數(shù)學(xué)家們給我們提供了評(píng)估模型好壞的依據(jù)?,F(xiàn)在,我們只能靠運(yùn)氣來(lái)選擇某一個(gè)模型了。 第二步:訓(xùn)練模型 當(dāng)模型選擇好了以后,就到了訓(xùn)練模型這一步。 我們知道,之所以叫模型,這個(gè)模型大致的形狀或模式是固定的,但模型中還會(huì)有一些不確定的東東在里面,這樣模型才會(huì)有通用性,如果模型中所有的東西都固定死了,模型的通用性就沒(méi)有了。模型中可以適當(dāng)變化的部分,一般叫做參數(shù),就比如前面回歸模型中的α、β等參數(shù)。 所謂訓(xùn)練模型,其實(shí)就是要基于真實(shí)的業(yè)務(wù)數(shù)據(jù)來(lái)確定最合適的模型參數(shù)而已。模型訓(xùn)練好了,也就是意味著找到了最合適的參數(shù)。一旦找到最優(yōu)參數(shù),模型就基本可用了。當(dāng)然,要找到最優(yōu)的模型參數(shù)一般是比較困難的,怎樣找?如何找?這就涉及到算法了。哦,一想到算法,我的頭就開始痛了,都怪當(dāng)年數(shù)學(xué)沒(méi)有學(xué)好呀! 當(dāng)然,最笨的辦法,我們可以不斷的嘗試參數(shù),來(lái)找到一個(gè)最好的參數(shù)值。一個(gè)一個(gè)試?這不是要試到生命結(jié)束?開玩笑啦,不可能去一個(gè)一個(gè)試的啦。反正有工具會(huì)幫你找到最優(yōu)參數(shù)的,什么最優(yōu)化算法中的什么梯度上升呀梯度下降呀,你就不用操心了呀,這些留給分析工具來(lái)實(shí)現(xiàn)就可以了! 當(dāng)然,一個(gè)好的算法要運(yùn)行速度快且復(fù)雜度低,這樣才能夠?qū)崿F(xiàn)快速的收斂,而且能夠找到全局最優(yōu)的參數(shù),否則訓(xùn)練所花的時(shí)間過(guò)長(zhǎng)效率低,還只找到局部最優(yōu)參數(shù),就讓人難以忍受了。 第三步:評(píng)估模型 模型訓(xùn)練好以后,接下來(lái)就是評(píng)估模型。 所謂評(píng)估模型,就是決定一下模型的質(zhì)量,判斷模型是否有用。前面說(shuō)過(guò),模型的好壞是不能夠單獨(dú)評(píng)估的,一個(gè)模型的好壞是需要放在特定的業(yè)務(wù)場(chǎng)景下來(lái)評(píng)估的,也就是基于特定的數(shù)據(jù)集下才能知道哪個(gè)模型好與壞。 既然要評(píng)估一個(gè)模型的好壞,就應(yīng)該有一些評(píng)價(jià)指標(biāo)。比如,數(shù)值預(yù)測(cè)模型中,評(píng)價(jià)模型質(zhì)量的常用指標(biāo)有:平均誤差率、判定系數(shù)R2,等等;評(píng)估分類預(yù)測(cè)模型質(zhì)量的常用指標(biāo)(如下圖所示)有:正確率、查全率、查準(zhǔn)率、ROC曲線和AUC值等等。對(duì)于分類預(yù)測(cè)模型,一般要求正確率和查全率等越大越好,最好都接近100%,表示模型質(zhì)量好,無(wú)誤判。 在真實(shí)的業(yè)務(wù)場(chǎng)景中,評(píng)估指標(biāo)是基于測(cè)試集的,而不是訓(xùn)練集。所以,在建模時(shí),一般要將原始數(shù)據(jù)集分成兩部分,一部分用于訓(xùn)練模型,叫訓(xùn)練集;另一部分用于評(píng)估模型,叫測(cè)試集或驗(yàn)證集。 有的人可能會(huì)想,為什么評(píng)估模型要用兩個(gè)不同的數(shù)據(jù)集,直接用一個(gè)訓(xùn)練集不就可以了?理論上是不行的,因?yàn)槟P褪腔谟?xùn)練集構(gòu)建起來(lái)的,所以在理論上模型在訓(xùn)練集上肯定有較好的效果。但是,后來(lái)數(shù)學(xué)家們發(fā)現(xiàn),在訓(xùn)練集上有較好預(yù)測(cè)效果的模型,在真實(shí)的業(yè)務(wù)應(yīng)用場(chǎng)景下其預(yù)測(cè)效果不一定好(這種現(xiàn)象稱之為過(guò)擬合)。所以,將訓(xùn)練集和測(cè)試集分開來(lái),一個(gè)用于訓(xùn)練模型,一個(gè)用于評(píng)估模型,這樣可以提前發(fā)現(xiàn)模型是不是存在過(guò)擬合。 如果發(fā)現(xiàn)在訓(xùn)練集和測(cè)試集上的預(yù)測(cè)效果差不多,就表示模型質(zhì)量尚好,應(yīng)該可以直接使用了。如果發(fā)現(xiàn)訓(xùn)練集和測(cè)試集上的預(yù)測(cè)效果相差太遠(yuǎn),就說(shuō)明模型還有優(yōu)化的余地。 當(dāng)然,如果只想驗(yàn)證一次就想準(zhǔn)確評(píng)估出模型的好壞,好像是不合適的。所以,建議采用交叉驗(yàn)證的方式來(lái)進(jìn)行多次評(píng)估,以找到準(zhǔn)確的模型誤差。 其實(shí),模型的評(píng)估是分開在兩個(gè)業(yè)務(wù)場(chǎng)景中的: 一、是基于過(guò)去發(fā)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行驗(yàn)證,即測(cè)試集。本來(lái),模型的構(gòu)建就是基于過(guò)去的數(shù)據(jù)集的構(gòu)建的。 二、是基于真實(shí)的業(yè)務(wù)場(chǎng)景數(shù)據(jù)進(jìn)行驗(yàn)證。即,在應(yīng)用模型步驟中檢驗(yàn)?zāi)P偷恼鎸?shí)應(yīng)用結(jié)果。 第四步:應(yīng)用模型 如果評(píng)估模型質(zhì)量在可接受的范圍內(nèi),而且沒(méi)有出現(xiàn)過(guò)擬合,于是就可以開始應(yīng)用模型了。 這一步,就需要將可用的模型開發(fā)出來(lái),并部署在數(shù)據(jù)分析系統(tǒng)中,然后可以形成數(shù)據(jù)分析的模板和可視化的分析結(jié)果,以便實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)分析報(bào)告。 應(yīng)用模型,就是將模型應(yīng)用于真實(shí)的業(yè)務(wù)場(chǎng)景。構(gòu)建模型的目的,就是要用于解決工作中的業(yè)務(wù)問(wèn)題的,比如預(yù)測(cè)客戶行為,比如劃分客戶群,等等。 當(dāng)然,應(yīng)用模型過(guò)程中,還需要收集業(yè)務(wù)預(yù)測(cè)結(jié)果與真實(shí)的業(yè)務(wù)結(jié)果,以檢驗(yàn)?zāi)P驮谡鎸?shí)的業(yè)務(wù)場(chǎng)景中的效果,同時(shí)用于后續(xù)模型的優(yōu)化。 第五步:優(yōu)化模型 優(yōu)化模型,一般發(fā)生在兩種情況下: 一、是在評(píng)估模型中,如果發(fā)現(xiàn)模型欠擬合,或者過(guò)擬合,說(shuō)明這個(gè)模型待優(yōu)化。 二、是在真實(shí)應(yīng)用場(chǎng)景中,定期進(jìn)行優(yōu)化,或者當(dāng)發(fā)現(xiàn)模型在真實(shí)的業(yè)務(wù)場(chǎng)景中效果不好時(shí),也要啟動(dòng)優(yōu)化。 如果在評(píng)估模型時(shí),發(fā)現(xiàn)模型欠擬合(即效果不佳)或者過(guò)擬合,則模型不可用,需要優(yōu)化模型。所謂的模型優(yōu)化,可以有以下幾種情況: 1) 重新選擇一個(gè)新的模型; 2) 模型中增加新的考慮因素; 3) 嘗試調(diào)整模型中的閾值到最優(yōu); 4) 嘗試對(duì)原始數(shù)據(jù)進(jìn)行更多的預(yù)處理,比如派生新變量。 不同的模型,其模型優(yōu)化的具體做法也不一樣。比如回歸模型的優(yōu)化,你可能要考慮異常數(shù)據(jù)對(duì)模型的影響,也要進(jìn)行非線性和共線性的檢驗(yàn);再比如說(shuō)分類模型的優(yōu)化,主要是一些閾值的調(diào)整,以實(shí)現(xiàn)精準(zhǔn)性與通用性的均衡。當(dāng)然,也可以采用元算法來(lái)優(yōu)化模型,就是通過(guò)訓(xùn)練多個(gè)弱模型,來(lái)構(gòu)建一個(gè)強(qiáng)模型(即三個(gè)臭皮匠,頂上一個(gè)諸葛亮)來(lái)實(shí)現(xiàn)模型的最佳效果。 實(shí)際上,模型優(yōu)化不僅僅包含了對(duì)模型本身的優(yōu)化,還包含了對(duì)原始數(shù)據(jù)的處理優(yōu)化,如果數(shù)據(jù)能夠得到有效的預(yù)處理,可以在某種程度上降低對(duì)模型的要求。所以,當(dāng)你發(fā)現(xiàn)你嘗試的所有模型效果都不太好的時(shí)候,別忘記了,這有可能是你的數(shù)據(jù)集沒(méi)有得到有效的預(yù)處理,沒(méi)有找到合適的關(guān)鍵因素(自變量)。 不可能有一個(gè)模型適用于所有業(yè)務(wù)場(chǎng)景,也不太可能有一個(gè)固有的模型就適用于你的業(yè)務(wù)場(chǎng)景。好模型都是優(yōu)化出來(lái)的! 最后語(yǔ) 正如數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程一樣,構(gòu)建模型的這五個(gè)步驟,并不是單向的,而是一個(gè)循環(huán)的過(guò)程。當(dāng)發(fā)現(xiàn)模型不佳時(shí),就需要優(yōu)化,就有可能回到最開始的地方重新開始思考。即使模型可用了,也需要定期對(duì)模型進(jìn)行維護(hù)和優(yōu)化,以便讓模型能夠繼續(xù)適用新的業(yè)務(wù)場(chǎng)景。 大數(shù)據(jù)的三個(gè)關(guān)鍵環(huán)節(jié)大數(shù)據(jù),是應(yīng)用導(dǎo)向的。它以商業(yè)需求為出發(fā)點(diǎn),然后借助數(shù)據(jù)的手段,來(lái)發(fā)現(xiàn)商業(yè)活動(dòng)的本質(zhì),進(jìn)而形成商業(yè)活動(dòng)的決策和建議,以實(shí)現(xiàn)最終的商業(yè)目的。 所以,在大數(shù)據(jù)領(lǐng)域,要想讓數(shù)據(jù)產(chǎn)生價(jià)值,涉及到三個(gè)關(guān)鍵環(huán)節(jié): (一) 將商業(yè)問(wèn)題轉(zhuǎn)化數(shù)據(jù)可分析問(wèn)題。 (二) 對(duì)數(shù)據(jù)進(jìn)行有效的處理和分析,提取數(shù)據(jù)中蘊(yùn)含的業(yè)務(wù)信息。 (三) 基于業(yè)務(wù)信息,形成最終的業(yè)務(wù)策略及應(yīng)用。 這三個(gè)環(huán)節(jié),一環(huán)扣一環(huán),缺一不可。要想讓數(shù)據(jù)產(chǎn)生價(jià)值,要想讓大數(shù)據(jù)服務(wù)于企業(yè)的商業(yè)行為,則需要基于這三個(gè)環(huán)節(jié),重新梳理企業(yè)的整個(gè)IT支撐系統(tǒng)。 為了方便描述,我把這三個(gè)環(huán)節(jié)簡(jiǎn)化為如下的幾句話:業(yè)務(wù)數(shù)據(jù)化、數(shù)據(jù)信息化、信息策略化。 簡(jiǎn)單地說(shuō),業(yè)務(wù)數(shù)據(jù)化,就是將業(yè)務(wù)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)問(wèn)題。 在數(shù)學(xué)家的眼里,世界的本質(zhì)是數(shù)學(xué)的。同樣,在數(shù)據(jù)分析師的眼里,任何一個(gè)商業(yè)問(wèn)題,都可轉(zhuǎn)化為一個(gè)數(shù)學(xué)問(wèn)題,或者是一個(gè)數(shù)據(jù)問(wèn)題,一個(gè)數(shù)據(jù)可分析的問(wèn)題。 萬(wàn)物皆可量化 這源于一個(gè)最樸素的數(shù)據(jù)價(jià)值觀:萬(wàn)物皆可量化。 比如,要想弄明白一個(gè)人的興趣和愛好,就可以收集他在百度上搜索過(guò)什么關(guān)鍵詞,在今日頭條上閱讀過(guò)哪類資訊,瀏覽過(guò)哪些網(wǎng)站等這些數(shù)據(jù)。 要想了解客戶的消費(fèi)能力,則可以查看他的存款、每月的工資收入,或者他買過(guò)的產(chǎn)品的價(jià)格檔次等數(shù)據(jù)。 同樣,要知道他去了哪里,則收集到車票機(jī)票數(shù)據(jù)、酒店住宿和景點(diǎn)門票數(shù)據(jù),最直接的是手機(jī)GPS數(shù)據(jù),都能夠直接體現(xiàn)他的位置信息,等等。 正因如此,我們就可以通過(guò)數(shù)據(jù)來(lái)間接地描述客觀事物。 萬(wàn)物皆數(shù)據(jù)化 同樣地,大多數(shù)的商業(yè)問(wèn)題,都可以定義為數(shù)據(jù)可分析的問(wèn)題。 比如,用戶購(gòu)買行為分析的問(wèn)題,轉(zhuǎn)化為數(shù)據(jù)的問(wèn)題,其實(shí)就是對(duì)客戶的瀏覽數(shù)據(jù)、搜索數(shù)據(jù)、點(diǎn)擊數(shù)據(jù)和交易數(shù)據(jù)等進(jìn)行統(tǒng)計(jì)分析,以查看其中的行為規(guī)律和行為模式; 市場(chǎng)精準(zhǔn)營(yíng)銷的問(wèn)題,簡(jiǎn)單地可看成是一個(gè)分類預(yù)測(cè)的問(wèn)題,即判斷一個(gè)客戶會(huì)不會(huì)購(gòu)買公司的產(chǎn)品,會(huì)購(gòu)買公司的哪一款產(chǎn)品,以及大概在什么時(shí)候會(huì)有購(gòu)買需求,等等; 銀行的風(fēng)險(xiǎn)控制和風(fēng)險(xiǎn)識(shí)別問(wèn)題,實(shí)際上是判斷一個(gè)人是否會(huì)拖欠貸款的預(yù)測(cè)問(wèn)題; 產(chǎn)品銷量提升的問(wèn)題,就是要判斷有哪些因素會(huì)影響產(chǎn)品銷量,其實(shí)可看成是一個(gè)影響因素分析的問(wèn)題,即是一個(gè)相關(guān)性問(wèn)題; 產(chǎn)品功能設(shè)計(jì)問(wèn)題,也可以是一個(gè)影響因素分析的問(wèn)題,即哪些功能和特征會(huì)對(duì)銷量產(chǎn)生比較大的影響,這些有顯著影響的功用和特征是需要在設(shè)計(jì)時(shí)重點(diǎn)考慮的; 當(dāng)然,一個(gè)商業(yè)問(wèn)題也可以轉(zhuǎn)化為幾個(gè)不同模式的數(shù)據(jù)問(wèn)題,不同的數(shù)據(jù)問(wèn)題得到的業(yè)務(wù)模式和業(yè)務(wù)信息也是不相同的。 一句話,萬(wàn)事皆可數(shù)據(jù)化。 業(yè)務(wù)數(shù)據(jù)化,這一環(huán)節(jié)是大數(shù)據(jù)的開始,它是整個(gè)大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的起點(diǎn),沒(méi)有商業(yè)問(wèn)題的指引,后續(xù)的環(huán)節(jié)(數(shù)據(jù)分析與數(shù)據(jù)挖掘)將會(huì)顯得盲目而毫無(wú)意義。 數(shù)據(jù)信息化,簡(jiǎn)單地說(shuō),就是將數(shù)據(jù)變成信息,即要提取數(shù)據(jù)中蘊(yùn)含的業(yè)務(wù)信息。 數(shù)據(jù)信息化,這一環(huán)節(jié)是大數(shù)據(jù)的核心,它是整個(gè)大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的靈魂,要是無(wú)法對(duì)數(shù)據(jù)進(jìn)行有效地分析和挖掘,就無(wú)法提取到有用的業(yè)務(wù)信息。 那么,數(shù)據(jù)中究竟包含了哪些業(yè)務(wù)信息呢?我認(rèn)為,大數(shù)據(jù)至少可以用來(lái)發(fā)現(xiàn)如下的業(yè)務(wù)信息: 1) 業(yè)務(wù)的運(yùn)行規(guī)律和特征 2) 業(yè)務(wù)的變化和問(wèn)題 3) 業(yè)務(wù)運(yùn)行的影響因素 4) 業(yè)務(wù)在未來(lái)的發(fā)展趨勢(shì) 下面我將為大家一一介紹如何提取業(yè)務(wù)的這些信息。 探索規(guī)律 哲學(xué)告訴我們,任何事物都是發(fā)展的,發(fā)展必定是有規(guī)律的,即萬(wàn)事皆有規(guī)律。 任何客觀事物,不管是企業(yè)的運(yùn)營(yíng)管理,還是市場(chǎng)營(yíng)銷行為,都是有規(guī)律的。而大數(shù)據(jù),則是探索這種規(guī)律的有效的工具! 如下所示,幾乎所有的零售店的銷量都有如下的特征,即周末的銷量比工作日的銷量往往要多得多,而這些數(shù)據(jù)中就體出了客流量在時(shí)間上的分布規(guī)律。 發(fā)現(xiàn)變化 世界是物質(zhì)的,而物質(zhì)是運(yùn)動(dòng)的,運(yùn)動(dòng)是事物的本質(zhì)。 一切事物都在運(yùn)動(dòng)變化,這些運(yùn)動(dòng)變化是可以被探知的。 谷歌工程師每日都會(huì)對(duì)搜索感冒相關(guān)詞的搜索量做過(guò)分析,在正常情況下,某地區(qū)每日的搜索量都會(huì)在一個(gè)正常的范圍內(nèi)波動(dòng)。但如果有一天(比如12號(hào)開始),某地區(qū)的搜索量開始持續(xù)上升,這上升的背后,其實(shí)體現(xiàn)的是患感冒人數(shù)的增加。基于此理論,谷歌的工程師開發(fā)出一個(gè)大數(shù)據(jù)產(chǎn)品GFT(Google Flu Trend),專門用來(lái)預(yù)測(cè)流感的爆發(fā)。這個(gè)產(chǎn)品,甚至可以在流感爆發(fā)前的7-14天就能夠做出預(yù)判。 探索關(guān)系 唯物辯證法認(rèn)為,世界上的一切事物都處在普遍聯(lián)系中,沒(méi)有任何一個(gè)事物是孤立地存在的。聯(lián)系是指事物之間以及事物內(nèi)部諸要素之間相互連結(jié)、相互依賴、相互影響、相互作用、相互轉(zhuǎn)化等相互關(guān)系。 美國(guó)印第安納大學(xué)的教授約翰·博倫(Johan Bollen),曾發(fā)表了一篇文章《Twitter情緒預(yù)測(cè)股票市場(chǎng)》,其中就發(fā)現(xiàn)了人類的情緒指數(shù)與股票指數(shù)的具有較強(qiáng)的相關(guān)性。如下圖所示,當(dāng)情緒曲線往后挪3~4天以后,情緒的波動(dòng)和股票的漲跌具有較強(qiáng)的一致性,這開啟了大數(shù)據(jù)炒股的新時(shí)代。 一句話,萬(wàn)物皆有聯(lián)系,而大數(shù)據(jù)成為探索事物間相互聯(lián)系的一種有效的手段。 預(yù)測(cè)未來(lái) 大家都知道,大數(shù)據(jù)分析的是已經(jīng)發(fā)生過(guò)的數(shù)據(jù),那么過(guò)去的數(shù)據(jù)已經(jīng)發(fā)生還有什么用呢?大數(shù)據(jù)只是借過(guò)去的數(shù)據(jù)來(lái)探索事物的規(guī)律和特征,其目的是為了探索事物在未來(lái)的發(fā)展變化或發(fā)展趨勢(shì),因此,大數(shù)據(jù)的目的是預(yù)測(cè)。基于對(duì)事物的預(yù)測(cè)結(jié)果,用來(lái)作出相應(yīng)的策略調(diào)整。如果預(yù)測(cè)的結(jié)果不是我們想要的,則需要調(diào)整相應(yīng)的策略,使得事物朝著我們想要的方向去發(fā)展。 所以,大數(shù)據(jù)描述的是過(guò)去,表達(dá)的卻是未來(lái)! 即使數(shù)據(jù)分析方法用得再熟練,數(shù)據(jù)挖掘的模型再漂亮,如果沒(méi)有形成最終的業(yè)務(wù)建議,無(wú)法落地成可被執(zhí)行的業(yè)務(wù)策略,都是空談。 信息策略化,指的是基于對(duì)業(yè)務(wù)信息的理解,進(jìn)而提出相應(yīng)的業(yè)務(wù)策略和業(yè)務(wù)建議。 就比如前面的例子,基于客流量的規(guī)律,可用于選擇營(yíng)銷活動(dòng)的執(zhí)行時(shí)間;基于流感爆發(fā)的預(yù)測(cè),可用來(lái)提前作出相應(yīng)的準(zhǔn)備;基于情緒指數(shù)與股票指數(shù)的關(guān)系,可用于指導(dǎo)炒股的買賣,等等。 當(dāng)然,要把具體的信息形成有效的策略,這沒(méi)有一個(gè)統(tǒng)一標(biāo)準(zhǔn),只能是就事論事。 這是大數(shù)據(jù)產(chǎn)生價(jià)值必經(jīng)的三個(gè)環(huán)節(jié):業(yè)務(wù)數(shù)據(jù)化,數(shù)據(jù)信息化,信息策略化。 這三個(gè)環(huán)節(jié),一環(huán)扣一環(huán),缺一不可。要想讓數(shù)據(jù)產(chǎn)生價(jià)值,要想讓大數(shù)據(jù)服務(wù)于企業(yè)的商業(yè)行為,則需要基于這三個(gè)環(huán)節(jié),重新梳理企業(yè)的整個(gè)IT支撐系統(tǒng)。 沒(méi)有把業(yè)務(wù)定義成數(shù)據(jù)可分析問(wèn)題,數(shù)據(jù)分析就是盲目的缺乏指導(dǎo);沒(méi)有有效的數(shù)據(jù)分析,就無(wú)法提取出有價(jià)值的業(yè)務(wù)信息,整個(gè)大數(shù)據(jù)就沒(méi)有意義;業(yè)務(wù)信息無(wú)法形成最終的業(yè)務(wù)策略和業(yè)務(wù)建議,大數(shù)據(jù)的價(jià)值也就無(wú)法落地。 時(shí)間序列分析方法索引![]() 盡管回歸分析在預(yù)測(cè)時(shí)比較準(zhǔn)確,但是,實(shí)現(xiàn)比較復(fù)雜,因?yàn)樗竽軌蛘业剿谢虼蟛糠钟绊懯挛锏年P(guān)鍵因素,這樣才能夠建立回歸模型進(jìn)行預(yù)測(cè)。 但是,在真實(shí)的場(chǎng)景中,要找出影響事物的關(guān)鍵因素是非常困難的,比如,大多數(shù)社會(huì)經(jīng)濟(jì)指標(biāo),如國(guó)內(nèi)生產(chǎn)總值(GDP)、消費(fèi)價(jià)格指數(shù)(CPI)、上證綜合指數(shù)等等,要找出影響因素來(lái)建模,基本上不太可能,所以這種場(chǎng)景下,采用回歸分析難以實(shí)現(xiàn)。 那該怎么辦呢?此時(shí),可以嘗試使用另一種分析方法,即時(shí)間序列分析法。 時(shí)間序列分析,不像回歸分析,它是拋開了對(duì)事物發(fā)展的因果分析,只分析事物的過(guò)去和未來(lái)的聯(lián)系,即它假定事物的過(guò)去趨勢(shì)會(huì)延伸到未來(lái)。 時(shí)間序列(Timeseries),指的是按照相等時(shí)間間隔的順序而形成的數(shù)據(jù)序列。一般情況下,大多數(shù)社會(huì)經(jīng)濟(jì)指標(biāo),如GDP、CPI、利率、匯率等等都是時(shí)間序列。時(shí)間序列的時(shí)間間隔可以是分秒(如股票金融數(shù)據(jù)),也可以是日、周、月、季度、年,甚至更大的時(shí)間單位。 時(shí)間序列分析基于這樣一個(gè)假設(shè):事物過(guò)去的模型可以持續(xù)到未來(lái)。 簡(jiǎn)單地,一個(gè)時(shí)間序列會(huì)隨著時(shí)間變化而變化,如下圖所示的幾種變化形式。 比如左上第一個(gè)序列,有著明顯的季節(jié)性波動(dòng);右上第二個(gè)序列,有整體下降的趨勢(shì);左下第三個(gè)序列,呈現(xiàn)上升趨勢(shì)而且具有季節(jié)波動(dòng);右下第四個(gè)序列,沒(méi)有明顯的趨勢(shì)也沒(méi)有季節(jié)波動(dòng)。 最常見的時(shí)間序列分析模型和方法有如下三大類: 1) 趨勢(shì)類分析:移動(dòng)平均、指數(shù)平滑等; 2) 季節(jié)波動(dòng)類分析:溫特斯方法、基于回歸的方法; 3) 平穩(wěn)序列類分析:自回歸滑動(dòng)平均模型。 每一大類中,都會(huì)有多種分析方法和模型。 大數(shù)據(jù)的哲學(xué)觀大數(shù)據(jù)之所以成為第四范式,源于它建立在以下三個(gè)哲學(xué)思想之上。 唯物主義者說(shuō),世界是物質(zhì)的,物質(zhì)是運(yùn)動(dòng)的,運(yùn)動(dòng)是有規(guī)律的,規(guī)律是可以被認(rèn)識(shí)的。而大數(shù)據(jù),就是建立在探索世界規(guī)律基礎(chǔ)上的,這是大數(shù)據(jù)存在的哲學(xué)基礎(chǔ)。也有人說(shuō),不確定性是宇宙的本質(zhì)!從宇宙大爆炸那一刻起,就從混沌走向混亂,從秩序走向不確定性。然而,隨著科學(xué)的不斷發(fā)展,大量的不確定的事物正在慢慢變得確定。 自然界中,大到天體、星球的運(yùn)行,小到分子、原子的運(yùn)動(dòng),都遵循其固有的規(guī)律。這些規(guī)律看起來(lái)極其復(fù)雜,實(shí)則極其簡(jiǎn)潔,以至于牛頓僅用幾個(gè)定律和公式就描述清楚,科學(xué)家們用一只筆就能夠計(jì)算出遙遠(yuǎn)星系中某個(gè)星球的運(yùn)行軌跡。 不僅是自然界,人類社會(huì)的發(fā)展也是有規(guī)律。人類社會(huì)從原始社會(huì)開始,經(jīng)歷奴隸社會(huì)、封建社會(huì),進(jìn)而到達(dá)資本主義社會(huì)和社會(huì)主義社會(huì),看起來(lái)很混亂,然而社會(huì)的發(fā)展也是有規(guī)律的。比如,馬克思對(duì)大量復(fù)雜的社會(huì)現(xiàn)象進(jìn)行抽象分析,認(rèn)識(shí)到生產(chǎn)關(guān)系一定要適應(yīng)生產(chǎn)力發(fā)展是推動(dòng)人類社會(huì)發(fā)展的根本規(guī)律。 在生活中,人類的行為也同樣存在著各種規(guī)律,比如常說(shuō)的“二八定律”,“光環(huán)效應(yīng)”,“破窗效應(yīng)”,“馬太效應(yīng)”,等等,都是對(duì)人類行為規(guī)律的總結(jié)。所以,大到國(guó)家治理/經(jīng)濟(jì)發(fā)展,中到企業(yè)管理/市場(chǎng)營(yíng)銷,小到個(gè)人行為(包括購(gòu)買行為、消費(fèi)習(xí)慣)等等,都是有章可循的。而企業(yè)管理、市場(chǎng)營(yíng)銷等等,不外乎就是想發(fā)現(xiàn)這些人類行為的規(guī)律,并且利用這些規(guī)律來(lái)達(dá)到某種商業(yè)目的。 可見,萬(wàn)事萬(wàn)物的運(yùn)行和發(fā)展都是有其固有的發(fā)展規(guī)律的。整個(gè)宇宙體系,所有的星球運(yùn)行、所有的事物發(fā)展、所有的信息傳遞、所有的能量傳遞、所有的時(shí)空變化、所有的一切,都遵守著的某種基本規(guī)律。這種規(guī)律也許已經(jīng)被發(fā)現(xiàn),也許還沒(méi)有發(fā)現(xiàn)卻始終在影響著事物的發(fā)展變化。 那么,有沒(méi)有大數(shù)據(jù)無(wú)法應(yīng)用的領(lǐng)域呢?當(dāng)然有!曾經(jīng),有一個(gè)學(xué)員問(wèn)我:能不能用大數(shù)據(jù)來(lái)預(yù)測(cè)雙色球或彩票?我答到:不能!因?yàn)椴势辈痪哂幸?guī)律性,或者目前還沒(méi)有發(fā)現(xiàn)有規(guī)律性,所以,無(wú)法用大數(shù)據(jù)來(lái)進(jìn)行探索或預(yù)測(cè)。 哲學(xué)告訴我們說(shuō),世界是多維的。盡管,就我們?nèi)祟惸軌蚋兄目臻g來(lái)說(shuō),只有四維(即長(zhǎng)、寬、高、時(shí)間)空間,但是物理學(xué)界流行的說(shuō)法是世界應(yīng)該有11維時(shí)空。很多事物的現(xiàn)象在低維時(shí)空中無(wú)法解釋,但是在高維空間中卻能夠得到良好的解釋。所以,哲學(xué)告訴我們,要學(xué)會(huì)以多維的視角看世界。大數(shù)據(jù)的一個(gè)核心思維:融合思維,就基于世界的多維性。 小數(shù)據(jù)時(shí)代多數(shù)是從單一指標(biāo)、單一類別來(lái)分析事物,所以其結(jié)果不一定準(zhǔn)確有用;而大數(shù)據(jù),強(qiáng)調(diào)要從多個(gè)維度對(duì)數(shù)據(jù)進(jìn)行交叉分析,來(lái)全面地觀察事物的變化,進(jìn)而探索事物的內(nèi)在規(guī)律。所以,大數(shù)據(jù)區(qū)別在于小數(shù)據(jù)最本質(zhì)的,不是數(shù)據(jù)量的大,而是分析維度要多得多。 幾乎從未有過(guò)一個(gè)人在任何單一維度很強(qiáng)就能夠成為牛人,而是因?yàn)樗斫馐澜绲慕嵌榷嗖懦蔀榇罂?,這就是所謂的“多元思維模型”的價(jià)值,這也是大數(shù)據(jù)區(qū)別于小數(shù)據(jù)的價(jià)值所在。大數(shù)據(jù),更強(qiáng)調(diào)數(shù)據(jù)的多維性!強(qiáng)調(diào)分析問(wèn)題的多維性!大數(shù)據(jù)在體現(xiàn)事物規(guī)律的全面性方面,是小數(shù)據(jù)無(wú)法比擬的。 由于大數(shù)據(jù)具有多維和全面的特點(diǎn),所以,它可以從很多看似支離破碎的信息中復(fù)原一個(gè)事物的全貌,并進(jìn)而能夠預(yù)測(cè)或判斷出尚未觀察到的事物的現(xiàn)象。比如,愛因斯坦在(1916年)廣義相對(duì)論中預(yù)言了引力波的存在,即萬(wàn)有引力和引力波都是時(shí)空彎曲的結(jié)果,但是,這種引力波在一百年后(2015年)才被證實(shí)。 世界上的事物是普遍聯(lián)系的。普遍聯(lián)系,是指事物或現(xiàn)象之間以及事物內(nèi)部各要素之間是相互依賴、相互影響、相互作用、相互制約、相互轉(zhuǎn)化等相互關(guān)系。 聯(lián)系的形式也是無(wú)限多樣的,有現(xiàn)象之間的聯(lián)系,也有本質(zhì)之間的聯(lián)系。本質(zhì)聯(lián)系(即常說(shuō)的因果關(guān)系),是客觀事物的內(nèi)部聯(lián)系,是對(duì)事物的存在和發(fā)展起主要的、決定性作用的聯(lián)系,這種聯(lián)系體現(xiàn)了事物所固有的、內(nèi)在的根本性質(zhì),并貫穿于事物整個(gè)發(fā)展過(guò)程。而現(xiàn)象間的聯(lián)系(常說(shuō)的相關(guān)關(guān)系),指的是事物外部的、表面的、現(xiàn)象的聯(lián)系。 世界上的每一個(gè)事物或現(xiàn)象都與其它事物或現(xiàn)象相互聯(lián)系著,沒(méi)有絕對(duì)孤立的事物。通俗地說(shuō),任何事物都會(huì)受到其他因素的影響,受其他因素影響越大,事物的變化也就越大;受其他因素影響越小,事物的變化也就越小。 比如,美國(guó)華爾街一家基金公司,就利用社交網(wǎng)絡(luò)上人們的情緒指數(shù)與股票指數(shù)的同步性,來(lái)預(yù)測(cè)基金的漲跌,進(jìn)而指導(dǎo)基金的買賣。 唯物辯證法說(shuō),要以聯(lián)系的觀點(diǎn)來(lái)看問(wèn)題。大數(shù)據(jù)另一個(gè)核心思維:相關(guān)性思維,就是基于普遍聯(lián)系的哲學(xué)思維。當(dāng)你利用數(shù)據(jù)影響事物的相關(guān)因素找出來(lái),就能夠透過(guò)事物的現(xiàn)象抓住事物的本質(zhì)和規(guī)律,就能把握事物的發(fā)展和變化。 |
|
來(lái)自: 期盼又見晨曦 > 《大數(shù)據(jù)》