日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

相關(guān)關(guān)系與因果關(guān)系、相關(guān)性與影響因素分析、大數(shù)據(jù)建模五步法、大數(shù)據(jù)的哲學(xué)觀

 期盼又見晨曦 2019-03-24
什么是相關(guān)性

“萬(wàn)物皆有聯(lián)”,是大數(shù)據(jù)一個(gè)最重要的核心思維。

所謂聯(lián),這里指的就是事物之間的相互影響、相互制約、相互印證的關(guān)系,這種關(guān)系就叫做相關(guān)關(guān)系,就是我們常說(shuō)的相關(guān)性。

簡(jiǎn)單地說(shuō),如果有兩個(gè)事物,當(dāng)一個(gè)事物發(fā)生變化時(shí),另一個(gè)事物也隨著發(fā)生規(guī)律變化,我們就說(shuō)這兩個(gè)事物存在相關(guān)性。

世界上的所有事物,都會(huì)受到其它事物的影響。

比如,產(chǎn)品的銷量是受到各種因素的影響的,比如產(chǎn)品價(jià)格、品牌、質(zhì)量、售后服務(wù)等等,這些因素都會(huì)對(duì)產(chǎn)品銷量有著直接的影響。

又比如,產(chǎn)品的價(jià)格是受到供求狀況的影響和制約的。供給增加,價(jià)格就相對(duì)下降;供給減少,價(jià)格就相對(duì)上升。

再比如,在生活中,我們經(jīng)常會(huì)遇到下面的情況:

HR經(jīng)常會(huì)問(wèn):影響員工離職的原因是什么?

銷售人員會(huì)問(wèn):哪些要素會(huì)促使客戶選擇某產(chǎn)品?

營(yíng)銷人員會(huì)問(wèn):影響客戶流失的關(guān)鍵因素有哪些?

銷售主管會(huì)問(wèn):影響產(chǎn)品銷量下降的原因有哪些?

……

所有上述類似的這些業(yè)務(wù)問(wèn)題,轉(zhuǎn)化為數(shù)據(jù)問(wèn)題,都可以是相關(guān)性的問(wèn)題。

那么,如何來(lái)評(píng)估一個(gè)事物對(duì)另一個(gè)事物是否存在影響呢?以及這種影響程度有多大呢?這是數(shù)據(jù)分析要解決的一個(gè)問(wèn)題,也就是我們常說(shuō)的影響因素分析。
從因果到相關(guān)

影響因素分析,這是過(guò)去在小數(shù)據(jù)時(shí)代的叫法。在大數(shù)據(jù)時(shí)代,我們經(jīng)常用相關(guān)性分析來(lái)代替影響因素分析的說(shuō)法。

因果關(guān)系

在過(guò)去,我們強(qiáng)調(diào)的是因果關(guān)系,即先有原因,再有結(jié)果。如果找不到原因,我們往往會(huì)覺得結(jié)果也不可信。比如產(chǎn)品價(jià)格下降,會(huì)導(dǎo)致銷量上升,這個(gè)價(jià)格與銷量之間應(yīng)該是存在因果關(guān)系的,這從心理學(xué)和社會(huì)經(jīng)濟(jì)學(xué)上都能得到解釋。

所以,我們把尋找影響目標(biāo)變量的關(guān)鍵因素的過(guò)程,叫做影響因素分析。

相關(guān)關(guān)系

但在,隨著統(tǒng)計(jì)學(xué)的進(jìn)一步發(fā)現(xiàn),有些事物之間看起來(lái)并不存在因果關(guān)系:

在電影視頻的網(wǎng)站上,放上零食的廣告,會(huì)提升零食的銷售;

銀行業(yè)中信用較高的人,其發(fā)生交通事故的概率會(huì)較低;

鄉(xiāng)村音樂(lè)的喜好者傾向于支持共和黨,而搖滾歌迷傾向于支持民主黨;

選舉年,犯罪率會(huì)下降,但之后,犯罪率卻會(huì)上升;

……

這些也能夠體現(xiàn)事物之間的關(guān)系,但這些關(guān)系并不意味著因果。音樂(lè)愛好與政治傾向到底有什么關(guān)系?基本上很難找到合理的解釋,也就是說(shuō)“音樂(lè)”和“政治傾向”之間不一定存在因果關(guān)系,但這些在統(tǒng)計(jì)學(xué)上卻是有意義的。

像這種不一定存在因果關(guān)系的事物,我們用另一個(gè)比較貼切的說(shuō)法,就叫做相關(guān)關(guān)系。而尋找兩個(gè)事物之間是否存在相關(guān)性的過(guò)程,就叫做相關(guān)分析。

在不引起混淆的情況下,在本書中我們依然會(huì)使用影響因素分析的說(shuō)法。

相關(guān)關(guān)系≠因果關(guān)系

因果關(guān)系和相關(guān)關(guān)系是不一樣。兩個(gè)事物存在因果關(guān)系,那么它們一定存在相關(guān)關(guān)系;但存在相關(guān)關(guān)系的兩個(gè)事物,卻不一定是因果關(guān)系。

理論上,現(xiàn)在數(shù)據(jù)分析領(lǐng)域中所用的相關(guān)性分析方法,基本上都是基于統(tǒng)計(jì)的,所以只能說(shuō)兩個(gè)事物在統(tǒng)計(jì)意義上存在相關(guān)關(guān)系,卻無(wú)法判斷是否是因果關(guān)系。

存在相關(guān)關(guān)系的兩個(gè)事物,是否存在因果關(guān)系呢?這個(gè)僅憑數(shù)據(jù)方法是無(wú)法給出結(jié)論的,這還得需要專業(yè)人士從業(yè)務(wù)邏輯的角度來(lái)進(jìn)行人為地判斷。

比如:價(jià)格會(huì)影響銷量,這是已知的因果關(guān)系。即價(jià)格和銷量有因果關(guān)系,那么從數(shù)據(jù)上一定也會(huì)判斷出價(jià)格和銷量呈相關(guān)性。

再舉一個(gè)例子:父母的身高一定會(huì)影響子女的身高(這從基因的角度可以理解為因果關(guān)系),所以可知,父母身高與兒子身高呈相關(guān)性,父母身高與女兒身高也呈相關(guān)性;但是,在數(shù)據(jù)上,你有可能會(huì)發(fā)現(xiàn)哥哥身高與妹妹身高也呈相關(guān)性(他們都受父母身高影響),但哥哥身高與妹妹身高就不存在因果關(guān)系(從生物學(xué)上沒(méi)有因果關(guān)系)。即有相關(guān)性的兩個(gè)變量,不一定是因果關(guān)系。最多也只能說(shuō),有可能是因果關(guān)系(暫時(shí)沒(méi)有找到理論依據(jù))。

再比如,在前面章節(jié)提到的股民的情緒指數(shù)與道瓊斯指數(shù),股民的情緒指數(shù)在某種程度上可以用來(lái)反應(yīng)股票的漲跌情況,說(shuō)明存在相關(guān)關(guān)系,但是否存在因果關(guān)系,這就無(wú)法確定了。

按照《大數(shù)據(jù)時(shí)代》的說(shuō)法,即使找不到因果關(guān)系,只要能夠?qū)ふ业阶銐蚨嗟南嚓P(guān)性,并將這種相關(guān)性用于問(wèn)題的解決過(guò)程中,也能夠起到巨大的作用。

相關(guān)性與影響因素分析

“萬(wàn)物皆有聯(lián)”,是大數(shù)據(jù)一個(gè)最重要的核心思維。所謂聯(lián),這里指的就是事物之間的相互影響、相互制約、相互印證的關(guān)系。而事物這種相互影響、相互關(guān)聯(lián)的關(guān)系,就叫做相關(guān)關(guān)系,簡(jiǎn)稱相關(guān)性。

世界上的所有事物,都會(huì)受到其它事物的影響。HR經(jīng)常會(huì)問(wèn):影響員工離職的關(guān)鍵原因是什么?是工資還是發(fā)展空間?銷售人員會(huì)問(wèn):哪些要素會(huì)促使客戶購(gòu)買某產(chǎn)品?是價(jià)格還是質(zhì)量?營(yíng)銷人員會(huì)問(wèn):影響客戶流失的關(guān)鍵因素有哪些?是競(jìng)爭(zhēng)還是服務(wù)等?產(chǎn)品設(shè)計(jì)人員:影響汽車產(chǎn)品受歡迎的關(guān)鍵功能有哪些??jī)r(jià)格、還是動(dòng)力等?

所有的這些商業(yè)問(wèn)題,轉(zhuǎn)化為數(shù)據(jù)問(wèn)題,不外乎就是評(píng)估一個(gè)因素與另一個(gè)因素之間的相互影響或相互關(guān)聯(lián)的關(guān)系。而分析這種事物之間關(guān)聯(lián)性的方法,就是相關(guān)性分析方法。

當(dāng)然,有相關(guān)關(guān)系,并不一定意味著是因果關(guān)系。但因果關(guān)系,則一定是相關(guān)關(guān)系。

在過(guò)去,主要是要尋找影響事物的因果關(guān)系,所以過(guò)去也叫影響因素分析。但是,從統(tǒng)計(jì)學(xué)方法來(lái)說(shuō),因果關(guān)系一定會(huì)有統(tǒng)計(jì)顯著,但統(tǒng)計(jì)顯著并不一定就是因果關(guān)系,所以準(zhǔn)確地說(shuō),影響因素分析應(yīng)該改為相關(guān)性分析。所以,在不引起混淆的情況下,我們也會(huì)用影響因素分析。

相關(guān)性種類

客觀事物之間的相關(guān)性,大致可歸納為兩大類:一類是函數(shù)關(guān)系,一類是統(tǒng)計(jì)關(guān)系

函數(shù)關(guān)系,就是兩個(gè)變量的取值存在一個(gè)函數(shù)來(lái)唯一描述。比如,銷售額與銷售量之間的關(guān)系,可用函數(shù)y=px(y表示銷售額,p表示單價(jià),x表示銷售量)來(lái)表示。所以,銷售量和銷售額存在函數(shù)關(guān)系。這一類關(guān)系,不是我們關(guān)注的重點(diǎn)。

統(tǒng)計(jì)關(guān)系,指的是兩事物之間的非一一對(duì)應(yīng)關(guān)系,即當(dāng)變量x取一定值時(shí),另一個(gè)變量y雖然不唯一確定,但按某種規(guī)律在一定的范圍內(nèi)發(fā)生變化。比如,子女身高與父母身高、廣告費(fèi)用與銷售額的關(guān)系,是無(wú)法用一個(gè)函數(shù)關(guān)系唯一確定其取值的,但這些變量之間確實(shí)存在一定的關(guān)系。大多數(shù)情況下,父母身高越高,子女的身高也就越高;廣告費(fèi)用花得越多,其銷售額也相對(duì)越多。這種關(guān)系,就叫做統(tǒng)計(jì)關(guān)系。

進(jìn)一步,統(tǒng)計(jì)分析如果按照相關(guān)的形態(tài)來(lái)說(shuō),可分為線性相關(guān)和非線性相關(guān)(曲線相關(guān));如果按照相關(guān)的方向來(lái)分,可分為正相關(guān)和負(fù)相關(guān),等等。

詳細(xì)見下面的圖形。

相關(guān)性描述方式

描述兩個(gè)變量是否有相關(guān)性,常見的方式有:相關(guān)圖(典型的如散點(diǎn)圖和列聯(lián)表等等)、相關(guān)系數(shù)、統(tǒng)計(jì)顯著性。如果用可視化的方式來(lái)呈現(xiàn)各種相關(guān)性,常見有如下散點(diǎn)圖。

至于相關(guān)系數(shù)和統(tǒng)計(jì)顯著性,請(qǐng)參后續(xù)章節(jié)。

相關(guān)性方法種類

對(duì)于不同的因素類型,采用的相關(guān)性分析方法也不相同。下面簡(jiǎn)單總結(jié)一下所選用的相關(guān)性分析方法。

解釋變量類型

被解釋變量類型

方法

作用

數(shù)值型變量

數(shù)值型變量

相關(guān)分析

衡量?jī)蓚€(gè)變量的相關(guān)程度

類別型變量

數(shù)值型變量

方差分析

評(píng)估因素對(duì)目標(biāo)變量是否有顯著影響

類別型變量

類別型變量

列聯(lián)分析

評(píng)估兩個(gè)因素是否相互獨(dú)立

舉一個(gè)簡(jiǎn)單的例子:

某電信運(yùn)營(yíng)商,面臨增量不增收的困境,想弄明白哪些因素有可能會(huì)影響客戶的消費(fèi)水平(也就是說(shuō),哪些因素與費(fèi)用有相關(guān)性),以及哪些因素與客戶流失有相關(guān)性,于是收集了如下的表格,請(qǐng)分析并給出結(jié)論。

從方法的適用場(chǎng)景,可知:

1)  如果要評(píng)估收入對(duì)于基本費(fèi)用的相關(guān)性,則可用相關(guān)性分析。

2)  如果要評(píng)估婚姻狀況對(duì)于基本費(fèi)用的相關(guān)性,則可用方差分析。

3)  如果要評(píng)估教育水平對(duì)于客戶流失的相關(guān)性,則可用列聯(lián)分析。

其余可采用類似的方法。

大數(shù)據(jù)建模五步法

前一陣子,某網(wǎng)絡(luò)公司發(fā)起了一個(gè)什么建模大賽,有個(gè)學(xué)員問(wèn)我,數(shù)據(jù)建模怎么搞?為了滿足他的好學(xué)精神,我決定寫這一篇文章,來(lái)描述一下數(shù)據(jù)分析必須要掌握的技能:數(shù)據(jù)建模。本文將嘗試來(lái)梳理一下數(shù)據(jù)建模的步驟,以及每一步需要做的工作。 

第一步:選擇模型或自定義模式

這是建模的第一步,我們需要基于業(yè)務(wù)問(wèn)題,來(lái)決定可以選擇哪些可用的模型。

比如,如果要預(yù)測(cè)產(chǎn)品銷量,則可以選擇數(shù)值預(yù)測(cè)模型(比如回歸模型,時(shí)序預(yù)測(cè)……);如果要預(yù)測(cè)員工是否離職,則可以選擇分類模型(比如決策樹、神經(jīng)網(wǎng)絡(luò)……)。

如果沒(méi)有現(xiàn)成的模型可用,那么恭喜你,你可以自定義模型了。不過(guò),一般情況下,自己定義模型不是那么容易的事情,沒(méi)有深厚的數(shù)學(xué)基礎(chǔ)和研究精神,自己思考出一個(gè)解決特定問(wèn)題的數(shù)學(xué)模型基本上是幻想。所以,自定義模型的事情還是留給學(xué)校的教授們?nèi)パ芯亢烷_發(fā)吧。當(dāng)前絕大多數(shù)人所謂的建模,都只是選擇一個(gè)已有的數(shù)學(xué)模型來(lái)工作而已。

一般情況,模型都有一個(gè)固定的模樣和形式。但是,有些模型包含的范圍較廣,比如回歸模型,其實(shí)不是某一個(gè)特定的模型,而是一類模型。我們知道,所謂的回歸模型,其實(shí)就是自變量和因變量的一個(gè)函數(shù)關(guān)系式而已,如下表所示。因此,回歸模型的選擇,也就有了無(wú)限的可能性,回歸模型的樣子(或叫方程)可以是你能夠想到的任何形式的回歸方程。所以,從某種意義上看,你自己想出一個(gè)很少人見過(guò)的回歸方程,也可以勉強(qiáng)算是自定義模型了哈!

那么,這么多可選的模型,到底選擇哪個(gè)模型才好呢?我的答復(fù)是:天知道!

天知道應(yīng)該選擇哪個(gè)模型會(huì)好一些!你問(wèn)我,我問(wèn)誰(shuí)啊?如果在這個(gè)時(shí)候有人告訴你,你的業(yè)務(wù)應(yīng)該選擇哪個(gè)回歸方程會(huì)更好一些,那么,我敢肯定,你遇上的肯定是“磚家”而不是“專家”。模型的好壞是不能夠單獨(dú)來(lái)評(píng)論的(你往下看就知道了)!就如小孩子討論的你爸爸好還是我爸爸好一樣,你說(shuō)誰(shuí)好?

那么,是不是我們?cè)谶x擇模型時(shí)就得靠運(yùn)氣了?其實(shí)真有那么一點(diǎn)靠運(yùn)氣的成份,不過(guò)好在后續(xù)數(shù)學(xué)家們給我們提供了評(píng)估模型好壞的依據(jù)?,F(xiàn)在,我們只能靠運(yùn)氣來(lái)選擇某一個(gè)模型了。


第二步:訓(xùn)練模型

當(dāng)模型選擇好了以后,就到了訓(xùn)練模型這一步。

我們知道,之所以叫模型,這個(gè)模型大致的形狀或模式是固定的,但模型中還會(huì)有一些不確定的東東在里面,這樣模型才會(huì)有通用性,如果模型中所有的東西都固定死了,模型的通用性就沒(méi)有了。模型中可以適當(dāng)變化的部分,一般叫做參數(shù),就比如前面回歸模型中的α、β等參數(shù)。

所謂訓(xùn)練模型,其實(shí)就是要基于真實(shí)的業(yè)務(wù)數(shù)據(jù)來(lái)確定最合適的模型參數(shù)而已。模型訓(xùn)練好了,也就是意味著找到了最合適的參數(shù)。一旦找到最優(yōu)參數(shù),模型就基本可用了。當(dāng)然,要找到最優(yōu)的模型參數(shù)一般是比較困難的,怎樣找?如何找?這就涉及到算法了。哦,一想到算法,我的頭就開始痛了,都怪當(dāng)年數(shù)學(xué)沒(méi)有學(xué)好呀!

當(dāng)然,最笨的辦法,我們可以不斷的嘗試參數(shù),來(lái)找到一個(gè)最好的參數(shù)值。一個(gè)一個(gè)試?這不是要試到生命結(jié)束?開玩笑啦,不可能去一個(gè)一個(gè)試的啦。反正有工具會(huì)幫你找到最優(yōu)參數(shù)的,什么最優(yōu)化算法中的什么梯度上升呀梯度下降呀,你就不用操心了呀,這些留給分析工具來(lái)實(shí)現(xiàn)就可以了!

當(dāng)然,一個(gè)好的算法要運(yùn)行速度快且復(fù)雜度低,這樣才能夠?qū)崿F(xiàn)快速的收斂,而且能夠找到全局最優(yōu)的參數(shù),否則訓(xùn)練所花的時(shí)間過(guò)長(zhǎng)效率低,還只找到局部最優(yōu)參數(shù),就讓人難以忍受了。

第三步:評(píng)估模型

模型訓(xùn)練好以后,接下來(lái)就是評(píng)估模型。

所謂評(píng)估模型,就是決定一下模型的質(zhì)量,判斷模型是否有用。前面說(shuō)過(guò),模型的好壞是不能夠單獨(dú)評(píng)估的,一個(gè)模型的好壞是需要放在特定的業(yè)務(wù)場(chǎng)景下來(lái)評(píng)估的,也就是基于特定的數(shù)據(jù)集下才能知道哪個(gè)模型好與壞。

既然要評(píng)估一個(gè)模型的好壞,就應(yīng)該有一些評(píng)價(jià)指標(biāo)。比如,數(shù)值預(yù)測(cè)模型中,評(píng)價(jià)模型質(zhì)量的常用指標(biāo)有:平均誤差率、判定系數(shù)R2,等等;評(píng)估分類預(yù)測(cè)模型質(zhì)量的常用指標(biāo)(如下圖所示)有:正確率、查全率、查準(zhǔn)率、ROC曲線和AUC值等等。對(duì)于分類預(yù)測(cè)模型,一般要求正確率和查全率等越大越好,最好都接近100%,表示模型質(zhì)量好,無(wú)誤判。

在真實(shí)的業(yè)務(wù)場(chǎng)景中,評(píng)估指標(biāo)是基于測(cè)試集的,而不是訓(xùn)練集。所以,在建模時(shí),一般要將原始數(shù)據(jù)集分成兩部分,一部分用于訓(xùn)練模型,叫訓(xùn)練集;另一部分用于評(píng)估模型,叫測(cè)試集或驗(yàn)證集。

有的人可能會(huì)想,為什么評(píng)估模型要用兩個(gè)不同的數(shù)據(jù)集,直接用一個(gè)訓(xùn)練集不就可以了?理論上是不行的,因?yàn)槟P褪腔谟?xùn)練集構(gòu)建起來(lái)的,所以在理論上模型在訓(xùn)練集上肯定有較好的效果。但是,后來(lái)數(shù)學(xué)家們發(fā)現(xiàn),在訓(xùn)練集上有較好預(yù)測(cè)效果的模型,在真實(shí)的業(yè)務(wù)應(yīng)用場(chǎng)景下其預(yù)測(cè)效果不一定好(這種現(xiàn)象稱之為過(guò)擬合)。所以,將訓(xùn)練集和測(cè)試集分開來(lái),一個(gè)用于訓(xùn)練模型,一個(gè)用于評(píng)估模型,這樣可以提前發(fā)現(xiàn)模型是不是存在過(guò)擬合。

如果發(fā)現(xiàn)在訓(xùn)練集和測(cè)試集上的預(yù)測(cè)效果差不多,就表示模型質(zhì)量尚好,應(yīng)該可以直接使用了。如果發(fā)現(xiàn)訓(xùn)練集和測(cè)試集上的預(yù)測(cè)效果相差太遠(yuǎn),就說(shuō)明模型還有優(yōu)化的余地。

當(dāng)然,如果只想驗(yàn)證一次就想準(zhǔn)確評(píng)估出模型的好壞,好像是不合適的。所以,建議采用交叉驗(yàn)證的方式來(lái)進(jìn)行多次評(píng)估,以找到準(zhǔn)確的模型誤差。

其實(shí),模型的評(píng)估是分開在兩個(gè)業(yè)務(wù)場(chǎng)景中的:

一、是基于過(guò)去發(fā)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行驗(yàn)證,即測(cè)試集。本來(lái),模型的構(gòu)建就是基于過(guò)去的數(shù)據(jù)集的構(gòu)建的。

二、是基于真實(shí)的業(yè)務(wù)場(chǎng)景數(shù)據(jù)進(jìn)行驗(yàn)證。即,在應(yīng)用模型步驟中檢驗(yàn)?zāi)P偷恼鎸?shí)應(yīng)用結(jié)果。

第四步:應(yīng)用模型

如果評(píng)估模型質(zhì)量在可接受的范圍內(nèi),而且沒(méi)有出現(xiàn)過(guò)擬合,于是就可以開始應(yīng)用模型了。

這一步,就需要將可用的模型開發(fā)出來(lái),并部署在數(shù)據(jù)分析系統(tǒng)中,然后可以形成數(shù)據(jù)分析的模板和可視化的分析結(jié)果,以便實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)分析報(bào)告。

應(yīng)用模型,就是將模型應(yīng)用于真實(shí)的業(yè)務(wù)場(chǎng)景。構(gòu)建模型的目的,就是要用于解決工作中的業(yè)務(wù)問(wèn)題的,比如預(yù)測(cè)客戶行為,比如劃分客戶群,等等。

當(dāng)然,應(yīng)用模型過(guò)程中,還需要收集業(yè)務(wù)預(yù)測(cè)結(jié)果與真實(shí)的業(yè)務(wù)結(jié)果,以檢驗(yàn)?zāi)P驮谡鎸?shí)的業(yè)務(wù)場(chǎng)景中的效果,同時(shí)用于后續(xù)模型的優(yōu)化。

第五步:優(yōu)化模型

優(yōu)化模型,一般發(fā)生在兩種情況下:

一、是在評(píng)估模型中,如果發(fā)現(xiàn)模型欠擬合,或者過(guò)擬合,說(shuō)明這個(gè)模型待優(yōu)化。

二、是在真實(shí)應(yīng)用場(chǎng)景中,定期進(jìn)行優(yōu)化,或者當(dāng)發(fā)現(xiàn)模型在真實(shí)的業(yè)務(wù)場(chǎng)景中效果不好時(shí),也要啟動(dòng)優(yōu)化。

如果在評(píng)估模型時(shí),發(fā)現(xiàn)模型欠擬合(即效果不佳)或者過(guò)擬合,則模型不可用,需要優(yōu)化模型。所謂的模型優(yōu)化,可以有以下幾種情況:

1)  重新選擇一個(gè)新的模型;

2)  模型中增加新的考慮因素;

3)  嘗試調(diào)整模型中的閾值到最優(yōu);

4)  嘗試對(duì)原始數(shù)據(jù)進(jìn)行更多的預(yù)處理,比如派生新變量。

不同的模型,其模型優(yōu)化的具體做法也不一樣。比如回歸模型的優(yōu)化,你可能要考慮異常數(shù)據(jù)對(duì)模型的影響,也要進(jìn)行非線性和共線性的檢驗(yàn);再比如說(shuō)分類模型的優(yōu)化,主要是一些閾值的調(diào)整,以實(shí)現(xiàn)精準(zhǔn)性與通用性的均衡。當(dāng)然,也可以采用元算法來(lái)優(yōu)化模型,就是通過(guò)訓(xùn)練多個(gè)弱模型,來(lái)構(gòu)建一個(gè)強(qiáng)模型(即三個(gè)臭皮匠,頂上一個(gè)諸葛亮)來(lái)實(shí)現(xiàn)模型的最佳效果。

實(shí)際上,模型優(yōu)化不僅僅包含了對(duì)模型本身的優(yōu)化,還包含了對(duì)原始數(shù)據(jù)的處理優(yōu)化,如果數(shù)據(jù)能夠得到有效的預(yù)處理,可以在某種程度上降低對(duì)模型的要求。所以,當(dāng)你發(fā)現(xiàn)你嘗試的所有模型效果都不太好的時(shí)候,別忘記了,這有可能是你的數(shù)據(jù)集沒(méi)有得到有效的預(yù)處理,沒(méi)有找到合適的關(guān)鍵因素(自變量)。

不可能有一個(gè)模型適用于所有業(yè)務(wù)場(chǎng)景,也不太可能有一個(gè)固有的模型就適用于你的業(yè)務(wù)場(chǎng)景。好模型都是優(yōu)化出來(lái)的!

最后語(yǔ)

正如數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程一樣,構(gòu)建模型的這五個(gè)步驟,并不是單向的,而是一個(gè)循環(huán)的過(guò)程。當(dāng)發(fā)現(xiàn)模型不佳時(shí),就需要優(yōu)化,就有可能回到最開始的地方重新開始思考。即使模型可用了,也需要定期對(duì)模型進(jìn)行維護(hù)和優(yōu)化,以便讓模型能夠繼續(xù)適用新的業(yè)務(wù)場(chǎng)景。

大數(shù)據(jù)的三個(gè)關(guān)鍵環(huán)節(jié)

大數(shù)據(jù),是應(yīng)用導(dǎo)向的。它以商業(yè)需求為出發(fā)點(diǎn),然后借助數(shù)據(jù)的手段,來(lái)發(fā)現(xiàn)商業(yè)活動(dòng)的本質(zhì),進(jìn)而形成商業(yè)活動(dòng)的決策和建議,以實(shí)現(xiàn)最終的商業(yè)目的。

 所以,在大數(shù)據(jù)領(lǐng)域,要想讓數(shù)據(jù)產(chǎn)生價(jià)值,涉及到三個(gè)關(guān)鍵環(huán)節(jié):

(一)  將商業(yè)問(wèn)題轉(zhuǎn)化數(shù)據(jù)可分析問(wèn)題。

(二)  對(duì)數(shù)據(jù)進(jìn)行有效的處理和分析,提取數(shù)據(jù)中蘊(yùn)含的業(yè)務(wù)信息。

(三)  基于業(yè)務(wù)信息,形成最終的業(yè)務(wù)策略及應(yīng)用。

這三個(gè)環(huán)節(jié),一環(huán)扣一環(huán),缺一不可。要想讓數(shù)據(jù)產(chǎn)生價(jià)值,要想讓大數(shù)據(jù)服務(wù)于企業(yè)的商業(yè)行為,則需要基于這三個(gè)環(huán)節(jié),重新梳理企業(yè)的整個(gè)IT支撐系統(tǒng)。

為了方便描述,我把這三個(gè)環(huán)節(jié)簡(jiǎn)化為如下的幾句話:業(yè)務(wù)數(shù)據(jù)化、數(shù)據(jù)信息化、信息策略化。

業(yè)務(wù)數(shù)據(jù)化

簡(jiǎn)單地說(shuō),業(yè)務(wù)數(shù)據(jù)化,就是將業(yè)務(wù)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)問(wèn)題。

在數(shù)學(xué)家的眼里,世界的本質(zhì)是數(shù)學(xué)的。同樣,在數(shù)據(jù)分析師的眼里,任何一個(gè)商業(yè)問(wèn)題,都可轉(zhuǎn)化為一個(gè)數(shù)學(xué)問(wèn)題,或者是一個(gè)數(shù)據(jù)問(wèn)題,一個(gè)數(shù)據(jù)可分析的問(wèn)題。

萬(wàn)物皆可量化

這源于一個(gè)最樸素的數(shù)據(jù)價(jià)值觀:萬(wàn)物皆可量化。

比如,要想弄明白一個(gè)人的興趣和愛好,就可以收集他在百度上搜索過(guò)什么關(guān)鍵詞,在今日頭條上閱讀過(guò)哪類資訊,瀏覽過(guò)哪些網(wǎng)站等這些數(shù)據(jù)。

要想了解客戶的消費(fèi)能力,則可以查看他的存款、每月的工資收入,或者他買過(guò)的產(chǎn)品的價(jià)格檔次等數(shù)據(jù)。

同樣,要知道他去了哪里,則收集到車票機(jī)票數(shù)據(jù)、酒店住宿和景點(diǎn)門票數(shù)據(jù),最直接的是手機(jī)GPS數(shù)據(jù),都能夠直接體現(xiàn)他的位置信息,等等。

正因如此,我們就可以通過(guò)數(shù)據(jù)來(lái)間接地描述客觀事物。

萬(wàn)物皆數(shù)據(jù)化

同樣地,大多數(shù)的商業(yè)問(wèn)題,都可以定義為數(shù)據(jù)可分析的問(wèn)題。

比如,用戶購(gòu)買行為分析的問(wèn)題,轉(zhuǎn)化為數(shù)據(jù)的問(wèn)題,其實(shí)就是對(duì)客戶的瀏覽數(shù)據(jù)、搜索數(shù)據(jù)、點(diǎn)擊數(shù)據(jù)和交易數(shù)據(jù)等進(jìn)行統(tǒng)計(jì)分析,以查看其中的行為規(guī)律和行為模式;

市場(chǎng)精準(zhǔn)營(yíng)銷的問(wèn)題,簡(jiǎn)單地可看成是一個(gè)分類預(yù)測(cè)的問(wèn)題,即判斷一個(gè)客戶會(huì)不會(huì)購(gòu)買公司的產(chǎn)品,會(huì)購(gòu)買公司的哪一款產(chǎn)品,以及大概在什么時(shí)候會(huì)有購(gòu)買需求,等等;

銀行的風(fēng)險(xiǎn)控制和風(fēng)險(xiǎn)識(shí)別問(wèn)題,實(shí)際上是判斷一個(gè)人是否會(huì)拖欠貸款的預(yù)測(cè)問(wèn)題;

產(chǎn)品銷量提升的問(wèn)題,就是要判斷有哪些因素會(huì)影響產(chǎn)品銷量,其實(shí)可看成是一個(gè)影響因素分析的問(wèn)題,即是一個(gè)相關(guān)性問(wèn)題;

產(chǎn)品功能設(shè)計(jì)問(wèn)題,也可以是一個(gè)影響因素分析的問(wèn)題,即哪些功能和特征會(huì)對(duì)銷量產(chǎn)生比較大的影響,這些有顯著影響的功用和特征是需要在設(shè)計(jì)時(shí)重點(diǎn)考慮的;

當(dāng)然,一個(gè)商業(yè)問(wèn)題也可以轉(zhuǎn)化為幾個(gè)不同模式的數(shù)據(jù)問(wèn)題,不同的數(shù)據(jù)問(wèn)題得到的業(yè)務(wù)模式和業(yè)務(wù)信息也是不相同的。

一句話,萬(wàn)事皆可數(shù)據(jù)化。

業(yè)務(wù)數(shù)據(jù)化,這一環(huán)節(jié)是大數(shù)據(jù)的開始,它是整個(gè)大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的起點(diǎn),沒(méi)有商業(yè)問(wèn)題的指引,后續(xù)的環(huán)節(jié)(數(shù)據(jù)分析與數(shù)據(jù)挖掘)將會(huì)顯得盲目而毫無(wú)意義。

數(shù)據(jù)信息化

數(shù)據(jù)信息化,簡(jiǎn)單地說(shuō),就是將數(shù)據(jù)變成信息,即要提取數(shù)據(jù)中蘊(yùn)含的業(yè)務(wù)信息。

數(shù)據(jù)信息化,這一環(huán)節(jié)是大數(shù)據(jù)的核心,它是整個(gè)大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的靈魂,要是無(wú)法對(duì)數(shù)據(jù)進(jìn)行有效地分析和挖掘,就無(wú)法提取到有用的業(yè)務(wù)信息。

那么,數(shù)據(jù)中究竟包含了哪些業(yè)務(wù)信息呢?我認(rèn)為,大數(shù)據(jù)至少可以用來(lái)發(fā)現(xiàn)如下的業(yè)務(wù)信息:

1)  業(yè)務(wù)的運(yùn)行規(guī)律和特征

2)  業(yè)務(wù)的變化和問(wèn)題

3)  業(yè)務(wù)運(yùn)行的影響因素

4)  業(yè)務(wù)在未來(lái)的發(fā)展趨勢(shì)

下面我將為大家一一介紹如何提取業(yè)務(wù)的這些信息。

探索規(guī)律

哲學(xué)告訴我們,任何事物都是發(fā)展的,發(fā)展必定是有規(guī)律的,即萬(wàn)事皆有規(guī)律。

任何客觀事物,不管是企業(yè)的運(yùn)營(yíng)管理,還是市場(chǎng)營(yíng)銷行為,都是有規(guī)律的。而大數(shù)據(jù),則是探索這種規(guī)律的有效的工具!

如下所示,幾乎所有的零售店的銷量都有如下的特征,即周末的銷量比工作日的銷量往往要多得多,而這些數(shù)據(jù)中就體出了客流量在時(shí)間上的分布規(guī)律。

發(fā)現(xiàn)變化

世界是物質(zhì)的,而物質(zhì)是運(yùn)動(dòng)的,運(yùn)動(dòng)是事物的本質(zhì)。

一切事物都在運(yùn)動(dòng)變化,這些運(yùn)動(dòng)變化是可以被探知的。

谷歌工程師每日都會(huì)對(duì)搜索感冒相關(guān)詞的搜索量做過(guò)分析,在正常情況下,某地區(qū)每日的搜索量都會(huì)在一個(gè)正常的范圍內(nèi)波動(dòng)。但如果有一天(比如12號(hào)開始),某地區(qū)的搜索量開始持續(xù)上升,這上升的背后,其實(shí)體現(xiàn)的是患感冒人數(shù)的增加。基于此理論,谷歌的工程師開發(fā)出一個(gè)大數(shù)據(jù)產(chǎn)品GFT(Google Flu Trend),專門用來(lái)預(yù)測(cè)流感的爆發(fā)。這個(gè)產(chǎn)品,甚至可以在流感爆發(fā)前的7-14天就能夠做出預(yù)判。

探索關(guān)系

唯物辯證法認(rèn)為,世界上的一切事物都處在普遍聯(lián)系中,沒(méi)有任何一個(gè)事物是孤立地存在的。聯(lián)系是指事物之間以及事物內(nèi)部諸要素之間相互連結(jié)、相互依賴、相互影響、相互作用、相互轉(zhuǎn)化等相互關(guān)系。

美國(guó)印第安納大學(xué)的教授約翰·博倫(Johan Bollen),曾發(fā)表了一篇文章《Twitter情緒預(yù)測(cè)股票市場(chǎng)》,其中就發(fā)現(xiàn)了人類的情緒指數(shù)與股票指數(shù)的具有較強(qiáng)的相關(guān)性。如下圖所示,當(dāng)情緒曲線往后挪3~4天以后,情緒的波動(dòng)和股票的漲跌具有較強(qiáng)的一致性,這開啟了大數(shù)據(jù)炒股的新時(shí)代。

一句話,萬(wàn)物皆有聯(lián)系,而大數(shù)據(jù)成為探索事物間相互聯(lián)系的一種有效的手段。

預(yù)測(cè)未來(lái)

大家都知道,大數(shù)據(jù)分析的是已經(jīng)發(fā)生過(guò)的數(shù)據(jù),那么過(guò)去的數(shù)據(jù)已經(jīng)發(fā)生還有什么用呢?大數(shù)據(jù)只是借過(guò)去的數(shù)據(jù)來(lái)探索事物的規(guī)律和特征,其目的是為了探索事物在未來(lái)的發(fā)展變化或發(fā)展趨勢(shì),因此,大數(shù)據(jù)的目的是預(yù)測(cè)。基于對(duì)事物的預(yù)測(cè)結(jié)果,用來(lái)作出相應(yīng)的策略調(diào)整。如果預(yù)測(cè)的結(jié)果不是我們想要的,則需要調(diào)整相應(yīng)的策略,使得事物朝著我們想要的方向去發(fā)展。

所以,大數(shù)據(jù)描述的是過(guò)去,表達(dá)的卻是未來(lái)!

信息策略化

即使數(shù)據(jù)分析方法用得再熟練,數(shù)據(jù)挖掘的模型再漂亮,如果沒(méi)有形成最終的業(yè)務(wù)建議,無(wú)法落地成可被執(zhí)行的業(yè)務(wù)策略,都是空談。

信息策略化,指的是基于對(duì)業(yè)務(wù)信息的理解,進(jìn)而提出相應(yīng)的業(yè)務(wù)策略和業(yè)務(wù)建議。

就比如前面的例子,基于客流量的規(guī)律,可用于選擇營(yíng)銷活動(dòng)的執(zhí)行時(shí)間;基于流感爆發(fā)的預(yù)測(cè),可用來(lái)提前作出相應(yīng)的準(zhǔn)備;基于情緒指數(shù)與股票指數(shù)的關(guān)系,可用于指導(dǎo)炒股的買賣,等等。

當(dāng)然,要把具體的信息形成有效的策略,這沒(méi)有一個(gè)統(tǒng)一標(biāo)準(zhǔn),只能是就事論事。

這是大數(shù)據(jù)產(chǎn)生價(jià)值必經(jīng)的三個(gè)環(huán)節(jié):業(yè)務(wù)數(shù)據(jù)化,數(shù)據(jù)信息化,信息策略化。

這三個(gè)環(huán)節(jié),一環(huán)扣一環(huán),缺一不可。要想讓數(shù)據(jù)產(chǎn)生價(jià)值,要想讓大數(shù)據(jù)服務(wù)于企業(yè)的商業(yè)行為,則需要基于這三個(gè)環(huán)節(jié),重新梳理企業(yè)的整個(gè)IT支撐系統(tǒng)。

沒(méi)有把業(yè)務(wù)定義成數(shù)據(jù)可分析問(wèn)題,數(shù)據(jù)分析就是盲目的缺乏指導(dǎo);沒(méi)有有效的數(shù)據(jù)分析,就無(wú)法提取出有價(jià)值的業(yè)務(wù)信息,整個(gè)大數(shù)據(jù)就沒(méi)有意義;業(yè)務(wù)信息無(wú)法形成最終的業(yè)務(wù)策略和業(yè)務(wù)建議,大數(shù)據(jù)的價(jià)值也就無(wú)法落地。

時(shí)間序列分析方法索引

要作數(shù)值預(yù)測(cè),最好的方法莫過(guò)于回歸預(yù)測(cè)。通過(guò)建立起影響因素(即自變量)與目標(biāo)變量之間的函數(shù)關(guān)系式,就可以對(duì)因變量的未來(lái)值進(jìn)行預(yù)測(cè)。

盡管回歸分析在預(yù)測(cè)時(shí)比較準(zhǔn)確,但是,實(shí)現(xiàn)比較復(fù)雜,因?yàn)樗竽軌蛘业剿谢虼蟛糠钟绊懯挛锏年P(guān)鍵因素,這樣才能夠建立回歸模型進(jìn)行預(yù)測(cè)。

但是,在真實(shí)的場(chǎng)景中,要找出影響事物的關(guān)鍵因素是非常困難的,比如,大多數(shù)社會(huì)經(jīng)濟(jì)指標(biāo),如國(guó)內(nèi)生產(chǎn)總值(GDP)、消費(fèi)價(jià)格指數(shù)(CPI)、上證綜合指數(shù)等等,要找出影響因素來(lái)建模,基本上不太可能,所以這種場(chǎng)景下,采用回歸分析難以實(shí)現(xiàn)。

那該怎么辦呢?此時(shí),可以嘗試使用另一種分析方法,即時(shí)間序列分析法

基本原理

時(shí)間序列分析,不像回歸分析,它是拋開了對(duì)事物發(fā)展的因果分析,只分析事物的過(guò)去和未來(lái)的聯(lián)系,即它假定事物的過(guò)去趨勢(shì)會(huì)延伸到未來(lái)。

時(shí)間序列(Timeseries),指的是按照相等時(shí)間間隔的順序而形成的數(shù)據(jù)序列。一般情況下,大多數(shù)社會(huì)經(jīng)濟(jì)指標(biāo),如GDP、CPI、利率、匯率等等都是時(shí)間序列。時(shí)間序列的時(shí)間間隔可以是分秒(如股票金融數(shù)據(jù)),也可以是日、周、月、季度、年,甚至更大的時(shí)間單位。

時(shí)間序列分析基于這樣一個(gè)假設(shè):事物過(guò)去的模型可以持續(xù)到未來(lái)。

時(shí)序形態(tài)

簡(jiǎn)單地,一個(gè)時(shí)間序列會(huì)隨著時(shí)間變化而變化,如下圖所示的幾種變化形式。

比如左上第一個(gè)序列,有著明顯的季節(jié)性波動(dòng);右上第二個(gè)序列,有整體下降的趨勢(shì);左下第三個(gè)序列,呈現(xiàn)上升趨勢(shì)而且具有季節(jié)波動(dòng);右下第四個(gè)序列,沒(méi)有明顯的趨勢(shì)也沒(méi)有季節(jié)波動(dòng)。

常用方法

最常見的時(shí)間序列分析模型和方法有如下三大類:

1)  趨勢(shì)類分析:移動(dòng)平均、指數(shù)平滑等;

2)  季節(jié)波動(dòng)類分析:溫特斯方法、基于回歸的方法;

3)  平穩(wěn)序列類分析:自回歸滑動(dòng)平均模型。

每一大類中,都會(huì)有多種分析方法和模型。

大數(shù)據(jù)的哲學(xué)觀

2007年上,圖靈獎(jiǎng)得主吉姆格瑞在發(fā)表最后一次演講時(shí)說(shuō):大數(shù)據(jù)已經(jīng)成為科學(xué)研究的第四范式。人類在科學(xué)研究的道路上,從經(jīng)驗(yàn)科學(xué),到理論科學(xué),再到計(jì)算科學(xué),如今到數(shù)據(jù)密集型科學(xué),科學(xué)研究對(duì)于世界運(yùn)行規(guī)律的探索永不停止,大數(shù)據(jù)成為第四范式也是必然之路。

大數(shù)據(jù)之所以成為第四范式,源于它建立在以下三個(gè)哲學(xué)思想之上。

世界是有規(guī)律的

唯物主義者說(shuō),世界是物質(zhì)的,物質(zhì)是運(yùn)動(dòng)的,運(yùn)動(dòng)是有規(guī)律的,規(guī)律是可以被認(rèn)識(shí)的。而大數(shù)據(jù),就是建立在探索世界規(guī)律基礎(chǔ)上的,這是大數(shù)據(jù)存在的哲學(xué)基礎(chǔ)。也有人說(shuō),不確定性是宇宙的本質(zhì)!從宇宙大爆炸那一刻起,就從混沌走向混亂,從秩序走向不確定性。然而,隨著科學(xué)的不斷發(fā)展,大量的不確定的事物正在慢慢變得確定。

自然界中,大到天體、星球的運(yùn)行,小到分子、原子的運(yùn)動(dòng),都遵循其固有的規(guī)律。這些規(guī)律看起來(lái)極其復(fù)雜,實(shí)則極其簡(jiǎn)潔,以至于牛頓僅用幾個(gè)定律和公式就描述清楚,科學(xué)家們用一只筆就能夠計(jì)算出遙遠(yuǎn)星系中某個(gè)星球的運(yùn)行軌跡。

不僅是自然界,人類社會(huì)的發(fā)展也是有規(guī)律。人類社會(huì)從原始社會(huì)開始,經(jīng)歷奴隸社會(huì)、封建社會(huì),進(jìn)而到達(dá)資本主義社會(huì)和社會(huì)主義社會(huì),看起來(lái)很混亂,然而社會(huì)的發(fā)展也是有規(guī)律的。比如,馬克思對(duì)大量復(fù)雜的社會(huì)現(xiàn)象進(jìn)行抽象分析,認(rèn)識(shí)到生產(chǎn)關(guān)系一定要適應(yīng)生產(chǎn)力發(fā)展是推動(dòng)人類社會(huì)發(fā)展的根本規(guī)律。

在生活中,人類的行為也同樣存在著各種規(guī)律,比如常說(shuō)的“二八定律”,“光環(huán)效應(yīng)”,“破窗效應(yīng)”,“馬太效應(yīng)”,等等,都是對(duì)人類行為規(guī)律的總結(jié)。所以,大到國(guó)家治理/經(jīng)濟(jì)發(fā)展,中到企業(yè)管理/市場(chǎng)營(yíng)銷,小到個(gè)人行為(包括購(gòu)買行為、消費(fèi)習(xí)慣)等等,都是有章可循的。而企業(yè)管理、市場(chǎng)營(yíng)銷等等,不外乎就是想發(fā)現(xiàn)這些人類行為的規(guī)律,并且利用這些規(guī)律來(lái)達(dá)到某種商業(yè)目的。

可見,萬(wàn)事萬(wàn)物的運(yùn)行和發(fā)展都是有其固有的發(fā)展規(guī)律的。整個(gè)宇宙體系,所有的星球運(yùn)行、所有的事物發(fā)展、所有的信息傳遞、所有的能量傳遞、所有的時(shí)空變化、所有的一切,都遵守著的某種基本規(guī)律。這種規(guī)律也許已經(jīng)被發(fā)現(xiàn),也許還沒(méi)有發(fā)現(xiàn)卻始終在影響著事物的發(fā)展變化。

而大數(shù)據(jù),是對(duì)客觀世界的量化和記錄的結(jié)果,是客觀事物的規(guī)律表現(xiàn)出來(lái)的現(xiàn)象,通過(guò)對(duì)大數(shù)據(jù)的深入分析,就可以發(fā)現(xiàn)事物運(yùn)行和發(fā)展的規(guī)律,進(jìn)而利用這些規(guī)律,這也是為什么大數(shù)據(jù)能夠用在幾乎任何行業(yè)和領(lǐng)域的原因。

那么,有沒(méi)有大數(shù)據(jù)無(wú)法應(yīng)用的領(lǐng)域呢?當(dāng)然有!曾經(jīng),有一個(gè)學(xué)員問(wèn)我:能不能用大數(shù)據(jù)來(lái)預(yù)測(cè)雙色球或彩票?我答到:不能!因?yàn)椴势辈痪哂幸?guī)律性,或者目前還沒(méi)有發(fā)現(xiàn)有規(guī)律性,所以,無(wú)法用大數(shù)據(jù)來(lái)進(jìn)行探索或預(yù)測(cè)。

世界是多維的

哲學(xué)告訴我們說(shuō),世界是多維的。盡管,就我們?nèi)祟惸軌蚋兄目臻g來(lái)說(shuō),只有四維(即長(zhǎng)、寬、高、時(shí)間)空間,但是物理學(xué)界流行的說(shuō)法是世界應(yīng)該有11維時(shí)空。很多事物的現(xiàn)象在低維時(shí)空中無(wú)法解釋,但是在高維空間中卻能夠得到良好的解釋。所以,哲學(xué)告訴我們,要學(xué)會(huì)以多維的視角看世界。大數(shù)據(jù)的一個(gè)核心思維:融合思維,就基于世界的多維性。

小數(shù)據(jù)時(shí)代多數(shù)是從單一指標(biāo)、單一類別來(lái)分析事物,所以其結(jié)果不一定準(zhǔn)確有用;而大數(shù)據(jù),強(qiáng)調(diào)要從多個(gè)維度對(duì)數(shù)據(jù)進(jìn)行交叉分析,來(lái)全面地觀察事物的變化,進(jìn)而探索事物的內(nèi)在規(guī)律。所以,大數(shù)據(jù)區(qū)別在于小數(shù)據(jù)最本質(zhì)的,不是數(shù)據(jù)量的大,而是分析維度要多得多。

幾乎從未有過(guò)一個(gè)人在任何單一維度很強(qiáng)就能夠成為牛人,而是因?yàn)樗斫馐澜绲慕嵌榷嗖懦蔀榇罂?,這就是所謂的“多元思維模型”的價(jià)值,這也是大數(shù)據(jù)區(qū)別于小數(shù)據(jù)的價(jià)值所在。大數(shù)據(jù),更強(qiáng)調(diào)數(shù)據(jù)的多維性!強(qiáng)調(diào)分析問(wèn)題的多維性!大數(shù)據(jù)在體現(xiàn)事物規(guī)律的全面性方面,是小數(shù)據(jù)無(wú)法比擬的。

由于大數(shù)據(jù)具有多維和全面的特點(diǎn),所以,它可以從很多看似支離破碎的信息中復(fù)原一個(gè)事物的全貌,并進(jìn)而能夠預(yù)測(cè)或判斷出尚未觀察到的事物的現(xiàn)象。比如,愛因斯坦在(1916年)廣義相對(duì)論中預(yù)言了引力波的存在,即萬(wàn)有引力和引力波都是時(shí)空彎曲的結(jié)果,但是,這種引力波在一百年后(2015年)才被證實(shí)。

萬(wàn)物皆有聯(lián)

世界上的事物是普遍聯(lián)系的。普遍聯(lián)系,是指事物或現(xiàn)象之間以及事物內(nèi)部各要素之間是相互依賴、相互影響、相互作用、相互制約、相互轉(zhuǎn)化等相互關(guān)系。

 聯(lián)系的形式也是無(wú)限多樣的,有現(xiàn)象之間的聯(lián)系,也有本質(zhì)之間的聯(lián)系。本質(zhì)聯(lián)系(即常說(shuō)的因果關(guān)系),是客觀事物的內(nèi)部聯(lián)系,是對(duì)事物的存在和發(fā)展起主要的、決定性作用的聯(lián)系,這種聯(lián)系體現(xiàn)了事物所固有的、內(nèi)在的根本性質(zhì),并貫穿于事物整個(gè)發(fā)展過(guò)程。而現(xiàn)象間的聯(lián)系(常說(shuō)的相關(guān)關(guān)系),指的是事物外部的、表面的、現(xiàn)象的聯(lián)系。

世界上的每一個(gè)事物或現(xiàn)象都與其它事物或現(xiàn)象相互聯(lián)系著,沒(méi)有絕對(duì)孤立的事物。通俗地說(shuō),任何事物都會(huì)受到其他因素的影響,受其他因素影響越大,事物的變化也就越大;受其他因素影響越小,事物的變化也就越小。

比如,美國(guó)華爾街一家基金公司,就利用社交網(wǎng)絡(luò)上人們的情緒指數(shù)與股票指數(shù)的同步性,來(lái)預(yù)測(cè)基金的漲跌,進(jìn)而指導(dǎo)基金的買賣。

唯物辯證法說(shuō),要以聯(lián)系的觀點(diǎn)來(lái)看問(wèn)題。大數(shù)據(jù)另一個(gè)核心思維:相關(guān)性思維,就是基于普遍聯(lián)系的哲學(xué)思維。當(dāng)你利用數(shù)據(jù)影響事物的相關(guān)因素找出來(lái),就能夠透過(guò)事物的現(xiàn)象抓住事物的本質(zhì)和規(guī)律,就能把握事物的發(fā)展和變化。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多