日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

回歸模型的基礎(chǔ)是相關(guān)

 昵稱A4812 2019-02-25
    相關(guān)是隨機(jī)理論的基礎(chǔ)。田徑賽中百米運(yùn)動(dòng)員想跑得快,需要大步幅與高步頻,但步幅和步卻是一對相互矛盾的存在,只有步幅和步頻達(dá)到最優(yōu)平衡點(diǎn)時(shí),人才可以跑的更快,所以任何運(yùn)動(dòng)員都需要建立步幅和步頻之間的平衡模型。

    相關(guān)關(guān)系是數(shù)據(jù)分析的基石,統(tǒng)計(jì)關(guān)系可以理解為兩大類,,:

1、函數(shù)關(guān)系:即確定性關(guān)系、確定的對應(yīng)關(guān)系,反映著現(xiàn)象之間存在著嚴(yán)格的依存關(guān)系,這種關(guān)系可以用數(shù)學(xué)表達(dá)式Y=f(x)表達(dá)。例如由于價(jià)格因素,羅森某天的營業(yè)總額和商品銷量之間就存在著嚴(yán)格的依存關(guān)系,再例如圓與半徑之間也存在著嚴(yán)格的依存關(guān)系;

2、隨機(jī)關(guān)系:即相關(guān)關(guān)系,變量間不能用函數(shù)關(guān)系精確的表達(dá),點(diǎn)不能被函數(shù)完全刻畫,X與Y間誰決定并誰不知道。例如銷量和收入的關(guān)系。


相關(guān)關(guān)系一般有如下三種:

一對一相關(guān):一個(gè)Y對一個(gè)X,即簡單相關(guān),生活中用的最多;

一對多相關(guān):一個(gè)Y對多個(gè)X,即復(fù)相關(guān),例如R方就是復(fù)相關(guān)系數(shù);

多對多相關(guān):多個(gè)Y對多個(gè)X,這涉及到了典型相關(guān)分析。


    統(tǒng)計(jì)中能被稱為相關(guān)系數(shù)的參數(shù)有四十多個(gè),大部分統(tǒng)計(jì)軟件只能提供spearman、pearson、kendall這幾個(gè)相關(guān)系數(shù),SAS除了這三個(gè)相關(guān)系數(shù)外,還能提供hoeffman相關(guān)系數(shù),信用評分中一般會使用hoeffding相關(guān)系數(shù),所以fico信用評分的代碼一般會用SAS來寫,相較于其他語言,我也更喜歡用SAS去建立信用評分模型

    此外,pearson、spearman、kendall與hoeffman相關(guān)系數(shù)要求數(shù)據(jù)起碼為定序數(shù)據(jù),如果數(shù)據(jù)為定類數(shù)據(jù),則只能進(jìn)行列聯(lián)相關(guān)了。


    模型中一般需要Y和X間要相關(guān),但是X之間最好不要相關(guān)。相關(guān)有統(tǒng)計(jì)意義上的相關(guān)和實(shí)際業(yè)務(wù)中的相關(guān)之分,有些數(shù)據(jù)變量間在統(tǒng)計(jì)上相關(guān)性很強(qiáng),但是實(shí)際業(yè)務(wù)中卻并沒有關(guān)系,這種情況就需要關(guān)注數(shù)據(jù)是否出了問題。

    一般會用相關(guān)系數(shù)去衡量數(shù)據(jù)的相關(guān)性。相關(guān)性具有如下特點(diǎn):

1、相關(guān)性取值還是負(fù)取決于分子協(xié)方差

2、相關(guān)性的絕對值在0與1之間;

3、相關(guān)性絕對值的大小可以說明事物之間相關(guān)關(guān)系的緊密程度。

    一般相關(guān)系數(shù)的衡量標(biāo)準(zhǔn)為:

1、相關(guān)性絕對值<0.3表明事物間沒有關(guān)系

2、0.3<=相關(guān)性絕對值<0.5表明事物間相關(guān);

3、0.5<=相關(guān)性絕對值<0.8表明事物間顯著相關(guān);

4、相關(guān)性絕對值>=0.8表明事物間高度相關(guān)。

    一般,相關(guān)系數(shù)非常高如0.85的情況只會出現(xiàn)在書本上,實(shí)際工作中我還沒有遇到,如果出現(xiàn)這么高的相關(guān)系數(shù),可能是遇到了偽相關(guān)悖論。我舉一個(gè)例子來說明偽相關(guān)悖論是什么:例如張三是我在東北上大學(xué)時(shí)的大學(xué)同學(xué),李四是我在北京工作的同事,張三來北京看我,我們?nèi)吮阌辛岁P(guān)聯(lián),但是如果沒有我,我的北京同事和的大學(xué)同學(xué)這輩子都不會有什么人生交集,所以張三和李四間因?yàn)?em>便產(chǎn)生了偽相關(guān)。偽相關(guān)沒有辦法進(jìn)行檢驗(yàn),所以如果計(jì)算出的相關(guān)系數(shù)很高,一定要小心的判斷下這兩個(gè)變量在業(yè)務(wù)中是否合理。


    例如場景為下班路上,數(shù)據(jù)涉及變量為上班耗時(shí)time、年齡age、體重weight、身體狀態(tài)performance、以及耗費(fèi)精力energy。目的為計(jì)算分析變量間的相關(guān)關(guān)系。

    下面的兩段代碼分別為指定固定變量與非指定固定變量兩種情況下 實(shí)現(xiàn)相關(guān)系數(shù)計(jì)算的 SAS代碼:

1、 利用with參數(shù)指定固定變量為energy,得到的結(jié)果為每個(gè)變量與energy變量的散點(diǎn)圖:

proc corr data=XUHUI pearson spearman kendall hoeffding               rank plots(only)=scatter(nvar=all ellipse=none);

          var time age weight performance;

          with energy;

          id name;

          title 'Correlations and Scatter Plots with energy';

run;

2、這種寫法中沒有指定with參數(shù),除了得到四個(gè)相關(guān)系數(shù)的計(jì)算結(jié)果外,還會得到變量之間的散點(diǎn)矩陣,即所有變量 兩兩之間的相互關(guān)系:

proc corr data=XUHUI pearson spearman kendall hoeffding              nosimple  plots=matrix(nvar=all histogram);

          var time age weight performance;

          title 'Correlations and Scatter Plot Matrix of Predictors';

run;


    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多