日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

[轉(zhuǎn)載]logistic回歸模型總結(jié)

 wenasunny 2016-12-29
 

       logistic回歸模型是最成熟也是應(yīng)用最廣泛的分類模型,通過學(xué)習(xí)和實踐擬通過從入門、進階到高級的過程對其進行總結(jié),以便加深自己的理解也為對此有興趣者提供學(xué)習(xí)的便利。

一、有關(guān)logistic的基本概念

  logistic回歸主要用來預(yù)測離散因變量與一組解釋變量之間的關(guān)系

最常用的是二值型logistic。即因變量的取值只包含兩個類別 例如:好、壞 ;發(fā)生、不發(fā)生;常用Y=1或Y=0表示 X表示解釋變量則

P(Y=1|X)表示在X的條件下Y=1的概率,logistic回歸的數(shù)學(xué)表達式為:

log(p/1-p)=A+BX =L其中p/1-p稱為優(yōu)勢比(ODDS) 即發(fā)生與不發(fā)生的概率之比

可以根據(jù)上式反求出P(Y=1|X)=1/(1+e^-L)

根據(jù)樣本資料可以通過最大似然估計計算出模型的參數(shù)

然后根據(jù)求出的模型進行預(yù)測

下面介紹logistic回歸在SAS中的實現(xiàn)以及輸出結(jié)果的解釋

二、logistic回歸模型初步

SAS中logistic回歸輸出結(jié)果主要包括預(yù)測模型的評價以及模型的參數(shù)

預(yù)測模型的評價與多元線性回歸模型的評價類似主要從以下幾個層次進行

(1)模型的整體擬合優(yōu)度

主要評價預(yù)測值與觀測值之間的總體一致性。可以通過以下兩個指標來進行檢驗

1、Hosmer-Lemeshowz指標

        HL統(tǒng)計量的原假設(shè)Ho是預(yù)測值和觀測值之間無顯著差異,因此HL指標的P-Value的值越大,越不能拒絕原假設(shè),即說明模型很好的擬合了數(shù)據(jù)。

在SAS中這個指標可以用LACKFIT選項進行調(diào)用

2、AIC和SC指標 即池雷準則和施瓦茨準則

         與線性回歸類似AIC和SC越小說明模型擬合的越好

(2)從整體上看解釋變量對因變量有無解釋作用

          相當于多元回歸中的F檢驗 在logistic回歸中可以通過似然比(likelihood ratio test)進行檢驗

(3)解釋變量解釋在多大程度上解釋了因變量

          與線性回歸中的R^2作用類似 在logistic回歸中可以通過Rsquare和C統(tǒng)計量進行度量

在SAS中通過RSQ來調(diào)用Rsquare,C統(tǒng)計量自動輸出

 (4) 模型評價指標匯總

統(tǒng)計量

趨勢

擬合

作用

SAS調(diào)用命令

備注

AICSC

越小

越好

類似與多元回歸中的殘差平方和

模型自動輸出

 

似然比卡方

越大

越好

類似與多元回歸中的回歸平方和

自動輸出

P值越小越好

RSQUARE

越大

越好

類似與多元回歸中的R^2

RSQ選項調(diào)用

 

C統(tǒng)計量

越大

越好

度量觀測值和條件預(yù)測的相對一致性

自動輸出

 

HL統(tǒng)計量

越小

越好

度量觀測值和預(yù)測值總體的一致性

LACKFIT選項調(diào)用

P值越大越好

說明:在實踐中,對以上統(tǒng)計量最為關(guān)注的是C統(tǒng)計量,其次是似然比卡方,最后才是HL統(tǒng)計量。AIC和RSQUARE極少關(guān)注,這一點和多元線性回歸有很大的區(qū)別。根本原因就是多元線性回歸模型是一個預(yù)測模型,目標變量的值具有實際意義;而logistic是一個分類模型,目標變量只是一個分類標識,因此更關(guān)注預(yù)測值和預(yù)測值之間的相對一致性而不是絕對一致性。(注:引自姚志勇的《SAS編程與數(shù)據(jù)挖掘商業(yè)案例》)

(5)以SAS幫助中例子為例對輸出結(jié)果進行解釋說明

data Remission;       input remiss cell smear infil li blast temp;
      cards;

    .8   .83  .66  1.9  1.1     .996
    .9   .36  .32  1.4   .74    .992
    .8   .88  .7    .8   .176   .982
      .87  .87   .7  1.053   .986
    .9   .75  .68  1.3   .519   .98
      .65  .65   .6   .519   .982
    .95  .97  .92    1.23    .992
    .95  .87  .83  1.9  1.354  1.02
      .45  .45   .8   .322   .999
    .95  .36  .34   .5      1.038
    .85  .39  .33   .7   .279   .988
    .7   .76  .53  1.2   .146   .982
    .8   .46  .37   .4   .38   1.006
    .2   .39  .08   .8   .114   .99
      .9   .9   1.1  1.037   .99
      .84  .84  1.9  2.064  1.02
    .65  .42  .27   .5   .114  1.014
      .75  .75    1.322  1.004
    .5   .44  .22   .6   .114   .99
      .63  .63  1.1  1.072   .986
      .33  .33   .4   .176  1.01
    .9   .93  .84   .6  1.591  1.02
      .58  .58     .531  1.002
    .95  .32  .3   1.6   .886   .988
      .6   .6   1.7   .964   .99
      .69  .69   .9   .398   .986
      .73  .73   .7   .398   .986
   ;
run;

proc logistic data= Remission desc;

model  remiss=cell smear infil li blast temp

                       /selection=stepwise

                       lackfit

                      Rsquare;

run;

輸出結(jié)果如下:紅色字體是對輸出結(jié)果的注釋

(一)

SAS 系統(tǒng)

The LOGISTIC Procedure
                                                       SAS 系統(tǒng)

                                                The LOGISTIC Procedure


Model Information
Data Set WORK.TEST    (注:指明模型所用的數(shù)據(jù)集)  
Response Variable TRAD (注:指明模型的因變量) Complete Remission
Number of Response Levels          (注:指明模型因變量取兩類值)  
Model binary logit (注:指明模型是二分類logistic回歸模型)  
Optimization Technique Fisher's scoring (注:指明采用的是fisher優(yōu)化方法)  

Number of Observations Read 165
Number of Observations Used 165


Response Profile
Ordered
Value
remiss Total
Frequency
1 1 82
2 0 83
(注:指明因變量的取值類型及取每一類變量的頻數(shù))


Probability modeled is remiss=1.(注:這個要關(guān)注 指明了模型求的是在自變量作用下因變量remiss=1的概率)
(二)
Stepwise Selection Procedure(注:逐步回歸的選擇過程,說明了模型是怎么一步步根據(jù)一定的原則來選擇最終進入模型的變量的)

Step 0. Intercept entered:(注:第一步只包含截距項而無變量時時的結(jié)果)

Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.
(注:用來判斷模型的收斂狀態(tài)的,也就是說經(jīng)過迭代模型是否求得了參數(shù)satisfied說明收斂了,unsatisfied說明沒收斂)

-2 Log L = 228.733


Residual Chi-Square Test
Chi-Square DF Pr ChiSq
62.1911 4 <.0001

Step 1. Effect FAC4_1 entered:(變量FAC4_1進入模型)


 

Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.



 

Model Fit Statistics
Criterion Intercept
Only
Intercept
and
Covariates
AIC 230.733 105.210
SC 233.838 111.422
-2 Log L 228.733 101.210

(注:AIC、SC和-2 Log L都變小了說明加入變量FAC4_1后模型擬合的更好了)

 

R-Square 0.5383 Max-rescaled R-Square 0.7178



 

Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr ChiSq
Likelihood Ratio 127.5226 1 <.0001
Score 58.4568 1 <.0001
Wald 37.8154 1 <.0001

(注:原假設(shè)是所有變量的參數(shù)為0 ,根據(jù)檢驗結(jié)果可以看出P<0.001拒絕原假設(shè),即變量的參數(shù)不全為0)

 

Residual Chi-Square Test
Chi-Square DF Pr ChiSq
11.2572 3 0.0104

接下來的跟上面的一樣都是些變量的選擇過程,進進出出的

(三)最終的結(jié)果如下

 

Note: No effects for the model in Step 1 are removed.




Step 2. Effect FAC3_1 entered:



Summary of Stepwise Selection
Step Effect DF Number
In
Score
Chi-Square
Wald
Chi-Square
Pr ChiSq Variable
Label
Entered Removed
1 FAC4_1   1 1 58.4568   <.0001 FAC4_1
2 FAC3_1   1 2 8.9660   0.0028 FAC3_1


Analysis of Maximum Likelihood Estimates
Parameter DF Estimate Standard
Error
Wald
Chi-Square
Pr ChiSq
Intercept 1 -2.6404 0.5092 26.8906 <.0001
FAC3_1 1 -1.1846 0.4843 5.9825 0.0144
FAC4_1 1 -4.7236 0.7924 35.5318 <.0001


Odds Ratio Estimates
Effect Point Estimate 95% Wald
Confidence Limits
FAC3_1 0.306 0.118 0.790
FAC4_1 0.009 0.002 0.042


Association of Predicted Probabilities and
Observed Responses
Percent Concordant 95.1 Somers' D 0.902
Percent Discordant 4.9 Gamma 0.903
Percent Tied 0.0 Tau-a 0.454
Pairs 6806 c 0.951


Partition for the Hosmer and Lemeshow Test
Group Total trad = 1 trad = 0
Observed Expected Observed Expected
1 17 0 0.01 17 16.99
2 17 0 0.29 17 16.71
3 17 4 1.17 13 15.83
4 17 0 2.93 17 14.07
5 17 8 6.82 9 10.18
6 17 8 11.06 9 5.94
7 17 16 14.49 1 2.51
8 17 17 16.32 0 0.68
9 17 17 16.91 0 0.09
10 12 12 12.00 0 0.00


Hosmer and Lemeshow Goodness-of-Fit
Test
Chi-Square DF Pr ChiSq
15.8290 8 0.0449


-2 Log L = 34.372


Residual Chi-Square Test
Chi-Square DF Pr ChiSq
9.4609 6 0.1493
  

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多