logistic回歸模型是最成熟也是應(yīng)用最廣泛的分類模型,通過學(xué)習(xí)和實踐擬通過從入門、進階到高級的過程對其進行總結(jié),以便加深自己的理解也為對此有興趣者提供學(xué)習(xí)的便利。
一、有關(guān)logistic的基本概念
logistic回歸主要用來預(yù)測離散因變量與一組解釋變量之間的關(guān)系
最常用的是二值型logistic。即因變量的取值只包含兩個類別
例如:好、壞 ;發(fā)生、不發(fā)生;常用Y=1或Y=0表示 X表示解釋變量則
P(Y=1|X)表示在X的條件下Y=1的概率,logistic回歸的數(shù)學(xué)表達式為:
log(p/1-p)=A+BX =L其中p/1-p稱為優(yōu)勢比(ODDS) 即發(fā)生與不發(fā)生的概率之比
可以根據(jù)上式反求出P(Y=1|X)=1/(1+e^-L)
根據(jù)樣本資料可以通過最大似然估計計算出模型的參數(shù)
然后根據(jù)求出的模型進行預(yù)測
下面介紹logistic回歸在SAS中的實現(xiàn)以及輸出結(jié)果的解釋
二、logistic回歸模型初步
SAS中logistic回歸輸出結(jié)果主要包括預(yù)測模型的評價以及模型的參數(shù)
預(yù)測模型的評價與多元線性回歸模型的評價類似主要從以下幾個層次進行
(1)模型的整體擬合優(yōu)度
主要評價預(yù)測值與觀測值之間的總體一致性。可以通過以下兩個指標來進行檢驗
1、Hosmer-Lemeshowz指標
HL統(tǒng)計量的原假設(shè)Ho是預(yù)測值和觀測值之間無顯著差異,因此HL指標的P-Value的值越大,越不能拒絕原假設(shè),即說明模型很好的擬合了數(shù)據(jù)。
在SAS中這個指標可以用LACKFIT選項進行調(diào)用
2、AIC和SC指標 即池雷準則和施瓦茨準則
與線性回歸類似AIC和SC越小說明模型擬合的越好
(2)從整體上看解釋變量對因變量有無解釋作用
相當于多元回歸中的F檢驗 在logistic回歸中可以通過似然比(likelihood ratio
test)進行檢驗
(3)解釋變量解釋在多大程度上解釋了因變量
與線性回歸中的R^2作用類似
在logistic回歸中可以通過Rsquare和C統(tǒng)計量進行度量
在SAS中通過RSQ來調(diào)用Rsquare,C統(tǒng)計量自動輸出
(4)
模型評價指標匯總
統(tǒng)計量
|
趨勢
|
擬合
|
作用
|
SAS調(diào)用命令
|
備注
|
AIC、SC
|
越小
|
越好
|
類似與多元回歸中的殘差平方和
|
模型自動輸出
|
|
似然比卡方
|
越大
|
越好
|
類似與多元回歸中的回歸平方和
|
自動輸出
|
P值越小越好
|
RSQUARE
|
越大
|
越好
|
類似與多元回歸中的R^2
|
用RSQ選項調(diào)用
|
|
C統(tǒng)計量
|
越大
|
越好
|
度量觀測值和條件預(yù)測的相對一致性
|
自動輸出
|
|
HL統(tǒng)計量
|
越小
|
越好
|
度量觀測值和預(yù)測值總體的一致性
|
用LACKFIT選項調(diào)用
|
P值越大越好
|
說明:在實踐中,對以上統(tǒng)計量最為關(guān)注的是C統(tǒng)計量,其次是似然比卡方,最后才是HL統(tǒng)計量。AIC和RSQUARE極少關(guān)注,這一點和多元線性回歸有很大的區(qū)別。根本原因就是多元線性回歸模型是一個預(yù)測模型,目標變量的值具有實際意義;而logistic是一個分類模型,目標變量只是一個分類標識,因此更關(guān)注預(yù)測值和預(yù)測值之間的相對一致性而不是絕對一致性。(注:引自姚志勇的《SAS編程與數(shù)據(jù)挖掘商業(yè)案例》)
(5)以SAS幫助中例子為例對輸出結(jié)果進行解釋說明
data Remission;
input remiss cell smear infil li blast temp;
cards;
1
.8 .83
.66 1.9
1.1
.996
1
.9 .36
.32 1.4
.74
.992
0
.8 .88
.7
.8
.176 .982
0
1
.87 .87
.7 1.053
.986
1
.9 .75
.68 1.3
.519 .98
0
1
.65 .65
.6
.519 .982
1 .95
.97 .92
1
1.23
.992
0 .95
.87 .83 1.9
1.354 1.02
0
1
.45 .45
.8
.322 .999
0 .95
.36 .34
.5
0
1.038
0 .85
.39 .33
.7
.279 .988
0
.7 .76
.53 1.2
.146 .982
0
.8 .46
.37
.4
.38 1.006
0
.2 .39
.08
.8
.114 .99
0
1
.9
.9 1.1
1.037 .99
1
1
.84 .84 1.9
2.064 1.02
0 .65
.42 .27
.5 .114
1.014
0
1
.75 .75
1
1.322 1.004
0
.5 .44
.22
.6
.114 .99
1
1 |