蔡云飛：SPSS 軟件實現(xiàn)多重線性回歸及共線性解決辦法

子悠682 2016-07-21

展開全文

蔡云飛：SPSS 軟件實現(xiàn)多重線性回歸及共線性解決辦法

皮膚科的統(tǒng)計學家(蔡云飛) · 2016-01-02 20:30

蔡云飛：SPSS 軟件實現(xiàn)多重線性回歸及共線性解決辦法

本文章參照多個文章材料整合而成。

1. 模型簡介

本文所要討論的問題是如何同時考慮多個因素對同一觀測結(jié)果的影響，這一觀測結(jié)果是需要滿足正態(tài)分布的計量資料。此時，因變量（Dependent Variable）只有一個，也稱為反應(yīng)變量或響應(yīng)變量（Response Variable），常用 Y 表示。自變量（Independent Variable），也稱解釋變量（Explanatory Variable）可有多個，p 個自變量用向量形式表示為（X1,X2,X3,...,Xp）。設(shè)有 n 例觀察對象，第 i 例（i=1,2,3,…,n）的一組觀察值為（Yi, Xi1,Xi2,Xi3,…,Xip）。當因變量與自變量組之間存在多重線性關(guān)系時，應(yīng)用多重線性回歸模型可以很好地刻畫它們之間的關(guān)系。

由上式可以看出，實測值由兩部分組成，第一部分為其估計值，用表示，即給定各自變量取值時，因變量Y的估計值，表示能由自變量決定的部分。為殘差，是應(yīng)變量實測值 Y 與其估計值之間的差值，表示不由自變量決定的部分。它對于判斷當前建立的模型是否成立，是否還有別的變量需要引入模型等一系列問題是非常有價值的。式中為常數(shù)項，它表示當所有自變量取值均為 0 時因變量的估計值，為偏回歸系數(shù)，表示當其他自變量取值固定時（所以在回歸系數(shù)前加上“偏”字），自變量 Xi 每改變一個單位時，的變化量。

2. 案例

某醫(yī)生收集了 97 名成年男性的資料，并分別測得其血常規(guī)和血生化指標，原始數(shù)據(jù)如下表，試以血紅蛋白為因變量，其他變量為自變量進行線性回歸分析。

3. SPSS 錄入數(shù)據(jù)

變量賦值如下：

X1：性別	女=0 ；男=1
X2：年齡	青年= 1，中年= 2，老年= 3
X3：紅細胞數(shù)	不用賦值
X4：白細胞數(shù)	不用賦值
X5：血小板	不用賦值
X6：總膽紅素	不用賦值
X7：直接膽紅素	不用賦值
Y：血紅蛋白	不用賦值

圖1 變量視圖

圖2 數(shù)據(jù)視圖

4. SPSS 操作過程

分析→回歸→線性

圖3 操作步驟1

圖4 操作步驟2

圖5 操作步驟3

5. SPSS 計算結(jié)果解讀

5.1 模型中移入/移去的變量

共納入“年齡量化”、“紅細胞”、“性別量化”三個變量。“年齡量化”為有序分類變量，“紅細胞”為連續(xù)型變量，“性別量化”為二分類變量。自變量進入模型的方法為“Enter”法，即“進入法”，為默認選項，意即所有選入自變量框的候選變量均進入模型，不涉及變量篩選的問題。推薦選擇此方法，變量篩選可考慮通過單因素分析聯(lián)合臨床專業(yè)知識判斷進行，比如首先通過臨床專業(yè)知識確定潛在需要納入回歸方程的變量，然后通過單因素篩選出 p 值小于 0.2 的變量最終納入回歸方程。

Variables Entered/Removeda
Model	Variables Entered	Variables Removed	Method
1	年齡量化, 紅細胞, 性別量化b	.	Enter
a. Dependent Variable: 血紅蛋白Y
b. All requested variables entered.

圖6 模型中移入/移去的變量

5.2 模型匯總結(jié)果

“R”，“R Square”， “Adjusted R Square”， “Std. Error of the Estimate”分別代表“復(fù)相關(guān)系數(shù)”，“決定系數(shù)”，“校正的決定系數(shù)”，“剩余標準差”。R值越大代表線性回歸關(guān)系越密切。R Square 表示因變量 Y 的總變異可由回歸模型中自變量解釋的那部分所占的比例，R Square 越大越好。根據(jù)樣本含量及模型中自變量的個數(shù)即可計算Adjusted R Square，該值越大，模型擬合效果越好。在第一個“模型匯總”表里，我們看到R、R方及調(diào)整R方，在簡單線性回歸模型時，這里的R相當于自變量與因變量的pearson相關(guān)系數(shù)；R方即前面R的平方，意義是有多大比例的因變量變異能被自變量解釋，在這里即肺活量的36%的變量可以由身高解釋（影響）；調(diào)整R方在多重線性回歸模型里，可以通過查看增加或減少某個自變量后調(diào)整R方的變化來決定是否在模型里保留某變量。

Model Summary
Model	R	R Square	Adjusted R Square	Std. Error of the Estimate
1	.827a	.684	.674	14.125
a. Predictors: (Constant), 年齡量化, 紅細胞, 性別量化

圖7 模型匯總結(jié)果

5.3 Anova 結(jié)果

因變量 Y 的總變異可分為兩個部分：①回歸平方和，表示因變量變異種由回歸模型中所包含的自變量所能解釋的部分；②殘差平方和，表示因變量的變異種沒有被回歸模型所包含的變量解釋的部分。本例中 F=67.125，p=0.000。說明至少一個自變量的回歸系數(shù)不為 0，所建立的回歸模型有統(tǒng)計學意義。

下圖是判斷方程模型是否成立的方差檢驗，在多重線性回歸里，只要有一個自變量對因變量的影響有統(tǒng)計學意義，此檢驗的P值都會小于0.05，也即如果此檢驗P值不小于0.05，可認為所有自變量與因變量都沒有線性關(guān)系。

圖8 Anova 結(jié)果

5.4 回歸系數(shù)表（最重要的結(jié)果）

表格中給出了這個回歸方程中常數(shù)項（Constant）、紅細胞、性別量化、年齡量化的偏回歸系數(shù)（Unstandardized Coefficients）及對應(yīng)的標準誤，分別為：23.967、22.467、8.164、2.510，其中常數(shù)項表示當自變量取值為 0 時，因變量的取值，本例中沒有實際意義。為了消除原始變量單位不同或者量綱不同的影響，軟件同時計算了標準化的偏回歸系數(shù)（Standardized Coefficients），分別為：0.781、0.165、0.067?；貧w系數(shù)絕對值越大說明對回歸模型的貢獻越大。同時對回歸系數(shù)進行了假設(shè)檢驗，并給出了相應(yīng)的 p 值，分別為：0.007、0.000、0.008、0.260，其中常數(shù)項的回歸系數(shù)沒有實際意義，其他 p 值表明紅細胞、性別的回歸系數(shù)有統(tǒng)計學意義?！癈ollinearity Statistics”提供了共線性診斷兩個參數(shù)。容忍度（Tolerance）越小，多重共線性越嚴重，一般認為容忍度小于 0.1 時，存在嚴重的共線性。方差膨脹因子（VIF）即容忍度的倒數(shù)，一般認為其不應(yīng)大于 5。本例中，可以認為不存在明顯的共線性問題。

圖9 回歸系數(shù)表（最重要的結(jié)果）

5.5 共線性診斷

該圖進一步給出了特征根（Eigenvalue）：對模型中常數(shù)項及所有自變量計算主成分，如果自變量間存在較強的線性相關(guān)關(guān)系，則前面的幾個主成分數(shù)值較大，而后面的幾個主成分較小，甚至接近 0。事實上，本例中單從特征根這個結(jié)果上并不好判斷共線性的問題。下面我們再看看條件指數(shù)（Condition Index）：其等于最大的主成分與當前主成分的比值的算術(shù)平方根。所以第一個主成分相對應(yīng)的條件指數(shù)總為 1。同樣，如果幾個條件指數(shù)較大，比如大于 30，則提示存在多重共線性。本例中，從條件指數(shù)這個結(jié)果中并未見明顯的共線性。我們再看看變異構(gòu)成（Variance Proportions）：回歸模型中各項（包括常數(shù)項）的變異被各主成分所能解釋的比例，換句話說，即各主成分對模型中各項的貢獻。如果某個主成分對兩個或多個自變量的貢獻均較大（如大于0.5），說明這幾個自變量間存在一定程度的共線性。本例中并未出現(xiàn)這種情況。綜合圖 9 與圖 10 共線性診斷的各項參數(shù)，并未檢測到明顯的共線性問題。本例也提醒我們共線性的診斷要從多個維度去綜合判斷。

圖10 共線性診斷

到此小伙伴們是不是認為回歸做完了呢？答案是否定的，線性回歸模型還要滿足以下5個條件：獨立、正態(tài)、線性、等方差和無異常值或強影響點。

獨立：即我們數(shù)據(jù)是各個case是獨立的，不能有一個人測量兩次或者多次數(shù)據(jù)，或者對稱器官的數(shù)據(jù)作為兩條數(shù)據(jù)使用，主要從數(shù)據(jù)來源判斷數(shù)據(jù)是否獨立。

正態(tài)：回歸分析對自變量及因變量的分布均沒有要求，因此正態(tài)不是指因變量或自變量正態(tài)，而是指回歸之后的殘差正態(tài)，具體檢驗方法：在回歸對話框里點擊“保存”按鈕，如下圖選擇未標準差殘差：

這樣在數(shù)據(jù)集最后一列多出一列變量，即未標準化殘差，可檢查此殘差是否符合正態(tài)分布（檢查方法可以回復(fù)“正態(tài)”查看）。

線性：是看自變量與因素是否有線性關(guān)系。主要查看兩個變量的散點圖，觀察是否線性關(guān)系。

如下圖可以認為兩者有線性關(guān)系。如果如下圖數(shù)據(jù)如果直接做回歸分析，可能都沒有線性關(guān)系（r=0），但觀察散點圖，左側(cè)認為沒有線性關(guān)系，右側(cè)有曲線關(guān)系（拋物線）。因此散點圖在相關(guān)及回歸分析中至關(guān)重要。

等方差：等方差不是指因變量或自變量方差相等，而是在因變量的每個預(yù)測值處，殘差的方差相等。在SPSS里可以直接畫殘差與因變量預(yù)測值的散點圖查看，如下圖所示：

結(jié)果如下圖，如果隨著預(yù)測值變量，殘差在預(yù)測值上下分布分布基本相同，可以認為殘差相等。

異常值或強影響點：即某一個或幾個點可能會對線性關(guān)系影響很大，這一組（或幾組）數(shù)往往是離群值，因此可以通過畫因變量與自變量的散點圖查看。本例子中散點圖見前面的圖，認為沒有觀察到強影響點。如下圖可認為有強影響點，是否為異常值需要再查看數(shù)據(jù)或進行專業(yè)判斷。

在多重線性回歸中，除要滿足上述要求外，還要滿足各自變量間沒有共線性，在線性回歸中，可以在線性回歸對話框“統(tǒng)計量”－“共線性診斷”查看。

在結(jié)果中，一般認為容忍度（SPSS中文譯為“容差”）<0.1或方差膨脹因子（VIF）大于10時認為有共線性。

下面我們以一個例子說明共線性的診斷及處理。如下面數(shù)據(jù)，我們有11年的經(jīng)濟數(shù)據(jù)，我們想看總產(chǎn)量、存儲量、總消費量與進口總額的關(guān)系。我們以進口總額（y）為因變量，以總產(chǎn)量（x1）、存儲量(x2)、總消費量(x3)為自變量，進行多重線性回歸，結(jié)果如下：

我們發(fā)現(xiàn)結(jié)果中，進口總額與總產(chǎn)量沒有關(guān)系，而與存儲量、總消費量正相關(guān)（方程中系數(shù)為正值），這與我們常識可能不符合，我們一般認為總產(chǎn)量應(yīng)該會影響進口額，而存儲量越高，進口應(yīng)該減少。再看后面容差及VIF，發(fā)現(xiàn)有兩個VIF超過180，即存在嚴重共線性。

從上面例子中也可以看出，共線性會影響結(jié)果的解讀，即可能使某自變量的系數(shù)偏大或偏小，甚至改變系數(shù)正負號，如果我們使用前進或后退法篩選變量，可能導(dǎo)致我們認為有意義的變量被踢除方程。

怎么解決共線性問題呢？有幾種方法供大家參考。

1.一般產(chǎn)生共性問題的兩個或多個變量之間相關(guān)性r值達到0.9或更高，也即我們可以人為選擇其中一個變量代表共線性的另外變量進行回歸，即選擇專業(yè)上認為有意義或更容易解讀的變量進行回歸。在前面例子中我們發(fā)現(xiàn)總產(chǎn)量與總消費量高度相關(guān)（r=0.997，見下圖），我們可以選擇這兩個變量其中之一進行回歸；

2.可以進行因子分析，用提取的公因子進行回歸分析，因子分析過程較復(fù)雜，詳細可以查看書籍。

3.進行嶺回歸分析。嶺回歸原理較難理解，感興趣的可以查看相關(guān)資料。在SPSS可以作嶺回歸，但不能在菜單操作，需要調(diào)用安裝文件下的嶺回歸程序。

皮膚科的統(tǒng)計學家(statistician_derma)