編者按 logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數(shù)據(jù)挖掘,疾病自動(dòng)診斷等領(lǐng)域。例如,探討引發(fā)疾病的危險(xiǎn)因素,并根據(jù)危險(xiǎn)因素預(yù)測(cè)疾病發(fā)生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌,值為“是”或“否”,自變量就可以包括很多了,如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。然后通過(guò)logistic回歸分析,可以得到自變量的權(quán)重,從而可以大致了解到底哪些因素是胃癌的危險(xiǎn)因素。同時(shí)根據(jù)該權(quán)值可以根據(jù)危險(xiǎn)因素預(yù)測(cè)一個(gè)人患癌癥的可能性。 從多元線性回歸到Logistic 回歸 案例 對(duì)200個(gè)不同年齡和性別的人對(duì)某項(xiàng)服務(wù)產(chǎn)品的認(rèn)可的數(shù)據(jù)(logi.sav)進(jìn)行分析。其中: 年齡是連續(xù)變量,性別是有男和女(分別用1和0表示)兩個(gè)水平的定性變量,而變量“觀點(diǎn)”則為包含認(rèn)可(用1表示)和不認(rèn)可(用0表示)兩個(gè)水平的定性變量。 從下面的圖可以看出什么? 從下面這張圖又可以看出什么? 這里觀點(diǎn)是因變量, 只有兩個(gè)值;所以可以把它看作成功概率為p的Bernoulli試驗(yàn)的結(jié)果。但是和單純的Bernoulli試驗(yàn)不同,這里的概率p為年齡和性別的函數(shù),必須應(yīng)用Logistic回歸。 2 多元線性回歸不能應(yīng)用于定性因變量 首先,多元線性回歸中使用定性因變量嚴(yán)重違反本身假設(shè)條件,即:因變量只能取兩個(gè)值時(shí),對(duì)于任何給定的自變量值,e本身也只能取兩個(gè)值。這必然會(huì)違背線性回歸中關(guān)于誤差項(xiàng)e的假設(shè)條件。 其次,線性概率概型及其問(wèn)題:由于因變量只有兩個(gè)值;所以可以把它看作成功概率p,取值范圍必然限制在0—1的區(qū)間中,然而線性回歸方程不能做到。另外概率發(fā)生的情況也不是線性的。 3 Logistic函數(shù) Logistic的概率函數(shù)定義為: 我們將多元線性組合表示為: 于是,Logistic概率函數(shù)表示為: 經(jīng)過(guò)變形,可得到線性函數(shù): 這里, 事件發(fā)生概率=P (y=1) 事件不發(fā)生概率=1-P (y=0) 發(fā)生比: 對(duì)數(shù)發(fā)生比: 這樣,就可將logistic曲線線性化為: 從P到logit P經(jīng)歷了兩個(gè)步驟變換過(guò)程: 第一步:將p轉(zhuǎn)換成發(fā)生比,其值域?yàn)?到無(wú)窮 第二步:將發(fā)生比換成對(duì)數(shù)發(fā)生比,其值域科為 經(jīng)過(guò)轉(zhuǎn)換, 將P→logit P,在將其作為回歸因變量來(lái)解釋就不再有任何值域方面的限制了,即可線性化! 4 Logistic回歸系數(shù)的意義 以logit P方程的線性表達(dá)式來(lái)解釋回歸系數(shù),即: ![]() 在logistic回歸的實(shí)際研究中,通常不是報(bào)告自變量對(duì)P的作用,而是報(bào)告自變量對(duì)logit P的作用。以發(fā)生比Ω的指數(shù)表達(dá)式來(lái)解釋回歸系數(shù)。與logit P不同,發(fā)生比Ω具有一定的實(shí)際意義,代表一種相對(duì)風(fēng)險(xiǎn)。因此對(duì)logistic回歸系數(shù)的解釋通常是從發(fā)生比的指數(shù)表達(dá)式出發(fā)的。 例如:在取得了logistic回歸系數(shù)的各bi的解以后,將其帶入Ω函數(shù), ![]() 如果分析x 變化一個(gè)單位對(duì)于Ω的影響幅度,可以用(x +1)表示,并將其代入上式,得到新的發(fā)生比: ![]() 將兩個(gè)發(fā)生比集中在一起有: ![]() 將此稱為發(fā)生比率,它可測(cè)量自變量一個(gè)單位的增加給原來(lái)的發(fā)生比所帶來(lái)的變化,一般表達(dá)式為: ![]() 說(shuō)明在其他情況不變的情況下,x一個(gè)單位的變化使原來(lái)的發(fā)生比擴(kuò)大倍。比如,原來(lái)的Ω為6:4(比值為1.5),如果一個(gè)自變量變化一個(gè)單位導(dǎo)致的發(fā)生比率為exp(0.693)=2,即表示這一變化將會(huì)導(dǎo)致新發(fā)生比值Ω*為原來(lái)的2倍,即新發(fā)生比將是12:4(比值為3)。 我們也可用發(fā)生比率減1的差來(lái)表示發(fā)生比的增長(zhǎng)率,如發(fā)生比率為2.3,就可以說(shuō)自變量一個(gè)單位的變化會(huì)使原發(fā)生比增加1.3倍(2.3-1=1.3). 當(dāng)logistic回歸系數(shù)為負(fù)數(shù)時(shí),發(fā)生比率小于1。這時(shí)的表達(dá)要特別小心。比如發(fā)生比率為0.8時(shí),表示新發(fā)生比只有原來(lái)的80%,那么下降的倍數(shù)則是(1-0.8=)0.2. 5 Logistic回歸應(yīng)用 以上例為例,說(shuō)明logistic回歸分析 SPSS選項(xiàng):Analyze — Regression — Binary logistic。Logistic回歸的SPSS輸出結(jié)果 ![]() 6 Logistic模型的檢驗(yàn)與評(píng)價(jià) 1. 對(duì)于整體模型的檢驗(yàn) Logistic回歸方程求解參數(shù)是采用最大似然估計(jì)方法,因此其回歸方程的整體檢驗(yàn)通過(guò)似然函數(shù)值,表示為: -2 Log Likelihood 該值越大,意味著回歸方程的似然值越小,模型的擬和程度越差。反之,擬和程度越好。 在評(píng)價(jià)或檢驗(yàn)一個(gè)含有自變量的Logistic回歸模型時(shí),通常是將其含有自變量的Logistic的-2 Log Likelihood與截距模型的相比較。兩者之差服從卡方分布,進(jìn)行卡方檢驗(yàn)。所謂截距模型,就是將所有自變量刪除后只剩一個(gè)截距系數(shù)的模型。 2.對(duì)于回歸系數(shù)的檢驗(yàn) Logistic回歸系數(shù)的檢驗(yàn)是用Wald統(tǒng)計(jì)量進(jìn)行的。 ![]() 7 Logistic回歸的標(biāo)準(zhǔn)化回歸系數(shù) SPSS進(jìn)行Logistic回歸時(shí)不提供標(biāo)準(zhǔn)化 回歸系數(shù),但是其手工計(jì)算公式很簡(jiǎn)單: ![]() Age和Sex的標(biāo)準(zhǔn)化回歸系數(shù)分別約為: ![]() 8 Logistic回歸的偏回歸系數(shù) 通過(guò)比較兩個(gè)自變量的標(biāo)準(zhǔn)化回歸系數(shù),我們發(fā)現(xiàn)對(duì)于是否同意該觀點(diǎn)來(lái)說(shuō),年齡的負(fù)作用要比性別的負(fù)作用要大一些。 艾德醫(yī)訊|艾德課堂|科研服務(wù) 請(qǐng)留下你指尖的溫度 讓太陽(yáng)擁抱你 記得這是一個(gè)有溫度的公眾號(hào) |
|
來(lái)自: Nursing小班長(zhǎng) > 《待分類》