日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

因變量是定性變量的回歸分析—Logistic回歸分析

 Nursing小班長(zhǎng) 2020-08-08

編者按

logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數(shù)據(jù)挖掘,疾病自動(dòng)診斷等領(lǐng)域。例如,探討引發(fā)疾病的危險(xiǎn)因素,并根據(jù)危險(xiǎn)因素預(yù)測(cè)疾病發(fā)生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌,值為“是”或“否”,自變量就可以包括很多了,如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。然后通過(guò)logistic回歸分析,可以得到自變量的權(quán)重,從而可以大致了解到底哪些因素是胃癌的危險(xiǎn)因素。同時(shí)根據(jù)該權(quán)值可以根據(jù)危險(xiǎn)因素預(yù)測(cè)一個(gè)人患癌癥的可能性。

1

 從多元線性回歸到Logistic 回歸

案例

對(duì)200個(gè)不同年齡和性別的人對(duì)某項(xiàng)服務(wù)產(chǎn)品的認(rèn)可的數(shù)據(jù)(logi.sav)進(jìn)行分析。其中: 年齡是連續(xù)變量,性別是有男和女(分別用1和0表示)兩個(gè)水平的定性變量,而變量“觀點(diǎn)”則為包含認(rèn)可(用1表示)和不認(rèn)可(用0表示)兩個(gè)水平的定性變量。

從下面的圖可以看出什么?

從下面這張圖又可以看出什么?

這里觀點(diǎn)是因變量, 只有兩個(gè)值;所以可以把它看作成功概率為p的Bernoulli試驗(yàn)的結(jié)果。但是和單純的Bernoulli試驗(yàn)不同,這里的概率p為年齡和性別的函數(shù),必須應(yīng)用Logistic回歸。

2

多元線性回歸不能應(yīng)用于定性因變量

首先,多元線性回歸中使用定性因變量嚴(yán)重違反本身假設(shè)條件,即:因變量只能取兩個(gè)值時(shí),對(duì)于任何給定的自變量值,e本身也只能取兩個(gè)值。這必然會(huì)違背線性回歸中關(guān)于誤差項(xiàng)e的假設(shè)條件。

其次,線性概率概型及其問(wèn)題由于因變量只有兩個(gè)值;所以可以把它看作成功概率p,取值范圍必然限制在0—1的區(qū)間中,然而線性回歸方程不能做到。另外概率發(fā)生的情況也不是線性的。

3

Logistic函數(shù)

Logistic的概率函數(shù)定義為:

我們將多元線性組合表示為:

于是,Logistic概率函數(shù)表示為:

經(jīng)過(guò)變形,可得到線性函數(shù):

這里, 

事件發(fā)生概率=P        (y=1)

事件不發(fā)生概率=1-P  (y=0)

發(fā)生比:

對(duì)數(shù)發(fā)生比:

這樣,就可將logistic曲線線性化為:

從P到logit P經(jīng)歷了兩個(gè)步驟變換過(guò)程:

第一步:將p轉(zhuǎn)換成發(fā)生比,其值域?yàn)?到無(wú)窮

第二步:將發(fā)生比換成對(duì)數(shù)發(fā)生比,其值域科為

經(jīng)過(guò)轉(zhuǎn)換, 將P→logit P,在將其作為回歸因變量來(lái)解釋就不再有任何值域方面的限制了,即可線性化!

4

Logistic回歸系數(shù)的意義

logit P方程的線性表達(dá)式來(lái)解釋回歸系數(shù),即:

在logistic回歸的實(shí)際研究中,通常不是報(bào)告自變量對(duì)P的作用,而是報(bào)告自變量對(duì)logit P的作用。以發(fā)生比Ω的指數(shù)表達(dá)式來(lái)解釋回歸系數(shù)。與logit P不同,發(fā)生比Ω具有一定的實(shí)際意義,代表一種相對(duì)風(fēng)險(xiǎn)。因此對(duì)logistic回歸系數(shù)的解釋通常是從發(fā)生比的指數(shù)表達(dá)式出發(fā)的。

例如:在取得了logistic回歸系數(shù)的各bi的解以后,將其帶入Ω函數(shù),

如果分析x 變化一個(gè)單位對(duì)于Ω的影響幅度,可以用(x +1)表示,并將其代入上式,得到新的發(fā)生比:

將兩個(gè)發(fā)生比集中在一起有:

將此稱為發(fā)生比率,它可測(cè)量自變量一個(gè)單位的增加給原來(lái)的發(fā)生比所帶來(lái)的變化,一般表達(dá)式為:

說(shuō)明在其他情況不變的情況下,x一個(gè)單位的變化使原來(lái)的發(fā)生比擴(kuò)大倍。比如,原來(lái)的Ω為6:4(比值為1.5),如果一個(gè)自變量變化一個(gè)單位導(dǎo)致的發(fā)生比率為exp(0.693)=2,即表示這一變化將會(huì)導(dǎo)致新發(fā)生比值Ω*為原來(lái)的2倍,即新發(fā)生比將是12:4(比值為3)。

我們也可用發(fā)生比率減1的差來(lái)表示發(fā)生比的增長(zhǎng)率,如發(fā)生比率為2.3,就可以說(shuō)自變量一個(gè)單位的變化會(huì)使原發(fā)生比增加1.3倍(2.3-1=1.3).

當(dāng)logistic回歸系數(shù)為負(fù)數(shù)時(shí),發(fā)生比率小于1。這時(shí)的表達(dá)要特別小心。比如發(fā)生比率為0.8時(shí),表示新發(fā)生比只有原來(lái)的80%,那么下降的倍數(shù)則是(1-0.8=)0.2.

5

 Logistic回歸應(yīng)用

以上例為例,說(shuō)明logistic回歸分析

SPSS選項(xiàng):Analyze — Regression — Binary logistic。Logistic回歸的SPSS輸出結(jié)果

6

Logistic模型的檢驗(yàn)與評(píng)價(jià)

1. 對(duì)于整體模型的檢驗(yàn)

Logistic回歸方程求解參數(shù)是采用最大似然估計(jì)方法,因此其回歸方程的整體檢驗(yàn)通過(guò)似然函數(shù)值,表示為:

-2 Log Likelihood

該值越大,意味著回歸方程的似然值越小,模型的擬和程度越差。反之,擬和程度越好。

在評(píng)價(jià)或檢驗(yàn)一個(gè)含有自變量的Logistic回歸模型時(shí),通常是將其含有自變量的Logistic的-2 Log Likelihood與截距模型的相比較。兩者之差服從卡方分布,進(jìn)行卡方檢驗(yàn)。所謂截距模型,就是將所有自變量刪除后只剩一個(gè)截距系數(shù)的模型。

2.對(duì)于回歸系數(shù)的檢驗(yàn)

Logistic回歸系數(shù)的檢驗(yàn)是用Wald統(tǒng)計(jì)量進(jìn)行的。

7

Logistic回歸的標(biāo)準(zhǔn)化回歸系數(shù)

SPSS進(jìn)行Logistic回歸時(shí)不提供標(biāo)準(zhǔn)化 回歸系數(shù),但是其手工計(jì)算公式很簡(jiǎn)單:

Age和Sex的標(biāo)準(zhǔn)化回歸系數(shù)分別約為:

8

Logistic回歸的偏回歸系數(shù)

通過(guò)比較兩個(gè)自變量的標(biāo)準(zhǔn)化回歸系數(shù),我們發(fā)現(xiàn)對(duì)于是否同意該觀點(diǎn)來(lái)說(shuō),年齡的負(fù)作用要比性別的負(fù)作用要大一些。

艾德醫(yī)訊|艾德課堂|科研服務(wù)

請(qǐng)留下你指尖的溫度

讓太陽(yáng)擁抱你

記得這是一個(gè)有溫度的公眾號(hào)

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多