日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

觀察性研究中的logistic回歸分析思路

 昵稱69125444 2021-04-06

本文內(nèi)容來自《中華流行病學(xué)雜志》2019年第40卷第8期,作者為馮國雙教授,原題目為《觀察性研究中的logistic回歸分析思路》。將這篇文章分享給醫(yī)咖會的伙伴們,希望大家能從領(lǐng)域大咖的見解中有所收獲,指導(dǎo)醫(yī)學(xué)研究之路。

(感謝馮國雙教授的授權(quán))

觀察性研究在研究設(shè)計(jì)中占有非常重要的地位,實(shí)際應(yīng)用中比較常見的是病例對照研究和隊(duì)列研究。盡管其應(yīng)用廣泛,但在數(shù)據(jù)分析中卻存在不少問題。在分析時(shí)往往只考慮數(shù)據(jù)本身,而未能結(jié)合研究類型,從而導(dǎo)致結(jié)果的偏倚。甚至在已發(fā)表的文章中,也存在一些不嚴(yán)謹(jǐn)用語。

本文從觀察性研究的類型出發(fā),基于不同研究類型的研究目的,以logistic回歸分析為例,探討觀察性研究的不同分析思路,希望為醫(yī)學(xué)科研工作者提供一定的參考和借鑒。

logistic回歸

假定有m個(gè)自變量X1,X2,…,Xm,logistic回歸模型的基本形式可表達(dá)為:

圖片

只從數(shù)據(jù)本身考慮的話,logistic回歸模型都是包括一個(gè)分類因變量及若干自變量(可以是分類變量,也可以是連續(xù)變量),反映了m個(gè)自變量對因變量的線性影響。無論對于病例對照研究還是隊(duì)列研究,這種形式都是不變的。

部分研究在數(shù)據(jù)分析時(shí),忽略了前期的設(shè)計(jì)思路,只是簡單地把因變量和所有自變量納入統(tǒng)計(jì)軟件中相應(yīng)位置,點(diǎn)擊運(yùn)行直接給出結(jié)果。從數(shù)據(jù)上來看,病例對照研究和隊(duì)列研究的數(shù)據(jù)形式完全一樣,軟件操作過程也并無不同,都是指定因變量和自變量,然后給出參數(shù)估計(jì)值及統(tǒng)計(jì)檢驗(yàn)結(jié)果。

統(tǒng)計(jì)軟件無法判斷研究者采用的是病例對照研究還是隊(duì)列研究,也并不清楚作者的主要研究目的是什么,只是對指定的變量進(jìn)行參數(shù)估計(jì)。而統(tǒng)計(jì)分析的思路需要根據(jù)研究目的和研究類型而定,對于病例對照研究或隊(duì)列研究而言,它們的分析思路顯然不同。一味依靠統(tǒng)計(jì)軟件,不僅容易出現(xiàn)一些錯(cuò)誤分析思路,也會導(dǎo)致錯(cuò)誤的分析結(jié)果。

病例對照研究中的logistic回歸

從數(shù)據(jù)分析的角度來看,病例對照研究大致有兩大類目:一是探索危險(xiǎn)因素,二是驗(yàn)證危險(xiǎn)因素。

1、以探索危險(xiǎn)因素為目的的分析思路:

危險(xiǎn)因素的探索常見于臨床研究中,通常用于研究初期,此時(shí)研究者并不清楚哪些因素可能會影響結(jié)局的發(fā)生,因此先進(jìn)行初步探索。根據(jù)專業(yè)知識和經(jīng)驗(yàn)收集一些可能的指標(biāo),然后從中尋找可能對結(jié)局影響較大的因素。

例如,探索兒童打鼾的危險(xiǎn)因素,研究者并無太多的前期基礎(chǔ),只是為了發(fā)現(xiàn)可能與兒童打鼾有關(guān)的因素,這種情況下會根據(jù)文獻(xiàn)報(bào)道、專業(yè)經(jīng)驗(yàn)等收集一些可能有關(guān)的指標(biāo),并從中找出與兒童打鼾有關(guān)的部分因素。

危險(xiǎn)因素探索的文章中,最常見的表述錯(cuò)誤是“校正其他混雜因素”后,發(fā)現(xiàn)共K個(gè)變量對結(jié)局有影響?;祀s因素是相對主要研究因素而言,而危險(xiǎn)因素探索的研究中,并無明確的主要研究因素,所有變量都是待研究的因素,目的是從這些變量中找出哪些有影響。此類研究中,“校正其他混雜因素”是一種不嚴(yán)謹(jǐn)?shù)谋磉_(dá)方式。

對于這種分析思路,需要有一定的分析經(jīng)驗(yàn)和技巧。實(shí)際分析中,需要考慮幾個(gè)問題:

① 線性問題:由于logistic回歸本質(zhì)上仍屬于“線性模型”,因此一定要確認(rèn)自變量與因變量(logit P)之間是否存在線性關(guān)系,如果不是,需要考慮進(jìn)行相應(yīng)的變換,否則可能會產(chǎn)生錯(cuò)誤結(jié)果。

例1:某研究分析老年人高血壓(二分類變量,是或否)的危險(xiǎn)因素,研究因素包括gender、age、ox-LDL、Adiponectin、ox-LDL IgG 和 ox-LDL IgM 共6個(gè)指標(biāo)。其中g(shù)ender 為二分類變量,其余變量均為連續(xù)變量。如果把6個(gè)自變量直接納入統(tǒng)計(jì)軟件分析,所得結(jié)果見表 1。

圖片

可以看出,6個(gè)變量均差異無統(tǒng)計(jì)學(xué)意義。然而對數(shù)據(jù)重新分析后發(fā)現(xiàn),并不是這些變量對結(jié)局均無影響,只是未能發(fā)現(xiàn)它們之間的真實(shí)關(guān)系而已。經(jīng)仔細(xì)觀察,發(fā)現(xiàn) age 和 ox-LDL IgM 對結(jié)局的影響是有統(tǒng)計(jì)學(xué)意義的,但不是線性影響,而是二次項(xiàng)關(guān)系(表 2)。

圖片

② 共線性問題:共線性即自變量之間存在高度相關(guān),從而導(dǎo)致結(jié)果不可靠 [1]。共線性是大多數(shù)回歸模型都需要考慮的一個(gè)問題,一旦發(fā)現(xiàn)該問題,需要采取不同措施來解決。常見的解決方案包括刪除某一自變量、主成分分析、Lasso回歸等。

例2:某研究分析乳腺增生的危險(xiǎn)因素,自變量同時(shí)包括妊娠次數(shù)(三分類變量,用1、2、3表示相應(yīng)次數(shù))和流產(chǎn)次數(shù)(三分類變量,用0、1、2表示相應(yīng)次數(shù))。在單因素分析中妊娠次數(shù)差異有統(tǒng)計(jì)學(xué)意義(2 vs. 1,P=0.026;3 vs. 1,P=0.035),然而多因素分析中則差異無統(tǒng)計(jì)學(xué)意義(P值分別為0.635、0.594)。分析原因發(fā)現(xiàn),主要是由于妊娠次數(shù)和流產(chǎn)次數(shù)有較強(qiáng)的共線性,二者相關(guān)系數(shù)高達(dá)0.55,從而導(dǎo)致妊娠次數(shù)變得無統(tǒng)計(jì)學(xué)意義。解決方案采用了刪除法,刪除妊娠次數(shù)變量,保留了流產(chǎn)次數(shù)變量。

③ 單因素和多因素的問題:目前危險(xiǎn)因素篩選的一種分析思路:先進(jìn)行單因素分析,將單因素分析中差異有統(tǒng)計(jì)學(xué)意義(P<0.05)的變量再納入多因素分析,選出最終有統(tǒng)計(jì)學(xué)意義的變量作為危險(xiǎn)因素。然而這一思路并非十分可靠,有些情況下可能會出現(xiàn)單因素分析無統(tǒng)計(jì)學(xué)意義而多因素分析有統(tǒng)計(jì)學(xué)意義的情況,此時(shí)就容易漏掉某些重要的因素。

例3:某研究分析兩個(gè)血清學(xué)指標(biāo)(分別用陽性和陰性表示)對胃癌的影響,數(shù)據(jù)結(jié)果見表 3。

圖片

該數(shù)據(jù)采用單因素分析的話,可以發(fā)現(xiàn) x1 差異無統(tǒng)計(jì)學(xué)意義(P=0.114),而在多因素分析中卻變得有統(tǒng)計(jì)學(xué)意義(P=0.018)。如果只將單因素分析中有統(tǒng)計(jì)學(xué)意義的變量納入多因素分析的話,就會漏掉x1變量。

為什么會出現(xiàn)這種情況,主要是因?yàn)?x1 和 x2 之間存在負(fù)相關(guān),而 x1、x2 與結(jié)局之間均為正相關(guān)。因此,數(shù)據(jù)分析過程中,不要盲目套用所謂的“分析套路”,而應(yīng)結(jié)合實(shí)際情況具體問題具體分析。

總之,在篩選危險(xiǎn)因素時(shí),建議不要僅將單因素分析有統(tǒng)計(jì)學(xué)意義的變量納入多因素分析,一定要厘清變量之間的關(guān)系,否則容易遺漏重要的變量或納入無意義的變量。

2、以驗(yàn)證危險(xiǎn)因素為目的的分析思路:

驗(yàn)證危險(xiǎn)因素,說明研究者在研究開始時(shí)已經(jīng)有明確的主要研究因素,主要目的是為了驗(yàn)證該因素是不是真正的影響因素?;谶@種目的,研究者在設(shè)計(jì)時(shí)會突出主要因素,但同時(shí)也會收集其他可能的混雜因素。

例如,探索肺癌與吸煙的關(guān)系,吸煙是主要研究因素,因此問卷調(diào)查中會詳細(xì)設(shè)置各種與吸煙有關(guān)的問題??紤]到其他因素可能也會影響肺癌發(fā)生,因此調(diào)查時(shí)也會加入其他有關(guān)因素的調(diào)查,但這些因素不是研究者關(guān)心的,只是為了校正這些因素,以便真正明確吸煙與肺癌的關(guān)系。

因此,對于這種研究目的關(guān)鍵的問題是,如何控制混雜因素,以便真正明確主要研究因素與結(jié)局的關(guān)系?;祀s因素在流行病學(xué)中已有詳細(xì)定義[2],不再贅述。

從數(shù)據(jù)分析的角度來看,要判斷一個(gè)因素是否為混雜因素,可以從兩個(gè)方面來考慮:

第一,分析該因素是否對結(jié)局有較大影響,通??刹捎忙?檢驗(yàn)或單因素logistic回歸來實(shí)現(xiàn);

第二,分析該因素在主要研究因素中的分布情況,通常采用χ2檢驗(yàn)來實(shí)現(xiàn)。

例4:某研究分析性別與幽門螺桿菌(Hp)的關(guān)系,現(xiàn)在考慮吸煙是否為影響二者關(guān)系的混雜因素。具體數(shù)據(jù)見表 4。

圖片

首先分析吸煙對結(jié)局的影響,采用χ2檢驗(yàn)或單因素logistic回歸不難發(fā)現(xiàn),吸煙人群與不吸煙人群相比,Hp陽性的風(fēng)險(xiǎn)更高(OR=1.84,95%CI:1.44~2.35)。其次分析吸煙在性別中的分布,χ2檢驗(yàn)結(jié)果顯示,男性和女性中吸煙的比例差異有統(tǒng)計(jì)學(xué)意義(χ2=396.97,P<0.001),男性的吸煙比例遠(yuǎn)高于女性。

由此看出,以性別作為主要分析變量,在分析性別與Hp感染時(shí),吸煙可能是影響二者關(guān)系的混雜因素,必須加以校正。校正前結(jié)果顯示,性別對Hp的影響有統(tǒng)計(jì)學(xué)意義,男性有更高的Hp陽性風(fēng)險(xiǎn)(OR=1.62,95%CI:1.26~2.07);校正后發(fā)現(xiàn),性別對Hp的影響無統(tǒng)計(jì)學(xué)意義(OR=1.26,95%CI:0.94~1.68)。

因此,對于以驗(yàn)證危險(xiǎn)因素為目的的logistic回歸分析,分析思路主要是明確哪些因素可能是混雜因素并加以校正,以發(fā)現(xiàn)主要研究因素與結(jié)局的真實(shí)關(guān)系。

建議盡量避免的兩種思路

①把所有變量都進(jìn)行校正。除非樣本量足夠大,否則這種方式不可取。因?yàn)榧{入的自變量越多,所消耗的自由度越大,用于估計(jì)主要研究因素的樣本量相對越小,結(jié)果的精確度也越低。

②采用逐步回歸篩選變量。作為主要研究變量,一定要保留在模型中,同時(shí)要納入混雜因素。逐步回歸篩選適用于探索危險(xiǎn)因素,不適用于驗(yàn)證危險(xiǎn)因素。

隊(duì)列研究中的logistic回歸

隊(duì)列研究絕大多數(shù)都是為了驗(yàn)證某一危險(xiǎn)因素,這是由研究性質(zhì)決定的。因?yàn)殛?duì)列研究在一開始就需要指定暴露和非暴露,也就相當(dāng)于確定了主要研究因素。因此,從數(shù)據(jù)分析角度來講,隊(duì)列研究主要是為了排除混雜因素,與前文介紹的思路并無不同。但隊(duì)列研究在時(shí)間順序上可以證明研究因素發(fā)生在前,結(jié)局發(fā)生在后,因此其驗(yàn)證能力更強(qiáng)。

由于隊(duì)列研究有明確的時(shí)間先后順序,此時(shí)在說明主要研究因素與結(jié)局的關(guān)聯(lián)強(qiáng)度時(shí),可采用RR(risk ratio)而非OR(odds ratio)。隊(duì)列研究中,當(dāng)結(jié)局發(fā)生率很低時(shí)(<10%),OR是RR的一個(gè)很好的替代指標(biāo),此時(shí)用logistic回歸可直接求得OR值,用來說明暴露的危險(xiǎn)度。但如果結(jié)局發(fā)生率不是很低,OR與RR差別較大,此時(shí)用OR來說明危險(xiǎn)度可能會有一定的偏倚 [3]。

例5:某研究分析Hp感染與胃黏膜病變進(jìn)展的關(guān)系,觀察數(shù)據(jù)見表 5。

圖片

本研究如果計(jì)算OR值,則OR=2.44(95%CI:1.05~5.70),如果計(jì)算RR值,則RR=1.77(95%CI:1.01~3.12)。由于病變進(jìn)展的發(fā)生率較高,兩個(gè)指標(biāo)差別較大。

隊(duì)列研究中RR值的計(jì)算通??刹捎脤?shù)二項(xiàng)分布回歸(log-binomial regression)。通常需要借助軟件實(shí)現(xiàn),如SAS的proc genmod過程[4]。

小結(jié)

本文介紹了病例對照研究和隊(duì)列研究中l(wèi)ogistic回歸分析的不同思路,以及常見的一些應(yīng)用錯(cuò)誤。然而本文的思路并不僅限于logistic回歸分析,完全可以推廣到其他廣義線性模型。

例如,隊(duì)列研究的觀察結(jié)局如果是計(jì)數(shù)資料,則可考慮Poisson回歸或負(fù)二項(xiàng)回歸,此時(shí)仍需考慮混雜因素的校正問題。因此,本文思路對各種常見的回歸模型均有一定借鑒意義,至于模型的選擇主要取決于研究結(jié)局類型及其分布。

在各種常見的回歸分析中,一定要分清研究類型及其目的,到底是探索危險(xiǎn)因素還是驗(yàn)證危險(xiǎn)因素。危險(xiǎn)因素的篩選過程較為復(fù)雜,需要考慮較多問題,包括變量篩選方式等;驗(yàn)證危險(xiǎn)因素相對較為簡單,不需要考慮變量篩選,但要明確混雜因素并加以校正。

一定要避免“把數(shù)據(jù)完全交給軟件”這種分析方式,軟件主要用來解決計(jì)算問題,分析思路必須由研究者來確定。統(tǒng)計(jì)分析不是簡單的參數(shù)估計(jì),而應(yīng)結(jié)合研究類型,明確研究思路,才能給出合理的結(jié)果。

利益沖突:所有作者均聲明不存在利益沖突

參考文獻(xiàn):

1.Mennard S. Applied logistic regression analysis[M]. Newbury Park, California: SAGE Publications, Inc, 2001.

2.徐飆. 流行病學(xué)原理[M]. 上海: 復(fù)旦大學(xué)出版社, 2007.
Xu B. Epidemic theory[M]. Shanghai: Fudan University Press, 2007.

3.Stokes ME, Davis CS, Koch GG. Categorical data analysis using the SASsystem[M]. 2nd ed. Cary, NC: John Willy & Sons, Inc, 2000.

4.馮國雙, 劉德平. 醫(yī)學(xué)研究中的logistic回歸分析及SAS實(shí)現(xiàn)[M]. 2版. 北京: 北京大學(xué)醫(yī)學(xué)出版社,, 2015.

Feng GS, Liu DP. Logistic regression analysis and SAS application in medical research[M]. 2nd ed. Beijing: Peking University Medical Press, 2015.

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多