(為伊消得人憔悴;一用就錯(cuò)學(xué)不會;舍得應(yīng)付換應(yīng)用;案例實(shí)戰(zhàn)真英雄!)這里沒有生澀難懂的統(tǒng)計(jì)理論,只有白話統(tǒng)計(jì)思維+案例實(shí)戰(zhàn)。咱們一起成長吧! Logistic回歸是一種非常重要的單、多因素分析方法,其單因素應(yīng)用主要目的在于篩選變量,多因素分析,在于獲取最終模型,并得到各因素的風(fēng)險(xiǎn)值!多因素分析是統(tǒng)計(jì)分析的高級部分,能解其中味者,定能做出一定的研究成果。 對于Logistic回歸,松哥認(rèn)為至少兩點(diǎn)大家應(yīng)該注意,一是:變量如何進(jìn)入模型,二是:變量以何種形式進(jìn)入模型。 1.變量如何進(jìn)入模型 (1)通常我們進(jìn)行Logistic回歸,常規(guī)操作為先進(jìn)行單因素分析(即進(jìn)行Logistic回歸時(shí)放入一個(gè)自變量X),如果該因素P<> (2)有時(shí)候,以P<><> (3)將上述篩選的有意義的幾個(gè)X,同時(shí)放入自變量框,構(gòu)建多因素模型。很多人為了省事,直接采用的就是stepwise(逐步法),松哥稱之為“懶人法”。意即最終模型由軟件根據(jù)各因素的P值決定去留,獲取最終模型。 (4)升個(gè)級吧!上述的單因素分析、多因素分析的因素去留選擇,其實(shí)都是基于P值,然而P值在近2年的詬病大家也都有所耳聞!我們進(jìn)行單因素分析時(shí),P>0.1的變量其真正就與Y無關(guān)嗎? 因?yàn)閱我蛩胤治鍪菬o法考慮混雜因素的,而混雜是雙向的,某因素X單因素分析P>0.1,萬一有個(gè)混雜因素,與其作用相反,把其拖入無意義界值之外呢? 同理,某個(gè)X與Y單因素分析P<> 關(guān)鍵是第一步就被剔除,沒有進(jìn)入多因素分析的X,如果真正與Y有關(guān),將會讓我們的研究結(jié)局走向相悖的一面。 最近的觀點(diǎn)。。。。。。。 那我們到底該如何做呢?軍事醫(yī)學(xué)科學(xué)院胡良平講授的觀點(diǎn)為:依據(jù)專業(yè),選擇可能影響Y的相關(guān)影響因素X,直接進(jìn)行多因素分析,讓眾多X們進(jìn)行相互殘殺,看到底誰有本事留在模型中(以P是否小于0.05為標(biāo)準(zhǔn))。然而這種做法也有先決條件,自變量X不應(yīng)該太多,否則樣本量無法滿足構(gòu)建模型 的需要。 然而松哥最近看了些高質(zhì)量雜志發(fā)現(xiàn),多因素分析即使P>0.0.5,也是可以留在模型的。比如上述多因素分析,其中4個(gè)P<0.05,留在模型,還有1個(gè)p>0.05,是否該剔除呢?新的觀點(diǎn)認(rèn)為,先記下沒有剔除前,各危險(xiǎn)因素的β系數(shù)值,然后剔除再建立模型,再看β值,如果β值改變量達(dá)到10%,則該變量不能刪除,必須進(jìn)入模型。 如果你用心看到這里,肯定會問,是前面4個(gè)β中的任何一個(gè)嗎?注意,建立模型的x中,有核心研究變量與混雜因素,我們看核心研究變量的系數(shù)β的該變量是否大于10%。 再升高一個(gè)級別吧,如果你多讀一些高質(zhì)量SCI論文你會發(fā)現(xiàn),結(jié)論往往會建立幾個(gè)模型,而不是我們常規(guī)思維構(gòu)建一個(gè)最終模型。當(dāng)然建立的幾個(gè)模型的最終解決的意義是不同的。比如研究者更關(guān)心X1對Y的影響,則采用Model1,而更關(guān)注X2對Y的影響,則采用Model2。如何決定留取幾個(gè)模型,則必必須須關(guān)注建模過程中的β值的變化。 切記,切記,多因素分析,P值已經(jīng)不是那么那么的重要,β的信息含量遠(yuǎn)大于P值! 2.變量以何種形式進(jìn)入模型 我們知道,變量包含三種形式,計(jì)量資料、等級資料和分類資料,也就是松哥所說的老大、老二和老三,經(jīng)常關(guān)注松哥統(tǒng)計(jì)文章的應(yīng)該知道其含義。 以血壓為例,其既可以是老大、老二,又可以是老三。請問當(dāng)血壓是某個(gè)疾病的風(fēng)險(xiǎn)因素時(shí),其應(yīng)該以老大、老二、還是以老三的形式進(jìn)行模型呢? 松哥送大家一個(gè)口訣,未必放之四海而皆準(zhǔn),但有一定的實(shí)際意義,就是“級別對等”。 比如多重線性回歸,我們的Y是不是連續(xù)性的正態(tài)分布資料,也就是計(jì)量資料,也就是老大。那血壓是以多少mmHg(計(jì)量資料)優(yōu)先考慮進(jìn)入模型。其結(jié)果解釋為血壓每改變1mmHg,Y的平均改變多少多少,線性回歸更注重?cái)?shù)量的依存關(guān)系。 如果是Logistic回歸,或Cox回歸,其Y原始形式為計(jì)數(shù)資料(老二或老三),此時(shí)血壓最好以老二(高血壓、正常、低血壓)或老三(正常、異常)的級別進(jìn)入。 以老三形式為例,結(jié)果為,當(dāng)你需要為異常時(shí),你Y結(jié)局發(fā)生的風(fēng)險(xiǎn)是正常時(shí)的多少倍。 如果你以血壓mmHg形式進(jìn)入,則表示,血壓每增高1mmHg,你Y結(jié)局發(fā)生的風(fēng)險(xiǎn)增加多少倍。而根據(jù)專業(yè)我們也知道,血壓增高1mmHg,能對Y有多少影響呢,可能太微乎其微,也就沒有多大的專業(yè)意義了。 所以我們以老三形式進(jìn)入,正常與異常之間的差異就應(yīng)該比較大,而且有更好解釋的專業(yè)意義! 如果血壓以老二形式進(jìn)入模型,請問可不可以?好不好?意思是把它當(dāng)做等級資料,基于專業(yè),我們認(rèn)為可以,但不好。理由是如果當(dāng)做等級,結(jié)論是,血壓每升高一個(gè)等級,Y發(fā)生的風(fēng)險(xiǎn)。我們會用正常與低血壓比,高血壓與正常比,這過于統(tǒng)計(jì),而有失專業(yè)。此時(shí)應(yīng)該高血壓與正常比,低血壓與正常比才對,才有專業(yè)意義。 如此這樣,老二形式的血壓,應(yīng)該當(dāng)做老三無序分類,然后設(shè)定正常為參照,讓高、低血壓都與正常比,這才對! 剛才選擇的變量為血壓,專業(yè)上已經(jīng)有高低的標(biāo)準(zhǔn),如果是身高,是連續(xù)性資料,建立Logisticc回歸,如果以老大進(jìn)入,則結(jié)果為身高每增高1cm,Y發(fā)生的風(fēng)險(xiǎn),同樣的道理,1cm的身高變化,到底能有多大風(fēng)險(xiǎn)呢!專業(yè)意義不大! 身高如何變成老二或者老三呢?常規(guī)做法是,將身高進(jìn)行四分位數(shù)分組,然后變成變量,以1、2、3、4形式進(jìn)入模型。但是萬一Y疾病結(jié)局的發(fā)生并不按著1、2、3、4成線性遞增或者遞減,此時(shí),就得將身高當(dāng)做老三進(jìn)行模型,而多項(xiàng)無序老三進(jìn)行模型,必須設(shè)置啞變量,我想這你是懂滴! 身高先考慮由老大變老二,老二不合適再考慮變老三。變法除了四分位數(shù)分組,還有三分位數(shù)分組,可以多次嘗試,以期找到最佳的形式。在進(jìn)行線性回歸時(shí),還需要考慮變量的閾值效應(yīng)和飽和效應(yīng)(不說了,我想多數(shù)的你已經(jīng)暈了)! 松哥統(tǒng)計(jì)說 多因素分析是真正體現(xiàn)統(tǒng)計(jì)思維、統(tǒng)計(jì)功底的分析。然絕大多數(shù)人(包括松哥),都不能解對其神秘面紗!本文撰寫參考一些書籍與發(fā)表論文,同時(shí)也包括松哥個(gè)人的經(jīng)驗(yàn)與觀點(diǎn),不妥處請大家一起討論,集思廣益嘛! 總結(jié)下吧! (1)變量該如何進(jìn)入模型 常規(guī)做法:放寬進(jìn)入,然后關(guān)門打狗 現(xiàn)代做法:全部進(jìn)來,看關(guān)系(β) (2)變量以何種形式進(jìn)入 建議:級別對等 洋洋灑灑數(shù)千言,辛辛苦苦幾小時(shí),積累沉淀18載! 本文,您堅(jiān)持看到這里了嗎?看到了底部留個(gè)言! |
|