此文將顛覆你對多因素分析建模策略的認(rèn)識【松哥漫談】

萌小芊 2017-08-24

展開全文

功能介紹（為伊消得人憔悴；一用就錯(cuò)學(xué)不會；舍得應(yīng)付換應(yīng)用；案例實(shí)戰(zhàn)真英雄！）這里沒有生澀難懂的統(tǒng)計(jì)理論，只有白話統(tǒng)計(jì)思維+案例實(shí)戰(zhàn)。咱們一起成長吧！

緣起

Logistic回歸是一種非常重要的單、多因素分析方法，其單因素應(yīng)用主要目的在于篩選變量，多因素分析，在于獲取最終模型，并得到各因素的風(fēng)險(xiǎn)值！多因素分析是統(tǒng)計(jì)分析的高級部分，能解其中味者，定能做出一定的研究成果。

對于Logistic回歸，松哥認(rèn)為至少兩點(diǎn)大家應(yīng)該注意，一是：變量如何進(jìn)入模型，二是：變量以何種形式進(jìn)入模型。

1.變量如何進(jìn)入模型

（1）通常我們進(jìn)行Logistic回歸，常規(guī)操作為先進(jìn)行單因素分析（即進(jìn)行Logistic回歸時(shí)放入一個(gè)自變量X），如果該因素P<>

（2）有時(shí)候，以P<><>

（3）將上述篩選的有意義的幾個(gè)X，同時(shí)放入自變量框，構(gòu)建多因素模型。很多人為了省事，直接采用的就是stepwise（逐步法），松哥稱之為“懶人法”。意即最終模型由軟件根據(jù)各因素的P值決定去留，獲取最終模型。

（4）升個(gè)級吧！上述的單因素分析、多因素分析的因素去留選擇，其實(shí)都是基于P值，然而P值在近2年的詬病大家也都有所耳聞！我們進(jìn)行單因素分析時(shí)，P>0.1的變量其真正就與Y無關(guān)嗎？

因?yàn)閱我蛩胤治鍪菬o法考慮混雜因素的，而混雜是雙向的，某因素X單因素分析P>0.1，萬一有個(gè)混雜因素，與其作用相反，把其拖入無意義界值之外呢？

同理，某個(gè)X與Y單因素分析P<>

關(guān)鍵是第一步就被剔除，沒有進(jìn)入多因素分析的X，如果真正與Y有關(guān)，將會讓我們的研究結(jié)局走向相悖的一面。

最近的觀點(diǎn)。。。。。。。

那我們到底該如何做呢？軍事醫(yī)學(xué)科學(xué)院胡良平講授的觀點(diǎn)為：依據(jù)專業(yè)，選擇可能影響Y的相關(guān)影響因素X，直接進(jìn)行多因素分析，讓眾多X們進(jìn)行相互殘殺，看到底誰有本事留在模型中（以P是否小于0.05為標(biāo)準(zhǔn)）。然而這種做法也有先決條件，自變量X不應(yīng)該太多，否則樣本量無法滿足構(gòu)建模型的需要。

然而松哥最近看了些高質(zhì)量雜志發(fā)現(xiàn)，多因素分析即使P>0.0.5，也是可以留在模型的。比如上述多因素分析，其中4個(gè)P<0.05，留在模型，還有1個(gè)p>0.05，是否該剔除呢？新的觀點(diǎn)認(rèn)為，先記下沒有剔除前，各危險(xiǎn)因素的β系數(shù)值，然后剔除再建立模型，再看β值，如果β值改變量達(dá)到10%，則該變量不能刪除，必須進(jìn)入模型。

如果你用心看到這里，肯定會問，是前面4個(gè)β中的任何一個(gè)嗎？注意，建立模型的x中，有核心研究變量與混雜因素，我們看核心研究變量的系數(shù)β的該變量是否大于10%。

再升高一個(gè)級別吧，如果你多讀一些高質(zhì)量SCI論文你會發(fā)現(xiàn)，結(jié)論往往會建立幾個(gè)模型，而不是我們常規(guī)思維構(gòu)建一個(gè)最終模型。當(dāng)然建立的幾個(gè)模型的最終解決的意義是不同的。比如研究者更關(guān)心X1對Y的影響，則采用Model1，而更關(guān)注X2對Y的影響，則采用Model2。如何決定留取幾個(gè)模型，則必必須須關(guān)注建模過程中的β值的變化。

切記，切記，多因素分析，P值已經(jīng)不是那么那么的重要，β的信息含量遠(yuǎn)大于P值！

2.變量以何種形式進(jìn)入模型

我們知道，變量包含三種形式，計(jì)量資料、等級資料和分類資料，也就是松哥所說的老大、老二和老三，經(jīng)常關(guān)注松哥統(tǒng)計(jì)文章的應(yīng)該知道其含義。

以血壓為例，其既可以是老大、老二，又可以是老三。請問當(dāng)血壓是某個(gè)疾病的風(fēng)險(xiǎn)因素時(shí)，其應(yīng)該以老大、老二、還是以老三的形式進(jìn)行模型呢？

松哥送大家一個(gè)口訣，未必放之四海而皆準(zhǔn)，但有一定的實(shí)際意義，就是“級別對等”。

比如多重線性回歸，我們的Y是不是連續(xù)性的正態(tài)分布資料，也就是計(jì)量資料，也就是老大。那血壓是以多少mmHg（計(jì)量資料）優(yōu)先考慮進(jìn)入模型。其結(jié)果解釋為血壓每改變1mmHg，Y的平均改變多少多少，線性回歸更注重?cái)?shù)量的依存關(guān)系。

如果是Logistic回歸，或Cox回歸，其Y原始形式為計(jì)數(shù)資料（老二或老三），此時(shí)血壓最好以老二（高血壓、正常、低血壓）或老三（正常、異常）的級別進(jìn)入。

以老三形式為例，結(jié)果為，當(dāng)你需要為異常時(shí)，你Y結(jié)局發(fā)生的風(fēng)險(xiǎn)是正常時(shí)的多少倍。

如果你以血壓mmHg形式進(jìn)入，則表示，血壓每增高1mmHg，你Y結(jié)局發(fā)生的風(fēng)險(xiǎn)增加多少倍。而根據(jù)專業(yè)我們也知道，血壓增高1mmHg，能對Y有多少影響呢，可能太微乎其微，也就沒有多大的專業(yè)意義了。

所以我們以老三形式進(jìn)入，正常與異常之間的差異就應(yīng)該比較大，而且有更好解釋的專業(yè)意義！

如果血壓以老二形式進(jìn)入模型，請問可不可以？好不好？意思是把它當(dāng)做等級資料，基于專業(yè)，我們認(rèn)為可以，但不好。理由是如果當(dāng)做等級，結(jié)論是，血壓每升高一個(gè)等級，Y發(fā)生的風(fēng)險(xiǎn)。我們會用正常與低血壓比，高血壓與正常比，這過于統(tǒng)計(jì)，而有失專業(yè)。此時(shí)應(yīng)該高血壓與正常比，低血壓與正常比才對，才有專業(yè)意義。

如此這樣，老二形式的血壓，應(yīng)該當(dāng)做老三無序分類，然后設(shè)定正常為參照，讓高、低血壓都與正常比，這才對！

剛才選擇的變量為血壓，專業(yè)上已經(jīng)有高低的標(biāo)準(zhǔn)，如果是身高，是連續(xù)性資料，建立Logisticc回歸，如果以老大進(jìn)入，則結(jié)果為身高每增高1cm，Y發(fā)生的風(fēng)險(xiǎn)，同樣的道理，1cm的身高變化，到底能有多大風(fēng)險(xiǎn)呢！專業(yè)意義不大！

身高如何變成老二或者老三呢？常規(guī)做法是，將身高進(jìn)行四分位數(shù)分組，然后變成變量，以1、2、3、4形式進(jìn)入模型。但是萬一Y疾病結(jié)局的發(fā)生并不按著1、2、3、4成線性遞增或者遞減，此時(shí)，就得將身高當(dāng)做老三進(jìn)行模型，而多項(xiàng)無序老三進(jìn)行模型，必須設(shè)置啞變量，我想這你是懂滴！

身高先考慮由老大變老二，老二不合適再考慮變老三。變法除了四分位數(shù)分組，還有三分位數(shù)分組，可以多次嘗試，以期找到最佳的形式。在進(jìn)行線性回歸時(shí)，還需要考慮變量的閾值效應(yīng)和飽和效應(yīng)（不說了，我想多數(shù)的你已經(jīng)暈了）!

松哥統(tǒng)計(jì)說

多因素分析是真正體現(xiàn)統(tǒng)計(jì)思維、統(tǒng)計(jì)功底的分析。然絕大多數(shù)人（包括松哥），都不能解對其神秘面紗！本文撰寫參考一些書籍與發(fā)表論文，同時(shí)也包括松哥個(gè)人的經(jīng)驗(yàn)與觀點(diǎn)，不妥處請大家一起討論，集思廣益嘛！

總結(jié)下吧！

（1）變量該如何進(jìn)入模型

常規(guī)做法：放寬進(jìn)入，然后關(guān)門打狗

現(xiàn)代做法：全部進(jìn)來，看關(guān)系（β）

（2）變量以何種形式進(jìn)入

建議：級別對等

洋洋灑灑數(shù)千言，辛辛苦苦幾小時(shí)，積累沉淀18載！

本文，您堅(jiān)持看到這里了嗎？看到了底部留個(gè)言！

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：萌小芊 > 《統(tǒng)計(jì)》

舉報(bào)/認(rèn)領(lǐng)