【SCI教程】因果關(guān)系的推導(dǎo)及一些相關(guān)的概念

牤牛河畔生 2015-09-19

展開(kāi)全文

許多臨床研究的問(wèn)題，尤其是病因?qū)W研究，危險(xiǎn)因素的研究，往往涉及到因果關(guān)系的求證。例如紅斑狼瘡的遺傳學(xué)研究中，我們需要從多個(gè)的基因位點(diǎn)中篩選出哪個(gè)或那些與紅斑狼瘡有關(guān)；臨床上，髖關(guān)節(jié)損害常常加速?gòu)?qiáng)直性脊椎炎致殘，我們可能想要了解哪些因素與強(qiáng)直性脊椎炎的髖關(guān)節(jié)損害有關(guān)；我們還可能需要了解哪些抗風(fēng)濕藥可能會(huì)導(dǎo)致結(jié)締組織病的性腺功能衰竭；等等。因此，因果關(guān)系的推導(dǎo)是臨床研究中最基本的技能。嚴(yán)格地說(shuō)，隨機(jī)對(duì)照試驗(yàn)也是一種特定的因果關(guān)系推導(dǎo)，上一講的預(yù)后因素分析也可以說(shuō)是一種因果關(guān)系的推導(dǎo)。這里主要是簡(jiǎn)要地討論病因?qū)W的研究，以及因果關(guān)系推導(dǎo)中一些有關(guān)的概念。

1．研究策略

推導(dǎo)因果關(guān)系主要應(yīng)用兩個(gè)分析性的研究策略，隊(duì)列研究和病例-對(duì)照研究。雖然描述性研究（病例組分析，橫斷面研究等）也可以在某些情況下提示可能存在因果關(guān)系，但主要是用于建立因果關(guān)系的假說(shuō)，驗(yàn)證假說(shuō)一般需要分析性研究，即隊(duì)列研究和病例-對(duì)照研究。本刊過(guò)去一些相關(guān)的文章已討論過(guò)隊(duì)列研究和病例-對(duì)照研究的區(qū)別[1]，上一講也介紹了隊(duì)列研究的方法[2]。這里主要討論病例-對(duì)照研究的基本方法。

病例-對(duì)照研究是一種回顧性的研究，首先需要選擇一個(gè)病例組和一個(gè)對(duì)照組，回顧兩組研究個(gè)體對(duì)研究因素的暴露情況。與隊(duì)列研究一樣，需要結(jié)合專業(yè)知識(shí)，盡量將各種可能有關(guān)的因素，均納入研究因素。一方面不遺漏有意義的病因，另一方面可以通過(guò)多元回歸等方法篩選和校正各因素之間的相互混雜。病例-對(duì)照研究特別適合于發(fā)病率較低的疾病的病因?qū)W研究。但是需注意在兩個(gè)研究組的樣本選擇時(shí)避免偏倚，對(duì)照組往往要求與病例組是同一人群中的非患病者。作病例-對(duì)照研究時(shí)，研究者需時(shí)時(shí)警惕和采取措施防止偏倚的存在[3]。

病例-對(duì)照研究的優(yōu)點(diǎn)在于(1)在分析性研究中，病例-對(duì)照研究是最節(jié)省時(shí)間和費(fèi)用的研究策略；(2)尤其適用于發(fā)病率較低的病因?qū)W研究；(3)適合于潛伏期較長(zhǎng)的病變的病因?qū)W研究；(4)可以對(duì)一個(gè)病進(jìn)行病因?qū)W的多因素分析；(5)可以用優(yōu)勢(shì)比（OR值）間接反映暴露因素對(duì)疾病的危險(xiǎn)性。然而其缺點(diǎn)包括(1)如果暴露是一個(gè)罕見(jiàn)的因素，通常難以達(dá)到滿意的研究結(jié)果；(2)它通常只限一個(gè)研究結(jié)局；(3)研究資料不能直接得出發(fā)病率和危險(xiǎn)度；(4)很難確立暴露因素與疾病之間的時(shí)間關(guān)系；(5)與其它分析性研究相比，病例-對(duì)照研究較容易出現(xiàn)偏倚，尤其是在病例組和對(duì)照組的選擇、暴露狀況的回憶、分組錯(cuò)誤和生存狀態(tài)等方面的偏倚。

2．相關(guān)強(qiáng)度計(jì)算

由于病例-對(duì)照研究的病例組和對(duì)照組是人為選定的，不能夠直接計(jì)算暴露者和非暴露組的發(fā)病率，因此它不能象隊(duì)列研究那樣直接計(jì)算相關(guān)危險(xiǎn)度（RR值），其相關(guān)強(qiáng)度計(jì)算是通過(guò)比較病例組和對(duì)照組的暴露優(yōu)勢(shì)，計(jì)算優(yōu)勢(shì)比（OR值）。通過(guò)圖1的四格表計(jì)算，病例組暴露優(yōu)勢(shì) = a/c，對(duì)照組暴露優(yōu)勢(shì) = b/d，OR值=病例組暴露優(yōu)勢(shì)/對(duì)照組暴露優(yōu)勢(shì) = ad/bc

3．多因素分析方法

因果關(guān)系的研究往往涉及到多個(gè)因素，病變的產(chǎn)生不是孤立的，各因素之間往往相互影響，可以相互協(xié)同或拮抗，也可以相互混雜。我們需要從許多的因素中篩選出對(duì)病變有影響的因素，還需要校正各因素之間的相互混雜，所以需要采用多因素分析的方法。不少已發(fā)表的論文，只用卡方檢驗(yàn)進(jìn)行單因素分析，雖然不能說(shuō)有原則性的錯(cuò)誤，但如果能增加多因素分析的方法進(jìn)行篩選，可以校正混雜因素的影響，結(jié)果將會(huì)可靠得多。由于多因素之間的相互混雜，在單因素分析中，一些有意義的因素可能被埋沒(méi)了，而另一些沒(méi)有意義的因素又被夸大了[3]。

在病例-對(duì)照研究中，最常用的多因素分析方法是建立Logistic回歸模型時(shí)。在建立回歸模型時(shí)，要先對(duì)各個(gè)研究因素進(jìn)行單因素分析。對(duì)于連續(xù)性的數(shù)值變量（如年齡）和有明確等級(jí)關(guān)系的有序分類變量（如尿蛋白半定量），可以直接進(jìn)行回歸分析；無(wú)序分類變量（如血型）和等級(jí)關(guān)系不太明確的有序分類變量（如狼瘡性腎炎的WHO病理分型），則須采用分層回歸分析的方法。

有時(shí)我們可能想要證實(shí)某兩個(gè)或多個(gè)因素合在一起時(shí)，對(duì)結(jié)局的影響有無(wú)協(xié)同或拮抗作用。如某多元回歸分析初步顯示，高血壓和頑固性蛋白尿是狼瘡性腎炎預(yù)后的危險(xiǎn)因素，如果你想了解二者有無(wú)協(xié)同作用，可以將二者相乘合并為一個(gè)變量，與原來(lái)的兩個(gè)變量一起放入回歸方程中去篩選，如果方程能接受這個(gè)新的變量，則提示這兩個(gè)變量具有協(xié)同作用。

單因素分析一方面可初步篩選出可能與預(yù)后有關(guān)的因素；另一方面去除那些根本不可能相關(guān)的因素，以減少建立多元回歸模型時(shí)的“壓力”。習(xí)慣上，人們多將單因素分析中P值≤0.2的因素，以及雖然P值＞0.2，但結(jié)合專業(yè)知識(shí)可能有關(guān)的因素，均作為待選變量引入到回歸方程中去篩選。在建立多元回歸方程時(shí)，待選變量的標(biāo)準(zhǔn)應(yīng)該放寬一些，以免遺漏那些由于混雜的影響，導(dǎo)致在單因素分析中被“埋沒(méi)”的有意義的因素。前幾個(gè)月閱讀某期刊2001年初發(fā)表的一篇有關(guān)狼瘡腦病發(fā)生的相關(guān)因素分析，只對(duì)單因素分析中P值＜0.05者進(jìn)行多因素回歸分析，結(jié)果只有血白細(xì)胞，尿紅細(xì)胞和A/G比值3個(gè)因子進(jìn)入Logistic回歸方程，被認(rèn)為是與紅斑狼瘡腦病發(fā)生的相關(guān)因素。從風(fēng)濕病專業(yè)的角度，估計(jì)很少有風(fēng)濕科醫(yī)生能接受這一研究結(jié)果。分析其原因，可能是在建立多元回歸方程時(shí)，待選變量的標(biāo)準(zhǔn)太嚴(yán)，導(dǎo)致真正有意義的因素被“埋沒(méi)”。最近又見(jiàn)一篇狼瘡性腎炎預(yù)后分析的文章，同樣只取單因素分析有意義的變量進(jìn)行多元回歸分析。可見(jiàn)這種錯(cuò)誤不是個(gè)別現(xiàn)象。

Logistic回歸的運(yùn)算公式不在此討論，一方面限于篇幅，另一方面回歸分析一般都用計(jì)算機(jī)統(tǒng)計(jì)軟件進(jìn)行運(yùn)算，幾乎沒(méi)有人采用計(jì)算公式進(jìn)行運(yùn)算。作為臨床醫(yī)生，只需掌握建立數(shù)據(jù)庫(kù)的方法，學(xué)會(huì)某一統(tǒng)計(jì)軟件包的操作，看得懂計(jì)算機(jī)運(yùn)算結(jié)果中有用的參數(shù)，并會(huì)將所需要的參數(shù)（如：OR值及其95%可信區(qū)間，P值等）引用到論文中，以及能解析這些結(jié)果的意義就可以了。至于運(yùn)算公式的推導(dǎo)，那是統(tǒng)計(jì)學(xué)家的事情。

4．OR值與RR值的區(qū)別

OR值和RR值是兩個(gè)意義相似，又有區(qū)別的統(tǒng)計(jì)量。如果其值＞1，提示“因”促進(jìn)“果”的發(fā)生；＜1 提示“因”阻止“果”的發(fā)生；＝1 則“因”與“果”無(wú)關(guān)。病例-對(duì)照研究只能計(jì)算OR值，不能計(jì)算RR值；而隊(duì)列研究既可計(jì)算RR值，又可計(jì)算OR值。Logistic回歸計(jì)算OR值，COX回歸計(jì)算RR值。

曾見(jiàn)本刊有文章以病例-對(duì)照研究的方法采集研究樣本，結(jié)果錯(cuò)誤地運(yùn)算RR值，而不是OR值。這幾年審稿時(shí)，遇見(jiàn)數(shù)篇類似的錯(cuò)誤，建議文章修改時(shí)改算OR值及其95%可信區(qū)間，可是文章發(fā)表出來(lái)只刪去了RR值，改用簡(jiǎn)單的卡方檢驗(yàn)。為了提高本刊的質(zhì)量，建議國(guó)內(nèi)同行在必要時(shí)，與臨床流行病學(xué)或統(tǒng)計(jì)學(xué)的老師溝通一下，避免出現(xiàn)這種一目了然的錯(cuò)誤。也不要為了“避免錯(cuò)誤”，而只作卡方檢驗(yàn)，不計(jì)算OR值或RR值。中華醫(yī)學(xué)會(huì)雜志社一再要求，文章“不應(yīng)盲目套用卡方檢驗(yàn)”[4]。

RR值的含義是，如果研究因素為暴露和非暴露兩種情況，則暴露于某因素的人發(fā)生某病的概率為非暴露者的（RR）倍；如果研究因素為連續(xù)性數(shù)值，則研究因素每增加1個(gè)單位，發(fā)生某病的概率增加（RR-1）倍。病例-對(duì)照研究是由“果”推論到“因”的研究，即研究樣本是由病例組和對(duì)照組開(kāi)始，不存在暴露組與非暴露組，因此不能計(jì)算發(fā)病率，也就不可能計(jì)算RR值，只能計(jì)算OR值。即比較病例組和對(duì)照組的對(duì)研究因素的暴露優(yōu)勢(shì)，以此來(lái)估計(jì)相對(duì)危險(xiǎn)度的大小。在發(fā)病率較低，樣本量較大的病因?qū)W研究中，OR值與RR值的含義幾乎相同。如前面的四格表中，RR= a/(a+b)÷c/(c+d)，如果樣本量足夠大，而發(fā)病率較小，則(a+b)中的a和(c+d)中的c可以忽略不計(jì)，這樣RR=a/(a+b)÷c/(c+d)≈a/b÷c/d=ad/bc=OR。但是在陽(yáng)性結(jié)局發(fā)生率較高的病因?qū)W研究和預(yù)后研究中，由于RR值公式中的a和c不能被忽略，所以O(shè)R值不能被視為RR值。

5．可信區(qū)間的重要性

在國(guó)內(nèi)醫(yī)學(xué)期刊中，僅少數(shù)的臨床研究論文對(duì)相關(guān)強(qiáng)度的運(yùn)算結(jié)果給出了95%可信區(qū)間，其實(shí)多數(shù)論文在其統(tǒng)計(jì)學(xué)方法中已闡明是調(diào)用計(jì)算機(jī)統(tǒng)計(jì)軟件完成，而幾乎所有統(tǒng)計(jì)軟件在計(jì)算RR值或OR值時(shí)，已自動(dòng)給予了它們的95%可信區(qū)間，論文作者只需“一舉手之勞”，就可以使文章“提高一個(gè)檔次”，可惜許多發(fā)表的論文缺少了這一重要的內(nèi)容。早在80年代中期，《BritishMedical Journal》就已發(fā)表文章“Confidenceintervals rether than P values: estimation rather than hypothesis testing”，強(qiáng)調(diào)可信區(qū)間的重要性[5]。國(guó)際上重要醫(yī)學(xué)期刊的臨床研究論文中，涉及到這類統(tǒng)計(jì)量時(shí)，也幾乎均有交代95%可信區(qū)間。

95%可信區(qū)間與P值在一定程度上有共同之處，如果RR值和OR值的95%可信區(qū)間包含了1，回歸系數(shù)的95%可信區(qū)間包含了0，兩個(gè)均數(shù)的95%可信區(qū)間有重疊，均表示它們假設(shè)檢驗(yàn)的P值＞0.05。不時(shí)會(huì)見(jiàn)到一些已發(fā)表風(fēng)濕病學(xué)的論文，RR值的95%可信區(qū)間包含了1，P值卻＜0.05，提請(qǐng)注意。

但是，P值不能反映可信區(qū)間，假設(shè)檢驗(yàn)不能代替范圍估計(jì)。因?yàn)镻值只給人們“全或無(wú)”的信息，P值＜0.05被認(rèn)為有統(tǒng)計(jì)學(xué)意義，＞0.05則無(wú)統(tǒng)計(jì)學(xué)意義。這樣，有實(shí)際意義的差異往往因?yàn)闃颖玖坎蛔惚慌袨闊o(wú)統(tǒng)計(jì)學(xué)意義（如圖2中的C）；沒(méi)有實(shí)際意義的微小差異則可能因?yàn)榇髽颖玖慷伙@示出有統(tǒng)計(jì)學(xué)意義（如圖2中的B）。另外，單純提供P值，還可能培養(yǎng)讀者的懶惰思維，盲目地聽(tīng)信統(tǒng)計(jì)學(xué)意義?？尚艆^(qū)間給讀者一個(gè)范圍的估計(jì)，可讓臨床醫(yī)生在閱讀文獻(xiàn)時(shí)，結(jié)合專業(yè)的知識(shí)進(jìn)行取舍。論文作者也需要結(jié)合專業(yè)知識(shí)在討論中對(duì)論文的結(jié)果進(jìn)行討論，以得出研究的結(jié)論，此時(shí)可信區(qū)間往往會(huì)被作為討論的依據(jù)。

圖2顯示假設(shè)檢驗(yàn)與95%可信區(qū)間的關(guān)系：縱坐標(biāo)向上，表示差異增大，P值漸小；“無(wú)效假設(shè)”的橫坐標(biāo)實(shí)線為RR值或OR值=1，回歸系數(shù)=0，或P值=0.05；橫坐標(biāo)虛線為實(shí)際意義。A和B表示有統(tǒng)計(jì)學(xué)意義，P值＜0.05，但A既有統(tǒng)計(jì)學(xué)意義，又有實(shí)際意義；B只有統(tǒng)計(jì)學(xué)意義，沒(méi)有實(shí)際意義。C和D表示無(wú)統(tǒng)計(jì)學(xué)意義，P值＞0.05，但C還不能確定是否真的沒(méi)有實(shí)際意義；D則真的是沒(méi)有意義。因此，臨床醫(yī)生引用文獻(xiàn)的結(jié)果來(lái)指導(dǎo)臨床決策時(shí)，需要參考可信區(qū)間，而不能盲目追求P值。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：牤牛河畔生 > 《科研寫作》

舉報(bào)/認(rèn)領(lǐng)