Cochrane系統(tǒng)評價的基本方法

王學東的圖書館 2017-01-18

展開全文

Basic Methods for Cochrane Systematic Review
中國循證醫(yī)學中心四川大學華西醫(yī)學中心附一院臨床流行病學教研室
李靜秦莉劉鳴
Chinese Evidence-based Medicine, Department of Clinical Epidemiology, The First University Hospital, West China Health Sciences Center, Sichuan University
Jing Li, Li Qin, Ming Liu
(四川大學華西醫(yī)院臨床流行病學教研室中國循證醫(yī)學/Cochrane中心成都 610041)
摘要：Cochrane系統(tǒng)評價是通過收集、評價和合成日益增長的原始臨床研究結果，得出有關干預措施的綜合效果，為衛(wèi)生決策和臨床實踐提供真實、可靠的證據(jù)。它采用了科學、明確、可重復的研究方法以減少偏倚因素的影響，因此與傳統(tǒng)綜述不同。Cochrane系統(tǒng)評價特別適用于某一干預措施的利弊根據(jù)單個臨床研究結果難以確定，或在臨床應用過程中存在較大的差異時。而質量差的系統(tǒng)評價可能誤導決策者和臨床醫(yī)師。本文將介紹Cochrane系統(tǒng)評價的基本方法，以期望對愿意進行系統(tǒng)評價的研究人員有所幫助。
關鍵詞：系統(tǒng)評價 Meta-分析方法
Abstract: Cochrane systematic reviews provide information about the effectiveness of interventions by identifying, appraising, and summarizing the results of otherwise unmanageable quantities of primary research in an effort to provide valid, reliable evidence for health decision-making and clinical practice. They differ from traditional reviews produced by "content experts" in that they use a replicable, scientific and transparent approach that seeks to minimize bias. They are particularly useful when there is uncertainty regarding the potential benefits or harm of an intervention and when there are variations in practice. Poor quality systematic reviews may mislead policy-makers and clinicians. This paper will introduce the basic methods of Cochrane systematic reviews in order to help those who are interested in conducting systematic review.
Key words: systematic review Meta-analysis method
系統(tǒng)評價（Systematic review）是根據(jù)某一具體的臨床問題，采用系統(tǒng)、明確的方法收集、選擇和評估相關的臨床原始研究，篩選出合格者并從中提取和分析數(shù)據(jù)，為疾病的診治提供科學的依據(jù)。Meta－分析（Meta-analysis）是指采用統(tǒng)計方法，將多個獨立、針對同一臨床問題、可以合成的臨床研究綜合起來進行定量分析。目前，國外文獻常常將系統(tǒng)評價與Meta-分析交叉使用，當系統(tǒng)評價采用了定量合成的方法對資料進行統(tǒng)計學處理時即稱為Meta-分析。因此，系統(tǒng)評價可以采用Meta-分析（quantitative systematic review, 定量系統(tǒng)評價），也可以不采用Meta-分析（non-quantitative systematic review，定性系統(tǒng)評價）。系統(tǒng)評價或meta-分析研究的內容可包括病因、診斷、治療、預后、預防、衛(wèi)生經濟和定性研究（qualitative research）。
Cochrane系統(tǒng)評價是1979年由英國著名流行病學家Archie Cochrane（已故）首先提出，其基本過程是以某一具體臨床問題（如疾病的治療、診斷）為基礎，系統(tǒng)、全面地收集全世界所有已發(fā)表或未發(fā)表的臨床研究結果，采用臨床流行病學嚴格評價文獻的原則和方法，篩選出符合質量標準的文獻，進行定性或定量合成（Meta-analysis），去粗取精，去偽存真，得出綜合可靠的結論。同時，隨著新的臨床研究的出現(xiàn)進行及時更新，隨時提供最新的知識和信息作為重要的決策依據(jù)，以改進臨床醫(yī)療實踐和指導臨床研究的方向，最有效地利用有限的衛(wèi)生資源為人類健康服務。目前，Cochrane系統(tǒng)評價主要研究防治、康復方面干預措施的療效，診斷性研究僅有一方法學組。具有嚴格、明確的方法并不斷更新是Cochrane系統(tǒng)評價的特點。
系統(tǒng)評價或meta-分析一方面能夠通過對多個有爭議或相互矛盾的小型臨床研究采用嚴格、系統(tǒng)的方法進行評價、分析和合成，解決紛爭或提出建議，為臨床實踐、醫(yī)療決策和今后的研究導向；另一方面，如果進行系統(tǒng)評價或meta-分析的方法不恰當，也可能提供不正確的信息，造成誤導。因此，系統(tǒng)評價的方法和步驟的正確與否，對其結果和結論的真實性、可靠性起著決定性的作用。
由于Cochrane系統(tǒng)評價具有嚴格、系統(tǒng)的研究方法，且定期更新，本文將以Cochrane系統(tǒng)評價為例，簡述其基本方法和步驟。
一、Cochrane系統(tǒng)評價的基本方法
1．確立題目、制訂系統(tǒng)評價計劃書
系統(tǒng)評價是為醫(yī)療實踐和衛(wèi)生決策提供科學依據(jù)，特別適用于某些干預措施的利弊根據(jù)單個臨床研究結果難以確定，或在臨床應用過程中存在較大的差異時。因此，系統(tǒng)評價的題目主要來源于臨床醫(yī)療實踐，涉及疾病防治方面不肯定、有爭論的重要臨床問題，以幫助臨床醫(yī)師進行醫(yī)療決策。例如：在高危人群中服用小劑量的阿斯匹林能否預防心腦血管病的發(fā)生？抗凝劑治療能否預防缺血性心臟病伴心房纖顫患者發(fā)生心臟事件？靜脈硫酸鎂是否能降低急性心肌梗死患者的短期死亡率？
為了避免重復，在確定進行某一臨床問題的系統(tǒng)評價前，應進行全面、系統(tǒng)的檢索，了解針對同一臨床問題的系統(tǒng)評價或Meta－分析是否已經存在或正在進行，如果有，其質量如何？是否已經過時？如果現(xiàn)有的系統(tǒng)評價或Meta－分析已過時或質量差，則可考慮進行更新或重新再做一個新的系統(tǒng)評價。
系統(tǒng)評價解決的問題頗為專一，涉及的研究對象、設計方案以及治療措施需相似或相同。因此，在確立題目時，應圍繞研究問題明確四個要素：（1）研究對象的類型：所患疾病類型及其診斷標準、研究人群的特征和場所；（2）研究的干預措施或進行比較的措施；（3）主要研究結果的類型包括所有重要的結果及嚴重的不良反應；（4）研究的設計方案：如治療性研究主要選擇隨機對照試驗，病因或危險因素研究選擇病例－對照研究和隊列研究等。這些要素對指導查尋、篩選和評價各個臨床研究，收集、分析數(shù)據(jù)及解釋結果的應用價值十分重要，必須準確、清楚定義。例如："靜脈硫酸鎂（干預措施）是否能降低急性心肌梗死患者（研究對象）的短期死亡率（研究結果）？---- 隨機對照試驗（設計方案）的系統(tǒng)評價"，這一問題就包括了上述四個要素。
系統(tǒng)評價的題目確立后，需要制訂計劃書，內容包括系統(tǒng)評價的題目、背景資料、目的、檢索文獻的方法及策略、選擇合格文獻的標準、評價文獻質量的方法、收集和分析數(shù)據(jù)的方法等。
原則上，系統(tǒng)評價研究的問題必須在制訂計劃書和收集文獻前確定，以避免作者根據(jù)原始文獻的數(shù)據(jù)信息和結果改變系統(tǒng)評價的題目及內容，導致結論的偏倚。但由于系統(tǒng)評價是對現(xiàn)有文獻資料的分析和總結，受原始文獻的制約，如果不了解與題目相關的資料信息和內容則難以確定一個好題目。因此，在進行系統(tǒng)評價的過程中如果要改變題目或評價的內容，必須明確回答原因及動機，并相應修改查尋文獻和收集文獻的方法。
2．檢索文獻（locating studies）
系統(tǒng)、全面地收集所有相關的文獻資料是系統(tǒng)評價與敘述性文獻綜述的重要區(qū)別之一。為了避免出版偏倚和語言偏倚，應圍繞要解決的問題，按照計劃書中制訂的檢索策略（包括檢索工具及每一檢索工具的檢索方法），采用多種渠道和系統(tǒng)的檢索方法。除發(fā)表的原著之外，還應收集其它尚未發(fā)表的內部資料以及多語種的相關資料。
除了利用文獻檢索的期刊工具及電子光盤檢索工具（Medline、Embase、Scisearch、Registers of clinical trials）外，系統(tǒng)評價還強調通過與同事、專家和藥廠聯(lián)系以獲得未發(fā)表的文獻資料如學術報告、會議論文集或畢業(yè)論文等；對已發(fā)表的文章，由Cochrane協(xié)作網的工作人員采用計算機檢索和手工檢索聯(lián)合的方法查尋所有的隨機對照試驗，建立了Cochrane試驗注冊庫（Cochrane Controlled Trials Register, CCTR）和各專業(yè)評價小組試驗注冊庫，既可彌補檢索工具如MEDLINE等標識RCT不完全的問題，也有助于系統(tǒng)評價者快速、全面獲得相關的原始文獻資料。
3．選擇文獻（selecting studies）
選擇文獻是指根據(jù)事先擬定的納入和排除標準，從收集到的所有文獻中檢出能夠回答研究問題的文獻資料。因此，選擇標準應根據(jù)確立的研究問題及構成研究問題的四要素即研究對象、干預措施、主要研究結果和研究的設計方案而制定。例如：靜脈硫酸鎂能否降低急性心肌梗死患者的近期死亡率？圍繞這一臨床問題，如果確定研究對象為急性心肌梗死患者，不考慮梗死的部位、患者性別、年齡，干預措施為靜脈使用硫酸鎂與安慰劑比較，主要研究結果為35天內的死亡率，設計方案為RCT，則所選臨床研究必須符合上述條件，而口服硫酸鎂或靜脈硫酸鎂與其它藥物進行比較，結果為梗死后12個月的死亡率或者非RCT的文獻資料均不能納入。
文獻資料的選擇應分三步進行（如圖1所示）：（1）初篩：根據(jù)檢索出的引文信息如題目和摘要篩除明顯不合格的文獻，對肯定或不能肯定的文獻應查出全文再進行篩選；（2）閱讀全文：對可能合格的文獻資料，應逐一閱讀和分析，以確定是否合格；（3）與作者聯(lián)系：一旦被排除的文獻將不再錄用，因此，因文中提供的信息不全面而不能確定，或者有疑問和有分歧的文獻應先納入，通過與作者聯(lián)系獲得有關信息后再決定取舍或在以后的選擇過程中進一步評價。

圖1 選擇文獻的基本步驟

4．評價文獻質量（assessment of study quality）
評價文獻的質量是指評估單個臨床試驗在設計、實施和分析過程中防止或減少系統(tǒng)誤差（偏倚）和隨機誤差的程度，以作為納入原始文獻的閾值、解釋不同文獻結果差異的原因、進行系統(tǒng)評價敏感性分析和定量分析（Meta-分析）時給予文獻不同權重值的依據(jù)。為此，對于入選的文獻，需要應用臨床流行病學/循證醫(yī)學評價文獻質量的原則和方法，進一步分析評價。文獻的評價應包括三方面內容：（1）內在真實性（internal validity）：指研究結果接近真值的程度，即受各種偏倚因素如選擇偏倚、實施偏倚、失訪偏倚和測量偏倚的影響情況；（2）外在真實性（external validity或稱generalizability）：指研究結果是否可以應用于研究對象以外的其它人群，即結果的實用價值與推廣應用的條件，主要與研究對象的特征、研究措施的實施方法和結果的選擇標準密切相關；（3）影響結果解釋的因素：如治療性試驗中藥物的劑量、劑型、用藥途徑和療程等因素。
在進行系統(tǒng)評價的過程中，文獻質量的評價強調對內在真實性的評估，即是否存在各種偏倚因素及其影響程度。偏倚主要來源于四個方面：（1）選擇性偏倚（selection bias/allocation bias）：發(fā)生在選擇和分配研究對象時，因隨機方法的不完善造成組間基線不可比，可夸大或縮小干預措施的療效，可用真正的隨機方法并對隨機分配方案進行完善的隱藏可避免；（2）實施偏倚（performance bias）：發(fā)生在干預措施的實施過程中，指除比較的措施外，向試驗組和對照組研究對象提供的其它措施不一樣，標化治療方案和對研究對象及實施研究措施者采用盲法可避免；（3）隨訪偏倚（attrition bias）：指在試驗的隨訪過程中，試驗組或對照組因退出、失訪、違背治療方案的人數(shù)或情況不一樣造成的系統(tǒng)差異，盡量獲得失訪者的信息和對失訪的人員采用恰當?shù)慕y(tǒng)計學方法處理如意向分析法（intention to treat analysis）可減少影響；（4）測量偏倚（measurement bias/detection bias/ascertainment bias）：測量試驗組和對照組結果的方法不一致所造成的系統(tǒng)差異，特別是研究結果需要進行主觀判斷時，統(tǒng)一、標化測量方法和對研究對象及結果測量者實施盲法可避免。
評價文獻質量的方法較多，可采用清單或一欄表（checklist, 即有許多條目，但不給予評分）和量表（scale，即有許多條目，每個條目均給予評分，但可給予相同或根據(jù)重要性給予不同的權重）。至今已有9種清單和60余種量表用于評價隨機對照試驗，分別有3－57個條目，需要花10－45分鐘完成，由于這些評價方法易于受文獻報告質量的影響，包括一些與內在真實性無關的信息且量表評分受主觀因素制約，因此，Cochrane協(xié)作網不推薦使用任何一種清單或量表，而是由評價者本人或評價小組自行選擇。但根據(jù)影響研究質量的重要因素，在評價時至少應包括以下幾方面：是否為真正的隨機方法？隨機分配方案是否完善隱藏？影響研究結果的重要因素在組間是否可比？是否對研究對象、治療方案實施者、研究結果測量者采用盲法？是否有研究對象失訪、退出、違背治療方案并在分析時作恰當處理（意向分析法）？
為了避免選擇文獻和評價文獻質量者的偏倚，可以考慮一篇文章多人或盲法選擇和評價，也可采用專業(yè)與非專業(yè)人員相結合的共同選擇和評價的辦法，對選擇和評價文獻中存在的意見分歧可通過共同討論或請第三人的方法進行解決。此外，應進行預試驗，以摸索經驗，標化和統(tǒng)一選擇、評價方法。
5．收集數(shù)據(jù)
根據(jù)制訂的調查表和需要收集的內容，收錄有關的數(shù)據(jù)資料，其中包括：（1）一般資料：如評價的題目、評價者的姓名、原始文獻編號和來源、評價的日期等；（2）研究特征：如研究的合格性、研究對象的特征和研究地點、文獻的設計方案和質量、研究措施的具體內容和實施方法、有關偏倚防止措施、主要的試驗結果等；（3）結果測量：如隨訪時間、失訪和退出情況、分類資料應收集每組總人數(shù)及各種事件發(fā)生率、連續(xù)資料應收集每組研究人數(shù)、均數(shù)和標準差或標準誤等。例如：在靜脈硫酸鎂是否能降低急性心肌梗死患者的短期死亡率的系統(tǒng)評價中，對每一個合格的臨床試驗應收集：兩組藥物的名稱、劑量、療程，用藥與發(fā)病的間隔時間，觀察療程，兩組的病例數(shù)、死亡數(shù)、發(fā)生嚴重心律失常、心力衰竭、低血壓、心源性休克等的人數(shù)。
所有的數(shù)據(jù)資料均要輸入系統(tǒng)評價管理軟件(Review manager，Revman)，以進行文獻結果的分析和報告。
6．分析資料和報告結果
對于收集的資料，可采用定性或定量的方法進行分析，以獲得相應的結果。
（1）定性分析（non-quantitative synthesis）
定性分析是采用描述的方法，將每個臨床研究的特征按研究對象、干預措施、研究結果、研究質量和設計方法等進行總結并列成表格，以便瀏覽納入的研究情況、研究方法的嚴格性和不同研究間的差異，計劃定量合成和結果解釋，因此，定性分析是定量分析前必不可少的步驟。
（2）定量分析（quantitative synthesis）
定量分析包括三個方面：Meta－分析、同質性檢驗和敏感性分析。① Meta－分析：應根據(jù)資料的類型及評價目的選擇效應量和統(tǒng)計方法。例如：對于分類變量，可選擇比值比（odds ratio）、相對危險度（relative risk）、危險度差值（risk difference）和防止一例事件發(fā)生需要治療同類患者的人數(shù)（nubmer needed to treat， NNT）等作為效應量表示合成結果；對于連續(xù)性變量，當結果測量采用相同度量衡單位時應選擇加權均數(shù)差值（weighted mean difference），而當結果測量采用不同的度量衡單位如疼痛評分在不同研究中采用不同的量表時，則應選擇標化的均數(shù)差值（standardized mean difference）。進行Meta－分析合成結果時，可選擇固定效應模型（fixed effect model）或隨機效應模型（random effect model）。Meta－分析的結果采用森林圖（forest plot）表示；② 同質性檢驗（homogeneity）：指對不同原始研究之間結果的變異程度進行檢驗。如果檢驗結果有顯著性差異，應解釋其可能的原因并考慮進行結果合成是否恰當。確定各研究結果是否同質有兩種方法：一是作圖觀察各研究結果的效應值和可信區(qū)間是否有重疊，如果可信區(qū)間差異太大，則不適合將不同研究的結果進行合成；另一種方法是進行同質性檢驗（c2檢驗），如果同質性檢驗有顯著性差異，則不宜將不同研究的結果進行合成或選擇隨機效應模型合成結果；③ 敏感性分析（sensitivity analysis）：指改變某些影響結果的重要因素如納入標準、研究質量的差異、失訪情況、統(tǒng)計方法（固定效應或隨機效應模型）和效應量的選擇（比值比或相對危險度）等，以觀察合成結果和同質性是否發(fā)生變化，從而判斷結果的穩(wěn)定性和強度。
7．解釋系統(tǒng)評價的結果（討論和結論）
在解釋系統(tǒng)評價時，必須基于研究的結果，內容應包括：（1）系統(tǒng)評價的論證強度：取決于納入研究的設計方案和每個研究的質量、是否存在重要的方法學局限、合成結果的效應值大小和方向、是否存在劑量－效應關系等；（2）推廣應用性：在確定系統(tǒng)評價結果的應用價值時，首先應考慮干預措施對患者的利弊關系，其次應考慮納入系統(tǒng)評價的研究，其研究對象是否與你的患者情況相似？是否存在生物學和社會文化背景、依從性、基礎危險度、病情等方面的差異；（3）對干預措施的利弊和費用進行衛(wèi)生經濟分析；（4）對醫(yī)療和研究的意義：系統(tǒng)評價的結果對臨床醫(yī)師和衛(wèi)生決策者的實用價值、對今后研究的指導意義，目的在于幫助醫(yī)務工作者和決策者進行正確的選擇和應用、為進一步的研究導向。
8．更新系統(tǒng)評價
系統(tǒng)評價的更新是指在系統(tǒng)評價發(fā)表以后，定期收集新的原始研究，按前述步驟重新進行分析、評價，以及時更新和補充新的信息，使系統(tǒng)評價更完善。
二、其它類型的系統(tǒng)評價
系統(tǒng)評價本身只不過是一種研究的方法學，并不僅限于隨機對照試驗或僅對治療措施療效進行系統(tǒng)評價。納入系統(tǒng)評價的臨床研究可以是隨機對照試驗，也可以是非隨機的臨床對照試驗。診斷性試驗、衛(wèi)生經濟學分析也可進行系統(tǒng)評價。另外，系統(tǒng)評價也可采用單個病人的資料，也可以為前瞻性的。目前，由于根據(jù)隨機對照試驗所進行的系統(tǒng)評價在理論和方法學上較完善及其論證強度較高，所以有關隨機對照試驗或評估治療措施療效的系統(tǒng)評價較多，而其它類型的系統(tǒng)評價如診斷試驗、病因學研究、非隨機試驗等正在研究之中。
1．采用單個病人的資料進行meta－分析（meta-analysis using individual patient data）
系統(tǒng)評價是對將多個研究的結果綜合在一起進行分析、整理，其資料來源可以為：從發(fā)表的報告中提取，從臨床試驗的研究者處收集綜合的資料結果如某事件發(fā)生率或某結果變量的均數(shù)和標準差，或者收集單個病人的資料（individual patient data，IPD）如每個患者的血壓、血脂水平或者結局如生存、死亡或是否發(fā)生某種并發(fā)癥等。根據(jù)IPD進行系統(tǒng)評價較其他類型的評價需要更多時間、資源和專業(yè)技術，但有許多的好處，如有能力進行生存率和其他"time-to-event"分析、用通常確定的亞組進行分析以檢驗和提出假設、通過與試驗者聯(lián)系可詳細核查和反復校正資料，以明確隨機化和隨訪資料的質量、通過現(xiàn)有的病例記錄系統(tǒng)（諸如死亡登記）更新隨訪信息等。
基于IPD的系統(tǒng)評價其基本方法和步驟同治療性研究的系統(tǒng)評價，同樣要系統(tǒng)、全面地收集所有相關的、真實的研究，對所獲得的資料的質量應進行嚴格評價，資料的收集不是每個研究的綜合結果，而是每個研究對象的原始數(shù)據(jù)，分析時采用"意向分析"的原則，這樣，系統(tǒng)偏倚和機遇的影響將會減至最少程度。
2．前瞻性的meta－分析（prospective meta－analysis，PMA）
前瞻性的meta－分析是指，在臨床研究尚未完成前（結果未出來），系統(tǒng)、全面地檢索、評價和確定要納入系統(tǒng)評價的相關研究，待試驗結束后合格的研究即可納入分析，因此，前瞻性的meta－分析可克服回顧性meta－分析的某些缺陷如：可收集和分析單個病人的資料，可進行"time-to-event"分析和亞組分析，可標化所有臨床試驗的結果測量方法等。
PMA的基本步驟類似于其它的系統(tǒng)評價，但其獲得的資料和信息更具說服力。
進行前瞻性的meta－分析時，如要保證檢索的資料全面，需要有相應的方法或機構注冊所有正在進行和將要進行的臨床試驗，并要求各試驗研究人員密切配合。
1998年底Cochrane協(xié)作網成立了PMA方法學組，愿意進行PMA的研究人員可與該組聯(lián)系以注冊題目和獲得相應的幫助。

參考文獻：
1． Clarke M, Oxman AD, editors. Cochrane Reviewers' Handbook 4.0[updated July 1999]. In: Review Manager (Revman) [Computer program]. Version 4.0. Oxford, England: The Cochrane Collaboration, 1999.
2． Reviews and Dissemination (CRD). Undertaking Systematic Reviews of Research on Effectiveness. CRD's Guidance for Carrying Out or Commissioning Reviews. 2nd Edition. CRD Report No. 4. York: NHS Centre for Reviews and Dissemination, University of York, 2000.

(本文選自中國循證醫(yī)學雜志，2001；1（1）：34-38)