臨床預(yù)測模型(clinical prediction model),是指利用數(shù)學(xué)模型估計(jì)研究對象當(dāng)前患有某病的概率或者將來發(fā)生某種結(jié)局的可能性。也就是說,臨床預(yù)測模型是通過已知特征來預(yù)測未知,而模型就是一個數(shù)學(xué)公式,也就是把已知的特征通過這個模型計(jì)算出未知結(jié)局發(fā)生的概率。 臨床預(yù)測模型作為臨床研究的“高階玩法”,不僅僅是改變臨床實(shí)踐的重要途徑,更是發(fā)表高分SCI文章的熱門選擇。但不論零基礎(chǔ)的小白,還是已經(jīng)了解過臨床預(yù)測模型的同學(xué),剛開始都會一頭霧水。雖然簡單概括,Cox回歸預(yù)測模型的基礎(chǔ)統(tǒng)計(jì)策略離不了“一表四圖”,即均衡性表、列線圖、校準(zhǔn)圖、ROC圖、DCA圖。但是通過R語言完成需要幾百行代碼,想想就頭大。這里為大家介紹一個可以一站式完成Cox回歸預(yù)測模型分析的“神器”——風(fēng)暴統(tǒng)計(jì)。操作簡單,分分鐘完成“一表四圖”,還可以免費(fèi)下載完整表格與圖片結(jié)果。今天我們就通過利用風(fēng)暴統(tǒng)計(jì)平臺復(fù)現(xiàn)一篇SEER數(shù)據(jù)庫文章,為大家展示構(gòu)建Cox預(yù)測模型的全過程并詳細(xì)介紹網(wǎng)站的各種功能及使用方法。二、利用在線網(wǎng)站“風(fēng)暴統(tǒng)計(jì)”復(fù)現(xiàn) |
案例文獻(xiàn)是沈陽醫(yī)學(xué)院公共衛(wèi)生學(xué)院學(xué)者基于SEER數(shù)據(jù)庫的一項(xiàng)回顧性研究,旨在建立一個列線圖來預(yù)測老年惡性骨腫瘤(MBT)患者的總生存期(OS) 背景:惡性骨腫瘤(MBT)是老年患者死亡的原因之一。我們研究的目的是建立一個列線圖來預(yù)測老年MBT患者的總生存期(OS)。方法:從SEER數(shù)據(jù)庫下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險(xiǎn)因素?;谶@些危險(xiǎn)因素構(gòu)建列線圖,以預(yù)測老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來評價預(yù)測模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評估列線圖的臨床潛在應(yīng)用價值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。Kaplan-Meier(K-M)曲線用于測試兩名患者之間的生存差異。結(jié)果:從SEER數(shù)據(jù)庫下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險(xiǎn)因素?;谶@些危險(xiǎn)因素構(gòu)建列線圖,以預(yù)測老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來評價預(yù)測模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評估列線圖的臨床潛在應(yīng)用價值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。Kaplan-Meier(K-M)曲線用于測試兩名患者之間的生存差異。結(jié)論:我們建立了一個新的列線圖來預(yù)測老年MBT患者的1年,3年,5年的OS。該預(yù)測模型可以幫助醫(yī)生和患者制定治療計(jì)劃和后續(xù)策略。文獻(xiàn)共納入1641名2004-2018診斷的老年MBT患者的臨床病理數(shù)據(jù)。暴露因素包括年齡、種族、性別、診斷年份、組織學(xué)類型、分級、分期、原發(fā)位置、TNM分期、腫瘤大小、是否化療、是否放療及手術(shù)方式。這篇文獻(xiàn)構(gòu)建Cox回歸預(yù)測模型的統(tǒng)計(jì)思路十分清晰。首先按照7:3將數(shù)據(jù)集進(jìn)行拆分獲得訓(xùn)練集與驗(yàn)證集,然后做均衡性檢驗(yàn),比較訓(xùn)練集和驗(yàn)證集的差異性,再做單因素和多因素Cox回歸,篩選變量構(gòu)建列線圖預(yù)測模型,最后通過校準(zhǔn)圖、ROC曲線、DCA曲線對模型的校準(zhǔn)度、區(qū)分度以及臨床決策的實(shí)際需要進(jìn)行評價。   利用訓(xùn)練集數(shù)據(jù),通過單因素Cox回歸與多因素Cox回歸篩選預(yù)測變量。這里作者并未使用先單后多或者是逐步回歸法篩選預(yù)測變量,可能從臨床實(shí)際考慮的更多,在實(shí)操過程中推薦大家使用逐步回歸法進(jìn)行篩選。   最終納入10個變量建立了列線圖。通過患者的個體特征對照列線圖相加可以獲得總分,表明每個患者的MBT的特異性生存概率。 ②模型校準(zhǔn)度驗(yàn)證——校準(zhǔn)圖A-C是訓(xùn)練集1年、3年、5年患者的總生存期校準(zhǔn)圖,D-F是驗(yàn)證集1年、3年、5年患者的總生存期校準(zhǔn)圖。曲線與對角線重合度越高,說明模型的校準(zhǔn)度越好。 ③模型區(qū)分度驗(yàn)證——ROC曲線(AUC面積)A圖是訓(xùn)練集1年、3年、5年患者的總生存期的ROC曲線;B圖是驗(yàn)證集1年、3年、5年患者的總生存期的ROC曲線。ROC曲線下面積又叫AUC面積,這個值越大說明預(yù)測模型的而判別區(qū)分能力越好。 ④模型臨床決策實(shí)際需求評估——DCA曲線A圖是訓(xùn)練集1年、3年、5年患者的總生存期的DCA曲線;B圖是訓(xùn)練集1年、3年、5年患者的總生存期的DCA曲線,紅色線條代表列線圖模型(包括構(gòu)建模型的10個變量),黃色線條代表TNM模型(僅納入TNM分期3個變量),兩個模型對比,線條越靠上說明在實(shí)際臨床中的應(yīng)用價值越大,可參考性越強(qiáng)。二、利用在線網(wǎng)站“風(fēng)暴統(tǒng)計(jì)”復(fù)現(xiàn)如果沒有代碼基礎(chǔ),或者希望通過更便捷的方式進(jìn)行統(tǒng)計(jì)分析,推薦使用這個智能在線統(tǒng)計(jì)分析平臺——風(fēng)暴統(tǒng)計(jì)。可以一站式完成Cox預(yù)測模型基礎(chǔ)統(tǒng)計(jì)分析,便捷又快速。 它的網(wǎng)址是www.medsta.cn(在電腦端瀏覽器打開) 瀏覽器輸入medsta.cn即可(medical statistics縮寫)電腦端打開風(fēng)暴統(tǒng)計(jì)平臺——“風(fēng)暴智能統(tǒng)計(jì)”模塊,點(diǎn)擊“臨床預(yù)測模型(最新)”,進(jìn)入“cox預(yù)測模型”頁面。導(dǎo)入的數(shù)據(jù)是我們利用SEERStat根據(jù)納入排除標(biāo)準(zhǔn),提取文獻(xiàn)涉及的相關(guān)數(shù)據(jù)。最終共納入1,574名患者(原文獻(xiàn)1,641)。介于SEERStat數(shù)據(jù)庫會有更新,因此提取的樣本量與原文會有所出入,這里請大家多關(guān)注統(tǒng)計(jì)方法的運(yùn)用!包含的暴露因素有年齡、種族、性別、診斷年份、組織學(xué)類型、分級、分期、原發(fā)位置、TNM分期、腫瘤大小、是否化療、是否放療及手術(shù)方式。 3. 數(shù)據(jù)的整理轉(zhuǎn)換(1)定量變量轉(zhuǎn)分類數(shù)據(jù)首先點(diǎn)擊“數(shù)據(jù)整理轉(zhuǎn)換”模塊,選擇定量變量(以年齡為例),選擇“自定義分組”,輸入分組臨界值,點(diǎn)擊開始分組,即可產(chǎn)生一個新變量“age_group”.(如遇顯示不全,可下載新數(shù)據(jù)查看)注意:網(wǎng)站分組按照輸入的分組臨界值,分組區(qū)間為左閉右合,所以將年齡分為'<=65', '66-71', '>71'的臨界值為66和72,即[0,66),[66,72),[72,∞)。以上一步分組的年齡為例,選擇變量“age_group”,對應(yīng)分組類別添加值標(biāo)簽,可以在原變量基礎(chǔ)上修改,也可生成新的變量,切記一定要點(diǎn)“保存”!只需要勾選“重新定義變量值順序(啞變量設(shè)置)”,將變量值按自己的需要排序,同樣排在第一位的為對照,切記“保存”。注意:第二步和第三步最好分開進(jìn)行,否則會混亂。可以通過計(jì)算產(chǎn)生新變量,但本文不需要此功能,可做了解。(6)整理好的數(shù)據(jù)集可以直接下載點(diǎn)擊“數(shù)據(jù)集拆分”,可以設(shè)置隨機(jī)種子與拆分比例,簡簡單單就完成了拆分工作,如果需要下載拆分好的數(shù)據(jù)集,也可以點(diǎn)擊最右側(cè)“下載新的數(shù)據(jù)集”。 點(diǎn)擊“訓(xùn)練集與驗(yàn)證集比較”,分別選入正態(tài)變量、偏態(tài)變量、分類變量,在右側(cè)直接生成三線表格。制作好的三線表同樣可以直接下載使用,有excel版和word版可以選擇。 一般會選擇下載word版報(bào)告,結(jié)果十分的清晰,直接是三線表格式,超便捷! 
 點(diǎn)擊進(jìn)入“Cox預(yù)測模型”模塊,將回歸因變量與回歸自變量分別選入,此外時間節(jié)點(diǎn)的設(shè)置與研究數(shù)據(jù)相對應(yīng)。這里要特別注意回歸方法的選擇,如果僅使用先單后多進(jìn)行篩選,則逐步回歸法選擇否,如果選擇開展逐步回歸法,可以通過多因素回歸P值進(jìn)行閾值的設(shè)定,下方的多因素回歸結(jié)果即逐步回歸結(jié)果,可以分別查看單因素、多因素(逐步)或先單后多的結(jié)果,同樣支持導(dǎo)出excel或word三線表結(jié)果。 在“Cox預(yù)測模型”板塊,預(yù)測因子設(shè)置完成后,可以在下方直接查看列線圖。如果需要通過右側(cè)對圖形進(jìn)行美化調(diào)整,須在左側(cè)勾選“自定義設(shè)置”,下圖為默認(rèn)設(shè)置下的列線圖,已經(jīng)比較簡潔美觀了。另外,網(wǎng)站支持下載PDF版或PNG版圖片,高清便捷。 網(wǎng)站顯示的數(shù)軸標(biāo)注有所擠壓,也不夠清晰,但是下載的電子版圖片就沒有這個問題了,十分的高清美觀! 同樣在“Cox預(yù)測模型”板塊,預(yù)測因子設(shè)置完成后,此外,更加方便的是直接給出訓(xùn)練集與驗(yàn)證集,不同時間點(diǎn)的6個圖形,省去R語言諸多代碼的煩惱。另外,通過左側(cè)可以設(shè)置重采樣次數(shù),通常為500或1000,以及校準(zhǔn)圖的節(jié)點(diǎn)數(shù)。最后可以下載校準(zhǔn)圖的PDF版或PNG版。 同一模塊,ROC曲線直接給出結(jié)果,包括訓(xùn)練集與驗(yàn)證集3個不同時間點(diǎn)的6張校準(zhǔn)曲線圖,在左側(cè)可以直接調(diào)整圖形的線條粗細(xì),AUC95%可信區(qū)間注釋的位置。小白式操作也可以繪制出精美的圖形。 同樣給出訓(xùn)練集與驗(yàn)證集在3個不同時間點(diǎn)的DCA曲線,在左側(cè)可以調(diào)整線條的粗細(xì)、虛實(shí)以及X軸的最大刻度值,可以下載圖片的PDF或PNG,對新手小白十分友好!

到這里,就已經(jīng)完成Cox預(yù)測模型文章中基礎(chǔ)統(tǒng)計(jì)策略的全部流程啦!內(nèi)容豐富但操作十分簡單,您也不妨嘗試一下?。?! (如需獲取實(shí)操數(shù)據(jù),可在“醫(yī)學(xué)論文與統(tǒng)計(jì)分析”公眾號后臺回復(fù)“seer預(yù)測模型”) 
1. 安裝加載R包并導(dǎo)入數(shù)據(jù)本次復(fù)現(xiàn)涉及均衡表、Cox比例風(fēng)險(xiǎn)模型、列線圖、校準(zhǔn)圖、ROC曲線、DCA曲線。主要用到以下R包:(如需獲得本次實(shí)操代碼,可在“醫(yī)學(xué)論文與統(tǒng)計(jì)分析”公眾號后臺回復(fù)“seer預(yù)測模型”)
2.數(shù)據(jù)隨機(jī)拆分通過設(shè)置隨機(jī)數(shù)種子,將數(shù)據(jù)集按照7:3的比例拆分為訓(xùn)練集與驗(yàn)證集。
3.均衡性檢驗(yàn)對訓(xùn)練集與驗(yàn)證集提取group變量,并對兩個數(shù)據(jù)集進(jìn)行合并生成total數(shù)據(jù)集,total數(shù)據(jù)集與原數(shù)據(jù)集相比多了一列分組變量,分組依據(jù)是訓(xùn)練集或驗(yàn)證集,以便于通過total數(shù)據(jù)集進(jìn)行兩個數(shù)據(jù)集間的均衡性檢驗(yàn)。 代碼解讀:descrTable(y~x1 x2 x3……,data = ,method = c(x=2)),y為分組變量,x為暴露因素,method設(shè)置為2對指定的定量變量使用秩和檢驗(yàn)。
4.篩選預(yù)測變量這里使用了autoReg包來進(jìn)行預(yù)測模型的篩選,可以一步到位實(shí)現(xiàn)批量單因素,多因素以及逐步回歸法。
代碼解讀:autoReg函數(shù)可以自動根據(jù)設(shè)定的閾值控制變量進(jìn)入多因素回歸模型,如果不限制閾值,全部變量進(jìn)入多因素回歸,可將閾值設(shè)置為1,如threshold=1;加上“final= TRUE”表示增加逐步向后回歸的結(jié)果。 R語言結(jié)果展示: 
5. 構(gòu)建列線圖這里列線圖中預(yù)測變量的納入根據(jù)逐步回歸的結(jié)果進(jìn)行復(fù)現(xiàn),選擇將age、Race等9個變量納入到列線圖中。通過患者的個體特征對照列線圖相加可以獲得總分,表明每個患者的MBT的特異性生存概率。 
代碼解讀:”lp= F”指是否顯示系數(shù)軸,“funlabel”指風(fēng)險(xiǎn)軸刻度,“maxscale” 參數(shù)指定最高分?jǐn)?shù),一般設(shè)置為100或者10分,“fun.at”設(shè)置生存率的刻度,“xfrac”設(shè)置數(shù)值軸與最左邊標(biāo)簽的距離。 R語言結(jié)果展示: 
6. 繪制校準(zhǔn)圖篇幅有限,這里僅為大家展示1年的校準(zhǔn)圖繪制代碼。3年、5年的校準(zhǔn)圖繪制僅需修改時間設(shè)置(time.inc= / u= ),1年為12,3年為12*3,5年為12*5。 
代碼解讀:”u”與”time_inc”對應(yīng)保持一致,根據(jù)研究數(shù)據(jù)可以是12、24也可以是365、730;m要根據(jù)樣本量來確定,如預(yù)計(jì)將所有樣本分為n組(在圖中顯示n個點(diǎn)),而m代表每組的樣本量數(shù),因此m*n應(yīng)該等于或近似等于樣本量;“B=1000”表示進(jìn)行了1000次重采樣計(jì)算。plot函數(shù)中主要通過細(xì)節(jié)調(diào)整使圖形更加豐滿美觀。 R語言結(jié)果展示: 
7.繪制ROC曲線 代碼解讀:計(jì)算過AUC值后,將3條ROC曲線繪制在同一張表格中,關(guān)鍵指標(biāo)為”add=TRUE”,否則僅繪制單條曲線,legend表示注釋表格的位置,“bottomright”指右側(cè)底部。R語言結(jié)果如下: 
8.繪制DCA曲線原文中的DCA曲線是列線圖模型與TNM分期模型進(jìn)行的對比,因此我們首先需要構(gòu)建兩個模型,模型1納入列線圖中的9個變量,模型2僅納入TNM分期3個變量。  受篇幅限制,下面僅展示1年的DCA曲線繪制代碼,3年、5年的代碼只需在此基礎(chǔ)上稍作修改。如修改計(jì)算生存概率中的時間為times=12*3以及繪制曲線代碼中的時間time=12*3,變量名dca1。 代碼解讀:”method=loess”指使用平滑函數(shù),“formula =“y ~ x””是用于平滑函數(shù)的公式,”span”是控制線條平滑度的平滑量,數(shù)字越大,線條越平滑,“ylim”設(shè)置y軸的范圍。R語言結(jié)果展示如下: 
好的,以上就是我們本次代碼復(fù)現(xiàn)的全部內(nèi)容,包括均衡性檢驗(yàn)表,先單后多cox回歸,列線圖,ROC曲線,校準(zhǔn)曲線,DCA曲線足夠一篇文章的主要統(tǒng)計(jì)內(nèi)容,大家感興趣的話,不妨試一試! 相關(guān)數(shù)據(jù)與代碼已經(jīng)放在“醫(yī)學(xué)論文與統(tǒng)計(jì)分析”公眾號后臺,回復(fù)“seer預(yù)測模型”即可獲取。 2022年以來,我們召集了一批富有經(jīng)驗(yàn)的高校專業(yè)隊(duì)伍,著手舉行短期統(tǒng)計(jì)課程培訓(xùn)班,包括R語言、meta分析、臨床預(yù)測模型、真實(shí)世界臨床研究、問卷與量表分析、醫(yī)學(xué)統(tǒng)計(jì)與SPSS、臨床試驗(yàn)數(shù)據(jù)分析、重復(fù)測量資料分析、nhanes、孟德爾隨機(jī)化等10余門課。如果您有需求,不妨點(diǎn)擊查看: |
|