日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

R語言復(fù)現(xiàn)SCI論文:COX預(yù)測模型全流程

 昵稱69125444 2024-01-02 發(fā)布于廣西
臨床預(yù)測模型(clinical prediction model,是指利用數(shù)學(xué)模型估計(jì)研究對象當(dāng)前患有某病的概率或者將來發(fā)生某種結(jié)局的可能性。也就是說,臨床預(yù)測模型是通過已知特征來預(yù)測未知,而模型就是一個數(shù)學(xué)公式,也就是把已知的特征通過這個模型計(jì)算出未知結(jié)局發(fā)生的概率。

臨床預(yù)測模型作為臨床研究的“高階玩法”,不僅僅是改變臨床實(shí)踐的重要途徑,更是發(fā)表高分SCI文章的熱門選擇。但不論零基礎(chǔ)的小白,還是已經(jīng)了解過臨床預(yù)測模型的同學(xué),剛開始都會一頭霧水。雖然簡單概括,Cox回歸預(yù)測模型的基礎(chǔ)統(tǒng)計(jì)策略離不了“一表四圖”,即均衡性表、列線圖、校準(zhǔn)圖、ROC圖、DCA。但是通過R語言完成需要幾百行代碼,想想就頭大。

這里為大家介紹一個可以一站式完成Cox回歸預(yù)測模型分析的“神器”——風(fēng)暴統(tǒng)計(jì)。操作簡單,分分鐘完成“一表四圖”,還可以免費(fèi)下載完整表格與圖片結(jié)果。

今天我們就通過利用風(fēng)暴統(tǒng)計(jì)平臺復(fù)現(xiàn)一篇SEER數(shù)據(jù)庫文章,為大家展示構(gòu)建Cox預(yù)測模型的全過程并詳細(xì)介紹網(wǎng)站的各種功能及使用方法。
圖片
主要內(nèi)容包括:
一、文獻(xiàn)解讀
二、利用在線網(wǎng)站“風(fēng)暴統(tǒng)計(jì)”復(fù)現(xiàn)
三、R語言復(fù)現(xiàn)

一、文獻(xiàn)解讀


案例文獻(xiàn)是沈陽醫(yī)學(xué)院公共衛(wèi)生學(xué)院學(xué)者基于SEER數(shù)據(jù)庫的一項(xiàng)回顧性研究,旨在建立一個列線圖來預(yù)測老年惡性骨腫瘤(MBT)患者的總生存期(OS

圖片

1. 摘要

背景:惡性骨腫瘤(MBT)是老年患者死亡的原因之一。我們研究的目的是建立一個列線圖來預(yù)測老年MBT患者的總生存期(OS)。

方法:SEER數(shù)據(jù)庫下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險(xiǎn)因素?;谶@些危險(xiǎn)因素構(gòu)建列線圖,以預(yù)測老年MBT患者的1年,3年和5OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來評價預(yù)測模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評估列線圖的臨床潛在應(yīng)用價值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。Kaplan-MeierK-M)曲線用于測試兩名患者之間的生存差異。

結(jié)果:SEER數(shù)據(jù)庫下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險(xiǎn)因素?;谶@些危險(xiǎn)因素構(gòu)建列線圖,以預(yù)測老年MBT患者的1年,3年和5OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來評價預(yù)測模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評估列線圖的臨床潛在應(yīng)用價值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。Kaplan-MeierK-M)曲線用于測試兩名患者之間的生存差異。

結(jié)論:我們建立了一個新的列線圖來預(yù)測老年MBT患者的1年,3年,5年的OS。該預(yù)測模型可以幫助醫(yī)生和患者制定治療計(jì)劃和后續(xù)策略。

2. 數(shù)據(jù)介紹

文獻(xiàn)共納入16412004-2018診斷的老年MBT患者的臨床病理數(shù)據(jù)。暴露因素包括年齡、種族、性別、診斷年份、組織學(xué)類型、分級、分期、原發(fā)位置、TNM分期、腫瘤大小、是否化療、是否放療及手術(shù)方式。


圖片
3.研究結(jié)果

這篇文獻(xiàn)構(gòu)建Cox回歸預(yù)測模型的統(tǒng)計(jì)思路十分清晰。首先按照73將數(shù)據(jù)集進(jìn)行拆分獲得訓(xùn)練集與驗(yàn)證集,然后做均衡性檢驗(yàn),比較訓(xùn)練集和驗(yàn)證集的差異性,再做單因素和多因素Cox回歸,篩選變量構(gòu)建列線圖預(yù)測模型,最后通過校準(zhǔn)圖、ROC曲線、DCA曲線對模型的校準(zhǔn)度、區(qū)分度以及臨床決策的實(shí)際需要進(jìn)行評價。

①基線均衡表
 

圖片圖片圖片

②列線圖的建立

利用訓(xùn)練集數(shù)據(jù),通過單因素Cox回歸與多因素Cox回歸篩選預(yù)測變量。這里作者并未使用先單后多或者是逐步回歸法篩選預(yù)測變量,可能從臨床實(shí)際考慮的更多,在實(shí)操過程中推薦大家使用逐步回歸法進(jìn)行篩選。

圖片圖片圖片


最終納入10個變量建立了列線圖。通過患者的個體特征對照列線圖相加可以獲得總分,表明每個患者的MBT的特異性生存概率。

圖片 

②模型校準(zhǔn)度驗(yàn)證——校準(zhǔn)圖

A-C是訓(xùn)練集1年、3年、5年患者的總生存期校準(zhǔn)圖,D-F是驗(yàn)證集1年、3年、5年患者的總生存期校準(zhǔn)圖。曲線與對角線重合度越高,說明模型的校準(zhǔn)度越好。
 

圖片

③模型區(qū)分度驗(yàn)證——ROC曲線(AUC面積)

A圖是訓(xùn)練集1年、3年、5年患者的總生存期的ROC曲線;B圖是驗(yàn)證集1年、3年、5年患者的總生存期的ROC曲線。ROC曲線下面積又叫AUC面積,這個值越大說明預(yù)測模型的而判別區(qū)分能力越好。

圖片

④模型臨床決策實(shí)際需求評估——DCA曲線

A圖是訓(xùn)練集1年、3年、5年患者的總生存期的DCA曲線;B圖是訓(xùn)練集1年、3年、5年患者的總生存期的DCA曲線,紅色線條代表列線圖模型(包括構(gòu)建模型的10個變量),黃色線條代表TNM模型(僅納入TNM分期3個變量),兩個模型對比,線條越靠上說明在實(shí)際臨床中的應(yīng)用價值越大,可參考性越強(qiáng)。
二、利用在線網(wǎng)站“風(fēng)暴統(tǒng)計(jì)”復(fù)現(xiàn)

如果沒有代碼基礎(chǔ),或者希望通過更便捷的方式進(jìn)行統(tǒng)計(jì)分析,推薦使用這個智能在線統(tǒng)計(jì)分析平臺——風(fēng)暴統(tǒng)計(jì)。可以一站式完成Cox預(yù)測模型基礎(chǔ)統(tǒng)計(jì)分析,便捷又快速。

它的網(wǎng)址是www.medsta.cn(在電腦端瀏覽器打開)
瀏覽器輸入
medsta.cn即可medical statistics縮寫)

1.進(jìn)入網(wǎng)站分析模塊

電腦端打開風(fēng)暴統(tǒng)計(jì)平臺——“風(fēng)暴智能統(tǒng)計(jì)”模塊,點(diǎn)擊“臨床預(yù)測模型(最新)”,進(jìn)入“cox預(yù)測模型”頁面。
 
2.導(dǎo)入數(shù)據(jù)集

導(dǎo)入的數(shù)據(jù)是我們利用SEERStat根據(jù)納入排除標(biāo)準(zhǔn),提取文獻(xiàn)涉及的相關(guān)數(shù)據(jù)。最終共納入1,574名患者(原文獻(xiàn)1,641)。介于SEERStat數(shù)據(jù)庫會有更新,因此提取的樣本量與原文會有所出入,這里請大家多關(guān)注統(tǒng)計(jì)方法的運(yùn)用!

包含的暴露因素有年齡、種族、性別、診斷年份、組織學(xué)類型、分級、分期、原發(fā)位置、TNM分期、腫瘤大小、是否化療、是否放療及手術(shù)方式。

圖片

3. 數(shù)據(jù)的整理轉(zhuǎn)換

1)定量變量轉(zhuǎn)分類數(shù)據(jù)

首先點(diǎn)擊“數(shù)據(jù)整理轉(zhuǎn)換”模塊,選擇定量變量(以年齡為例),選擇“自定義分組”,輸入分組臨界值,點(diǎn)擊開始分組,即可產(chǎn)生一個新變量“age_group.(如遇顯示不全,可下載新數(shù)據(jù)查看)

注意:網(wǎng)站分組按照輸入的分組臨界值,分組區(qū)間為左閉右合,所以將年齡分為'<=65', '66-71', '>71'的臨界值為6672,即[0,66,[66,72,[72,∞)。
 
圖片

2)分類變量值標(biāo)簽設(shè)置

以上一步分組的年齡為例,選擇變量“age_group”,對應(yīng)分組類別添加值標(biāo)簽,可以在原變量基礎(chǔ)上修改,也可生成新的變量,切記一定要點(diǎn)“保存”!
 
圖片

3)重新定義變量值順序(啞變量設(shè)置)

只需要勾選“重新定義變量值順序(啞變量設(shè)置)”,將變量值按自己的需要排序,同樣排在第一位的為對照,切記“保存”。

注意:第二步和第三步最好分開進(jìn)行,否則會混亂。
 
圖片

4)產(chǎn)生新變量

可以通過計(jì)算產(chǎn)生新變量,但本文不需要此功能,可做了解。
 
圖片

5)變量重命名
 
圖片

6)整理好的數(shù)據(jù)集可以直接下載
 
圖片

3.數(shù)據(jù)集的拆分

點(diǎn)擊“數(shù)據(jù)集拆分”,可以設(shè)置隨機(jī)種子與拆分比例,簡簡單單就完成了拆分工作,如果需要下載拆分好的數(shù)據(jù)集,也可以點(diǎn)擊最右側(cè)“下載新的數(shù)據(jù)集”。

圖片

 
4.選擇變量,繪制均衡表

點(diǎn)擊“訓(xùn)練集與驗(yàn)證集比較”,分別選入正態(tài)變量、偏態(tài)變量、分類變量,在右側(cè)直接生成三線表格。制作好的三線表同樣可以直接下載使用,有excel版和word版可以選擇。
 

圖片

一般會選擇下載word版報(bào)告,結(jié)果十分的清晰,直接是三線表格式,超便捷!

圖片圖片

圖片

5.篩選預(yù)測變量

點(diǎn)擊進(jìn)入“Cox預(yù)測模型”模塊,將回歸因變量與回歸自變量分別選入,此外時間節(jié)點(diǎn)的設(shè)置與研究數(shù)據(jù)相對應(yīng)。

這里要特別注意回歸方法的選擇,如果僅使用先單后多進(jìn)行篩選,則逐步回歸法選擇否,如果選擇開展逐步回歸法,可以通過多因素回歸P值進(jìn)行閾值的設(shè)定,下方的多因素回歸結(jié)果即逐步回歸結(jié)果,可以分別查看單因素、多因素(逐步)或先單后多的結(jié)果,同樣支持導(dǎo)出excelword三線表結(jié)果。

圖片

 6.列線圖

在“Cox預(yù)測模型”板塊,預(yù)測因子設(shè)置完成后,可以在下方直接查看列線圖。如果需要通過右側(cè)對圖形進(jìn)行美化調(diào)整,須在左側(cè)勾選“自定義設(shè)置”,下圖為默認(rèn)設(shè)置下的列線圖,已經(jīng)比較簡潔美觀了。另外,網(wǎng)站支持下載PDF版或PNG版圖片,高清便捷。

圖片

 網(wǎng)站顯示的數(shù)軸標(biāo)注有所擠壓,也不夠清晰,但是下載的電子版圖片就沒有這個問題了,十分的高清美觀!

圖片

 7.校準(zhǔn)曲線

同樣在“Cox預(yù)測模型”板塊,預(yù)測因子設(shè)置完成后,此外,更加方便的是直接給出訓(xùn)練集與驗(yàn)證集,不同時間點(diǎn)的6個圖形,省去R語言諸多代碼的煩惱。另外,通過左側(cè)可以設(shè)置重采樣次數(shù),通常為5001000,以及校準(zhǔn)圖的節(jié)點(diǎn)數(shù)。最后可以下載校準(zhǔn)圖的PDF版或PNG版。
 

圖片

8.ROC曲線

同一模塊,ROC曲線直接給出結(jié)果,包括訓(xùn)練集與驗(yàn)證集3個不同時間點(diǎn)的6張校準(zhǔn)曲線圖,在左側(cè)可以直接調(diào)整圖形的線條粗細(xì),AUC95%可信區(qū)間注釋的位置。小白式操作也可以繪制出精美的圖形。
 

圖片

9.DCA曲線

同樣給出訓(xùn)練集與驗(yàn)證集在3個不同時間點(diǎn)的DCA曲線,在左側(cè)可以調(diào)整線條的粗細(xì)、虛實(shí)以及X軸的最大刻度值,可以下載圖片的PDFPNG,對新手小白十分友好!

圖片

 到這里,就已經(jīng)完成Cox預(yù)測模型文章中基礎(chǔ)統(tǒng)計(jì)策略的全部流程啦!內(nèi)容豐富但操作十分簡單,您也不妨嘗試一下?。?!

(如需獲取實(shí)操數(shù)據(jù),可在“醫(yī)學(xué)論文與統(tǒng)計(jì)分析”公眾號后臺回復(fù)“seer預(yù)測模型”)

圖片

三、R語言復(fù)現(xiàn)

1. 安裝加載R包并導(dǎo)入數(shù)據(jù)


本次復(fù)現(xiàn)涉及均衡表、Cox比例風(fēng)險(xiǎn)模型、列線圖、校準(zhǔn)圖、ROC曲線、DCA曲線。主要用到以下R包:
(如需獲得本次實(shí)操代碼,可在“醫(yī)學(xué)論文與統(tǒng)計(jì)分析”公眾號后臺回復(fù)seer預(yù)測模型

圖片

2.數(shù)據(jù)隨機(jī)拆分


通過設(shè)置隨機(jī)數(shù)種子,將數(shù)據(jù)集按照7:3的比例拆分為訓(xùn)練集與驗(yàn)證集。

圖片

3.均衡性檢驗(yàn)


對訓(xùn)練集與驗(yàn)證集提取group變量,并對兩個數(shù)據(jù)集進(jìn)行合并生成total數(shù)據(jù)集,total數(shù)據(jù)集與原數(shù)據(jù)集相比多了一列分組變量,分組依據(jù)是訓(xùn)練集或驗(yàn)證集,以便于通過total數(shù)據(jù)集進(jìn)行兩個數(shù)據(jù)集間的均衡性檢驗(yàn)。


圖片

代碼解讀:descrTable(y~x1 x2 x3……,data =   ,method = c(x=2)),y為分組變量,x為暴露因素,method設(shè)置為2對指定的定量變量使用秩和檢驗(yàn)。
R語言結(jié)果如下:
圖片

圖片

4.篩選預(yù)測變量

這里使用了autoReg包來進(jìn)行預(yù)測模型的篩選,可以一步到位實(shí)現(xiàn)批量單因素,多因素以及逐步回歸法。

圖片

代碼解讀:autoReg函數(shù)可以自動根據(jù)設(shè)定的閾值控制變量進(jìn)入多因素回歸模型,如果不限制閾值,全部變量進(jìn)入多因素回歸,可將閾值設(shè)置為1,如threshold=1;加上“final= TRUE”表示增加逐步向后回歸的結(jié)果。

R語言結(jié)果展示:

圖片

圖片

5. 構(gòu)建列線圖

這里列線圖中預(yù)測變量的納入根據(jù)逐步回歸的結(jié)果進(jìn)行復(fù)現(xiàn),選擇將age、Race等9個變量納入到列線圖中。通過患者的個體特征對照列線圖相加可以獲得總分,表明每個患者的MBT的特異性生存概率。

圖片

代碼解讀:”lp= F”指是否顯示系數(shù)軸,“funlabel”指風(fēng)險(xiǎn)軸刻度,“maxscale” 參數(shù)指定最高分?jǐn)?shù),一般設(shè)置為100或者10分,“fun.at”設(shè)置生存率的刻度,xfrac”設(shè)置數(shù)值軸與最左邊標(biāo)簽的距離。

R語言結(jié)果展示:

圖片

6. 繪制校準(zhǔn)圖

篇幅有限,這里僅為大家展示1年的校準(zhǔn)圖繪制代碼。3年、5年的校準(zhǔn)圖繪制僅需修改時間設(shè)置(time.inc=  / u=  ),1年為12,3年為12*3,5年為12*5。

圖片

代碼解讀:u””time_inc”對應(yīng)保持一致,根據(jù)研究數(shù)據(jù)可以是12、24也可以是365、730;m要根據(jù)樣本量來確定,如預(yù)計(jì)將所有樣本分為n組(在圖中顯示n個點(diǎn)),而m代表每組的樣本量數(shù),因此m*n應(yīng)該等于或近似等于樣本量“B=1000”表示進(jìn)行了1000次重采樣計(jì)算。plot函數(shù)中主要通過細(xì)節(jié)調(diào)整使圖形更加豐滿美觀。

R語言結(jié)果展示:

圖片

7.繪制ROC曲線

圖片

代碼解讀:計(jì)算過AUC值后,將3條ROC曲線繪制在同一張表格中,關(guān)鍵指標(biāo)為”add=TRUE”,否則僅繪制單條曲線,legend表示注釋表格的位置,“bottomright”指右側(cè)底部。

R語言結(jié)果如下:

圖片

8.繪制DCA曲線

原文中的DCA曲線是列線圖模型與TNM分期模型進(jìn)行的對比,因此我們首先需要構(gòu)建兩個模型,模型1納入列線圖中的9個變量,模型2僅納入TNM分期3個變量。

圖片

受篇幅限制,下面僅展示1年的DCA曲線繪制代碼,3年、5年的代碼只需在此基礎(chǔ)上稍作修改。如修改計(jì)算生存概率中的時間為times=12*3以及繪制曲線代碼中的時間time=12*3,變量名dca1。

圖片

代碼解讀:”method=loess”指使用平滑函數(shù),“formula =y ~ x”是用于平滑函數(shù)的公式,”span”是控制線條平滑度的平滑量,數(shù)字越大,線條越平滑,“ylim”設(shè)置y軸的范圍。

R語言結(jié)果展示如下:

圖片

好的,以上就是我們本次代碼復(fù)現(xiàn)的全部內(nèi)容,包括均衡性檢驗(yàn)表,先單后多cox回歸列線圖,ROC曲線,校準(zhǔn)曲線,DCA曲線足夠一篇文章的主要統(tǒng)計(jì)內(nèi)容,大家感興趣的話,不妨試一試!

相關(guān)數(shù)據(jù)與代碼已經(jīng)放在“醫(yī)學(xué)論文與統(tǒng)計(jì)分析”公眾號后臺,回復(fù)“seer預(yù)測模型”即可獲取。

本公眾提供各種科研服務(wù)了!

一、課程培訓(xùn)
2022年以來,我們召集了一批富有經(jīng)驗(yàn)的高校專業(yè)隊(duì)伍,著手舉行短期統(tǒng)計(jì)課程培訓(xùn)班,包括R語言、meta分析、臨床預(yù)測模型、真實(shí)世界臨床研究、問卷與量表分析、醫(yī)學(xué)統(tǒng)計(jì)與SPSS、臨床試驗(yàn)數(shù)據(jù)分析、重復(fù)測量資料分析、nhanes、孟德爾隨機(jī)化等10余門課。如果您有需求,不妨點(diǎn)擊查看:
發(fā)表文章后退款!2023年鄭老師團(tuán)隊(duì)多門科研統(tǒng)計(jì)直播課程,歡迎報(bào)名

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多