【原】SEER數(shù)據(jù)庫系列|SEER數(shù)據(jù)挖掘文章有哪些研究模式

醫(yī)科研 2021-01-25

展開全文

歡迎來到醫(yī)科研，這里是白介素2的讀書筆記，跟我一起聊臨床與科研的故事, 生物醫(yī)學數(shù)據(jù)挖掘，R語言，TCGA、GEO,SEER數(shù)據(jù)挖掘。

.

SEER數(shù)據(jù)的大規(guī)模數(shù)據(jù)優(yōu)勢是無可比擬的。大規(guī)模的病例數(shù)還可以減輕病理學診斷的少數(shù)或隨機錯誤分類的影響。SEER依靠實驗室的質(zhì)量規(guī)范來最大程度地減少此類錯誤

. 腫瘤發(fā)病率的研究

SEER能發(fā)現(xiàn)一些無法通過簡單的估計病例數(shù)和頻數(shù)分布得出的結(jié)論。率（rates）告訴我們的是某個地區(qū)個體的發(fā)病率。而百分比（Percentages）只是告訴我們特定時間點上特定癌癥的數(shù)量占所有癌癥的比例。即使在從人群中收集每種癌癥的研究中，按亞型分類的癌癥百分率也可能會產(chǎn)生誤導，因為未考慮高危人群中癌癥的發(fā)生率。例如：SEER數(shù)據(jù)顯示，美國乳腺癌的總體患病率極高，這在很大程度上是因為老年女性中雌激素受體（ER）陽性癌癥的發(fā)生率很高。舉例說明：盡管馬來西亞的三陰性陰性癌癥的百分比或相對頻率分布高于美國，但美國的三陰性陰性癌癥的發(fā)病率也高于許多其他國家，例如馬來西亞。相反，在SEER中進行的研究已經(jīng)證實了流行病學研究的結(jié)果，這些研究表明，非洲裔美國人的人群中三陰性乳腺癌的發(fā)病率明顯更高

. 罕見腫瘤的發(fā)病率

研究罕見腫瘤的發(fā)病率，由于SEER的大規(guī)模數(shù)據(jù)優(yōu)勢，使得研究多條件限制的較小群體成為可能。舉例說明：有人利用SEER數(shù)據(jù)得出了這樣的結(jié)論年齡標準化的非西班牙裔白人女性的乳腺癌發(fā)病率總體上比黑人女性高。其中的變量包括了人種族、膚色和年齡。

. 出生隊列效應與周期效應

一段時間內(nèi)癌癥發(fā)病率的變化可能反映出重要危險因素（出生隊列或暴露影響）的發(fā)生率和/或篩查的變化。對SEER數(shù)據(jù)的分析可以追溯到過去的40多年，為了解癌癥發(fā)生率的時間趨勢提供了重要的背景。舉例說明：Ravdin等人報告說，與2002年相比，2003年美國按年齡校正的乳腺癌發(fā)病率急劇下降了6.7％。

. 腫瘤風險預測模型

這是一種比較常見的研究模式了，應用TCGA的基于分子構(gòu)建預測模型有一個不足在于較小的樣本量，這是一個先天的不足。反過來， SEER在構(gòu)建模型這一點上具備先天的優(yōu)勢，這樣的模型更具有推廣的可能性。SEER 可以被看作是一個開放的隊列或一群有共同經(jīng)驗的個人，可以隨時進入或退出。在 SEER中，子隊列可以通過出生年份，人口統(tǒng)計學，隨訪和/或診斷日期來定義。在許多風險預測模型中，特定年齡的SEER發(fā)生率數(shù)據(jù)會可以產(chǎn)生基線風險，該基線風險會因個人的其他風險因素而被修改，從而可以預測在特定時期內(nèi)在特定年齡發(fā)生特定癌癥的風險。最著名和廣泛使用的工具之一是“乳腺癌風險評估工具”或“蓋爾模型”，用于估計患乳腺癌的發(fā)生風險。該模型最初是為白人婦女開發(fā)的，然后擴展到適用于非白人婦女 www.cancer.gov.bcrisktool 。定期更新以反映乳腺癌發(fā)病率的變化.

. 腫瘤實踐與生物標志物的利用

1單獨的SEER數(shù)據(jù)或與生物標本，生物標志物和其他資源結(jié)合使用的SEER數(shù)據(jù)對理解病理診斷的臨床意義具有重要意義。例如一個一份評估9基因標記的肺癌預后的研究報道，將結(jié)果與來自SEER的基本患者信息相結(jié)合，可以提高預測模型的預測效果。這表明與其他幾種癌癥類型相似，腫瘤分類法可能越來越多地將組織病理學分類，分子檢測和臨床因素共同納入。其它研究還有很多，后續(xù)的推文，我可能會分享一些應用 **SEER**數(shù)據(jù)庫的文獻。

. SEER的局限性

SEER數(shù)據(jù)的最佳利用可利用有以下方面的優(yōu)勢：對美國人群的代表性和普遍性，較長的數(shù)據(jù)收集時間，大量的病例以及特定癌癥結(jié)局的收集。

局限性包括

收集有關特定癌癥風險和治療的個人水平數(shù)據(jù)不完整，以及從源登記處收集的數(shù)據(jù)不準確和不完整。另外就是缺失降低風險的數(shù)據(jù)記錄，目前尚未收集腫瘤復發(fā)數(shù)據(jù)，因此無法評估無進展生存期 PFS（Progression free survival)，局部，區(qū)域和遠距離控制的相關性以及挽救療法的有效性。
此外，由于收集的數(shù)據(jù)不能區(qū)分治療的目的是治愈性的還是姑息性的，因此不能完全評估生存結(jié)果。
未收集有關化學療法和放射療法的類型，劑量和持續(xù)時間以及使用其他口服藥物的具體細節(jié)。
當個體移入和移出SEER和非SEER地區(qū)時，會出現(xiàn)治療和隨訪方面的信息空白，并且可能會偏重關于癌癥行為的結(jié)論，尤其是在重新定位和結(jié)局相關的情況下。

. SEER的未來與機遇

SEER計劃的未來計劃包括擴大生物標志物和治療的收集，自定義注釋，與其他數(shù)據(jù)庫的鏈接以完全捕獲相關信息，隨著時間的推移統(tǒng)一編碼系統(tǒng)以及擴大生物標本資源。注釋的使用可能會擴大，以提供關鍵變量來解決當前的癌癥研究問題。電子記錄與藥房和商業(yè)生物標志物實驗室數(shù)據(jù)庫的鏈接為更詳細，完整的治療和生物標志物數(shù)據(jù)提供了前景。