歡迎來到醫(yī)科研,這里是白介素2的讀書筆記,跟我一起聊臨床與科研的故事, 生物醫(yī)學(xué)數(shù)據(jù)挖掘,R語言,TCGA、GEO, SEER數(shù)據(jù)挖掘。 臨床大數(shù)據(jù)研究系列文獻分享第4篇,由浙江大學(xué)章仲恒老師撰寫的臨床大數(shù)據(jù)系列專欄文章發(fā)表在 Annals of Translational雜志,這篇文章主要介紹的是處理大數(shù)據(jù)中的缺失值的單純插補。這里只做學(xué)習(xí)交流,版權(quán)歸原作者所有。 摘要完整案例分析,也就是把缺失數(shù)據(jù)都刪掉,只保留完整數(shù)據(jù),廣泛用于處理丟失的數(shù)據(jù),它是許多統(tǒng)計軟件包中的默認方法。但是,此方法可能會引入偏差,并且一些有用的信息將從分析中省略。因此,開發(fā)了許多插補方法來消除間隙。本文重點介紹單一插補。帶有均值,中位數(shù)和眾數(shù)的插補很簡單,但像完整的案例分析一樣,可能會導(dǎo)致均值和偏差出現(xiàn)偏差。此外,他們忽略了與其他變量的關(guān)系?;貧w估算可以保留缺失值和其他變量之間的關(guān)系。存在許多復(fù)雜的方法來處理縱向數(shù)據(jù)中的缺失值。本文主要關(guān)注如何實現(xiàn)R代碼以執(zhí)行單純插補single imputation,同時避免復(fù)雜的數(shù)學(xué)計算。 介紹缺失數(shù)據(jù)在大數(shù)據(jù)臨床試驗中無處不在。盡管許多研究沒有明確報告它們?nèi)绾翁幚韥G失的數(shù)據(jù),但統(tǒng)計軟件中使用了一些隱式方法。結(jié)果,不同的軟件包可能以不同的方式處理丟失的數(shù)據(jù)(或默認方法不同),并且可能無法通過使用不同的統(tǒng)計軟件包來精確復(fù)制結(jié)果。有時這可能不會導(dǎo)致顯著不同的結(jié)果,但是研究的科學(xué)可靠性受到了損害。最佳做法是明確說明如何處理缺失值。為簡單起見,許多研究人員僅刪除不完整的案例(按列表刪除),這也是許多回歸軟件包中的默認方法(3)。僅當(dāng)缺失值的數(shù)量不大且缺失模式完全隨機缺失(MCAR)或MAR缺失時,此方法才能獲得可靠的結(jié)果。完整案例分析的另一個缺點是信息丟失。當(dāng)存在大量變量(列)時,這可能是一個大問題。由于刪除是基于一個或多個變量的缺失,因此可以刪除大量案例。此外,完整的案例分析可能會導(dǎo)致無法預(yù)測的偏差。解決這個問題的方法是數(shù)據(jù)插補。缺失值將替換為估算值。由于插補是一個活躍的研究領(lǐng)域,因此為數(shù)據(jù)插補開發(fā)了許多方法和軟件包。本文旨在介紹一些用于丟失數(shù)據(jù)的基本插補方法。大數(shù)據(jù)臨床試驗系列的后續(xù)文章將討論多重插補。 參考文獻Cite this article as: Zhang Z. Missing data imputation: focusing on single imputation. Ann Transl Med 2016;4(1):9. doi: 10.3978/j.issn.2305-5839.2015.12.38 One more thing |
|