日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

各類軌跡建模技術(shù)如何使用?適用數(shù)據(jù)、步驟及規(guī)范,一文講清楚

 妙趣橫生統(tǒng)計(jì)學(xué) 2024-04-30 發(fā)布于江蘇

統(tǒng)計(jì)服務(wù),歡迎咨詢!

鄭老師團(tuán)隊(duì)指導(dǎo) | 重復(fù)測(cè)量資料的數(shù)據(jù)分析一對(duì)一高級(jí)學(xué)習(xí)班,掌握SPSS、R語(yǔ)言分析技巧


本文翻譯自《Clinical Epidemiology》雜志的一篇論文,題為:“Trajectory Modelling Techniques Useful to Epidemiological Research: A Comparative Narrative Review of Approaches”(對(duì)流行病學(xué)研究有用的軌跡建模技術(shù):方法的比較敘述回顧)。
本篇是潛變量系列文章第8篇
本公眾號(hào)回復(fù)“沙龍”即可獲得R語(yǔ)言代碼,PPT,數(shù)據(jù)等資料
研究摘要

近年來(lái),不斷有采用軌跡建模技術(shù)研究涌現(xiàn),多數(shù)為醫(yī)療領(lǐng)域內(nèi)縱向數(shù)據(jù)的挖掘,對(duì)人群健康情況隨時(shí)間的個(gè)體內(nèi)和個(gè)體間變異性進(jìn)行探究。本綜述旨將闡述流行病學(xué)研究中的各種軌跡建模方法,并概述它們的應(yīng)用和差異,同時(shí)提供如何報(bào)告軌跡建模結(jié)果的指導(dǎo)。
本文綜述的潛類別建模方法包括增長(zhǎng)混合模型(GMM)、組軌跡模型(GBTM)、潛類別分析(LCA)和潛轉(zhuǎn)換分析(LTA),并與其他側(cè)重單個(gè)數(shù)據(jù)的統(tǒng)計(jì)方法如聚類分析(CA)和序列分析(SA)進(jìn)行對(duì)比。根據(jù)研究問(wèn)題和數(shù)據(jù)類型不同,可以采用多種方法對(duì)縱向研究中的重復(fù)測(cè)量數(shù)據(jù)進(jìn)行軌跡建模,然而目前對(duì)于各種潛類別建模方法(GMM、GBTM、LTA、LCA)存在多種不一致的術(shù)語(yǔ),容易引起混淆。報(bào)告術(shù)語(yǔ)的一致性有助于提高研究人員選擇技術(shù)時(shí)的效率,因此本文將一并對(duì)上述建模方法的術(shù)語(yǔ)進(jìn)行統(tǒng)一。
關(guān)鍵詞:建模技術(shù),增長(zhǎng)混合模型,組軌跡模型,潛類別分析,潛轉(zhuǎn)換分析,聚類分析,序列分析

引言

對(duì)測(cè)量結(jié)果取均值是分析整體或某特定亞組的指標(biāo)變化最常見(jiàn)的手段,但有一種情況相當(dāng)普遍,就是存在一批未知的個(gè)體,擁有相似的臨床癥狀、行為或醫(yī)療模式。真實(shí)世界中的整體是由許多個(gè)體組成的,因此使用估計(jì)的均值來(lái)描述整體,實(shí)際上是對(duì)真實(shí)臨床環(huán)境中復(fù)雜的個(gè)體內(nèi)和個(gè)體間變異性的過(guò)度簡(jiǎn)化。針對(duì)這一情況,軌跡模型應(yīng)運(yùn)而生,將個(gè)體按特定項(xiàng)目上的相似性區(qū)分,并分配到不同的軌跡中。

為什么要對(duì)軌跡進(jìn)行建模?

在縱向數(shù)據(jù)中,軌跡描述了隨時(shí)間變化的某一數(shù)量、行為、生物標(biāo)志物或其他重復(fù)測(cè)量數(shù)據(jù)的演變過(guò)程。軌跡建模側(cè)重個(gè)體間的關(guān)系,目的是基于個(gè)體反應(yīng)模式,將它們歸類到不同的潛在類別中。分類的目的是讓同一類別內(nèi)的個(gè)體之間的相似性大于不同類別內(nèi)個(gè)體之間的相似性。根據(jù)個(gè)體的相似性進(jìn)行分組并賦予類別標(biāo)簽,是組織大型數(shù)據(jù)集、提高效率和理解的一個(gè)有力工具,研究者可以通過(guò)尋找潛在類別以指導(dǎo)預(yù)防和臨床實(shí)踐。
例如可以根據(jù)癥狀嚴(yán)重程度的不同軌跡(隨時(shí)間變化的疼痛強(qiáng)度得分)對(duì)患者進(jìn)行重新分組。識(shí)別到潛在類別后,所在類別就可以作為一個(gè)因變量來(lái)識(shí)別健康軌跡的預(yù)測(cè)因子,或作為自變量來(lái)探索它們對(duì)未來(lái)健康結(jié)果的影響。如圖1所示,與基于樣本均值的測(cè)量相比,軌跡建模使研究人員能夠更好地描述和理解隨時(shí)間變化的健康結(jié)果在個(gè)體內(nèi)和個(gè)體間的變異性和模式,它在探索健康狀況的異質(zhì)性、識(shí)別需要更好醫(yī)療保健的脆弱人群以及識(shí)別通往最佳健康結(jié)果的軌跡方面非常有用。這樣的方法可以提供科學(xué)證據(jù),優(yōu)化針對(duì)特定亞群體需求的個(gè)性化醫(yī)療保健。
上述方法在流行病學(xué)領(lǐng)域的使用相對(duì)較新,迄今為止,關(guān)于軌跡建模的非技術(shù)性比較方法論論文發(fā)表不多,而且非統(tǒng)計(jì)學(xué)者在瀏覽相關(guān)文獻(xiàn)時(shí)會(huì)遇到各種挑戰(zhàn)。本綜述的目的是提供各種軌跡建模技術(shù)的概覽,并討論它們的應(yīng)用和差異,以幫助衛(wèi)生研究人員選擇最適合其研究問(wèn)題的技術(shù)。更具體地說(shuō),本文回顧了四種潛在類別建模方法:一種參數(shù)法(增長(zhǎng)混合模型[GMM]),和三種半?yún)?shù)法(組軌跡模型[GBTM]、潛類別分析[LCA]和潛轉(zhuǎn)換分析[LTA])。
本文超越了之前發(fā)表的綜述,通過(guò)將這些軌跡建模技術(shù)與其他以個(gè)體為中心的統(tǒng)計(jì)方法(如聚類分析[非參數(shù)法]和序列分析[非參數(shù)法])進(jìn)行比較。這篇綜述的受眾是為那些不熟悉高級(jí)統(tǒng)計(jì)理論的讀者,對(duì)于本文中回顧的每一種統(tǒng)計(jì)方法,我們都將介紹基本概念、處理的數(shù)據(jù)類型、進(jìn)行分析所涉及的各個(gè)步驟、可用的統(tǒng)計(jì)軟件包以及一個(gè)現(xiàn)實(shí)世界的例子,也會(huì)討論如何更好地報(bào)告軌跡建模的結(jié)果,最是本綜述中提出的關(guān)鍵點(diǎn)的總結(jié)。

軌跡建模方法

現(xiàn)有的用于檢查軌跡模式方法和算法可以分為三種主要類型:非參數(shù)法、參數(shù)法和半?yún)?shù)法。非參數(shù)法不對(duì)數(shù)據(jù)的分布做任何假設(shè),因此個(gè)體被分配到一個(gè)子類別是基于不相似程度。相比之下,參數(shù)法和半?yún)?shù)法假設(shè)數(shù)據(jù)來(lái)自有限的混合分布。因此,個(gè)體被分配到一個(gè)亞組是基于該亞組成員資格的條件概率。

潛類別建模方法

潛變量的使用起源于心理學(xué)和社會(huì)科學(xué)領(lǐng)域,用于建模未被觀察到的量,例如發(fā)展軌跡。其在流行病學(xué)領(lǐng)域的應(yīng)用相對(duì)較新。例如在疼痛研究中,潛變量越來(lái)越多地被用于建模疼痛嚴(yán)重程度(例如強(qiáng)度評(píng)分、干擾評(píng)分)。
潛類別模型是包括無(wú)法直接觀察到的隨機(jī)變量的統(tǒng)計(jì)模型,基于個(gè)體被觀察到的癥狀或行為,將他們分配到潛在軌跡亞組中。每個(gè)亞組由在觀察到的行為上有相對(duì)類似觀察的個(gè)體組成。潛類別模型可以應(yīng)用于縱向或橫斷面數(shù)據(jù),能夠處理包括部分缺失數(shù)據(jù)、離散量表重復(fù)測(cè)量或時(shí)間變化協(xié)變量等多種復(fù)雜情況。在縱向數(shù)據(jù)的潛類別模型方法中,為了正確估計(jì),至少需要三個(gè)測(cè)量時(shí)間點(diǎn),而為了估計(jì)涉及立方或二次趨勢(shì)的更復(fù)雜模型,四到五個(gè)測(cè)量時(shí)間點(diǎn)更為理想。縱向潛在類別建模方法不是評(píng)估單個(gè)時(shí)間點(diǎn)或相鄰時(shí)間點(diǎn)之間的變化,而是識(shí)別在整個(gè)研究期間具有相似結(jié)果模式的受試者子群。
本文論述了四種潛類別模型。三種適用于縱向數(shù)據(jù):增長(zhǎng)混合模型(GMM)、組軌跡模型(GBTM)和潛轉(zhuǎn)換分析(LTA),而潛類別分析(LCA)適用于橫斷面數(shù)據(jù)。時(shí)常見(jiàn)到論文作者使用不恰當(dāng)?shù)男g(shù)語(yǔ)來(lái)指代他們所使用的方法,因此非統(tǒng)計(jì)學(xué)研究者在選擇合適的方法進(jìn)行自己的研究時(shí)會(huì)面臨困難。為了解決這個(gè)問(wèn)題,本文概述了不同的潛在類別方法,并提供了使用這些統(tǒng)計(jì)方法的研究的具體示例,見(jiàn)表1。下面將詳細(xì)介紹每種方法。

增長(zhǎng)混合模型Growth Mixture Modelling (GMM)

1.介紹
GMM是一種有限混合模型。它假設(shè)在任何給定的人群中,存在有限數(shù)量的未觀察到的亞群體或類別(潛在類別),這些類別具有相似的行為或經(jīng)歷。這與經(jīng)典統(tǒng)計(jì)模型形成對(duì)比,傳統(tǒng)模型假設(shè)所有個(gè)體都來(lái)自具有共同人群參數(shù)的同一人群。
GMM是一種用于縱向數(shù)據(jù)的參數(shù)模型,它為每個(gè)潛在類別估計(jì)一個(gè)平均增長(zhǎng)曲線,并允許同一類別內(nèi)部個(gè)體之間存在變異。通過(guò)在模型中引入隨機(jī)效應(yīng),可以捕捉類別內(nèi)的異質(zhì)性,從而估計(jì)增長(zhǎng)參數(shù)(截距和斜率)的方差。因此,隨機(jī)效應(yīng)用于表示個(gè)體潛在增長(zhǎng)參數(shù)與人口平均增長(zhǎng)參數(shù)之間的差異。
例如,在三個(gè)疼痛強(qiáng)度軌跡亞組(無(wú)改善、逐漸改善、快速改善)的情況下,GMM允許在這些亞組中的任何一個(gè)里,任何個(gè)體的疼痛強(qiáng)度都可以比同一亞組中的任何其他個(gè)體更強(qiáng)烈。對(duì)于每個(gè)軌跡,GMM估計(jì)一個(gè)截距、一個(gè)斜率以及一個(gè)增長(zhǎng)參數(shù)的方差。這些參數(shù)是通過(guò)最大化對(duì)數(shù)似然函數(shù)來(lái)估計(jì)的。對(duì)于每個(gè)個(gè)體,基于觀測(cè)數(shù)據(jù)估計(jì)其屬于每個(gè)類別的概率(后驗(yàn)群體概率)。然后根據(jù)較高的后驗(yàn)群體概率將個(gè)體分配到對(duì)應(yīng)的子軌跡中。
在GMM中,協(xié)變量(無(wú)論其是否隨時(shí)間變化)的貢獻(xiàn)也可以被建模。實(shí)際上,某個(gè)體屬于某一潛類別的概率可能會(huì)根據(jù)協(xié)變量而變化,且協(xié)變量可以影響模型系數(shù)。一旦確定了軌跡成員身份,它可以被用作因變量或自變量來(lái)探索健康軌跡的預(yù)測(cè)因子及其對(duì)未來(lái)健康結(jié)果的貢獻(xiàn)。
2.適用數(shù)據(jù)類型
GMM用于縱向數(shù)據(jù),最初是為研究連續(xù)數(shù)據(jù)而開(kāi)發(fā)的。但后來(lái),它被改進(jìn)以處理其他類型的數(shù)據(jù),比如計(jì)數(shù)數(shù)據(jù)(無(wú)論是否存在零膨脹)和分類數(shù)據(jù)。
3.操作步驟
GMM可以通過(guò)迭代程序?qū)嵤?,其?shí)施需要基于研究領(lǐng)域的知識(shí)以及統(tǒng)計(jì)推斷來(lái)做出先驗(yàn)決策。
第一步:?jiǎn)栴}定義和軌跡亞組數(shù)量的規(guī)定
首先,研究領(lǐng)域與方法之間的聯(lián)系被正式建立。其次,制定一個(gè)合適的分析計(jì)劃。基于研究者對(duì)該領(lǐng)域的了解和對(duì)原始數(shù)據(jù)的描述性分析,假設(shè)潛在類別的預(yù)期數(shù)量和每個(gè)類別的曲線形態(tài)。例如,我們可以預(yù)期,接受手術(shù)的患者將遵循各種術(shù)后疼痛強(qiáng)度的軌跡(輕度、中度或重度疼痛,隨后是疼痛的改善或持續(xù))。
第二步:模型規(guī)范 
在這一步中,可以指定和估計(jì)一系列模型。研究人員可能會(huì)就增長(zhǎng)參數(shù)(截距、斜率方差和協(xié)方差)以及協(xié)變量的添加做出決策。應(yīng)盡可能采取實(shí)質(zhì)性理論和先前的研究指導(dǎo)這些決策。例如,如果研究人員預(yù)期有三個(gè)潛在類別,他們可以開(kāi)始擬合兩個(gè)、三個(gè)和四個(gè)類別的模型,決定決定每個(gè)軌跡隨時(shí)間變化的形狀應(yīng)該是線性的、二次的還是三次的,還應(yīng)決定增長(zhǎng)因子方差是否應(yīng)該對(duì)每個(gè)類別具體化,類內(nèi)增長(zhǎng)因子協(xié)方差是否應(yīng)該不為零,以及結(jié)果殘差方差是否應(yīng)該與類別無(wú)關(guān)。Frankfurt等(2016)強(qiáng)調(diào)正確規(guī)定模型以避免基于解釋的陷阱的重要性。此外,正確的模型規(guī)范能夠降低GMM結(jié)果解釋的復(fù)雜性。
第三步:模型估計(jì) 
GMM可以通過(guò)最大似然法或貝葉斯方法估計(jì)。
第四步:模型選擇與解釋 
本步驟的目的是確定測(cè)試的模型哪一個(gè)最能合理地代表觀測(cè)到的數(shù)據(jù)。應(yīng)通過(guò)LoMendell-Rubin調(diào)整似然比測(cè)試(LMR-LRT,p<0.05表示更好的擬合)來(lái)比較各個(gè)模型的擬合優(yōu)度,該測(cè)試適用于嵌套模型(k+1與k類模型),和/或參數(shù)化自助法似然比測(cè)試(p<0.05表示更好的擬合),和/或貝葉斯信息準(zhǔn)則(BIC)(較小的BIC表示更優(yōu)的模型)。研究人員還應(yīng)考慮模型的收斂性、模型提供的類別是否分明(熵接近1)、樣本中每個(gè)軌跡的比例(建議超過(guò)5%)、平均后驗(yàn)概率(接近1)、簡(jiǎn)約性以及觀察到的潛在類別在實(shí)踐中的實(shí)用性。
4.可用軟件包
GMM可以通過(guò)Mplus軟件和R中的lcmm包來(lái)實(shí)現(xiàn)。據(jù)我們所知,商業(yè)統(tǒng)計(jì)軟件如SPSS、SAS等目前還沒(méi)有提供GMM軟件包。
5.優(yōu)勢(shì)與局限性
與所有其他潛在類別建模方法一樣,GMM對(duì)于處理一些技術(shù)方面非常有用,例如處理缺失數(shù)據(jù)、允許殘差相關(guān)以及將回歸中的殘差和混合效應(yīng)模型中的隨機(jī)效應(yīng)視為潛在變量。與其他潛在類別建模方法不同的是,GMM為每個(gè)類別估計(jì)一個(gè)平均增長(zhǎng)曲線,并通過(guò)估計(jì)每個(gè)類別的增長(zhǎng)因子方差來(lái)捕捉圍繞這些增長(zhǎng)曲線的個(gè)體變異。此外,因?yàn)镚MM估計(jì)的參數(shù)比其他潛在類別建模方法多得多,結(jié)果的解釋可能會(huì)很復(fù)雜,這使得這種方法對(duì)許多健康研究人員來(lái)說(shuō)難以接近。
6.GMM的實(shí)際應(yīng)用
以Pagé等(2019)的研究為例,他們采用GMM檢查心臟手術(shù)患者術(shù)后抑郁和焦慮的軌跡。使用手術(shù)前、手術(shù)后7天以及3個(gè)月、6個(gè)月、12個(gè)月和24個(gè)月時(shí)測(cè)量的醫(yī)院焦慮和抑郁量表(HADS)分?jǐn)?shù),擬合了一個(gè)包含圍手術(shù)期協(xié)變量的三條軌跡模型。軌跡建?;谔囟ǖ倪x擇標(biāo)準(zhǔn),如最低的AIC和BIC、最小軌跡亞組中超過(guò)5%的患者以及理論上的合理性。然后將軌跡類別用作廣義估計(jì)方程(GEE)中的分類變量,旨在檢查與此類軌跡相關(guān)的人口統(tǒng)計(jì)學(xué)和臨床特征。該研究發(fā)現(xiàn)了一組患者焦慮持續(xù)不緩解的患者,可能預(yù)測(cè)了持續(xù)的、甚至延續(xù)到術(shù)后2年的疼痛。

組軌跡模型Group-Based Trajectory Modelling (GBTM)

1.介紹
同GMM一樣,GBTM(類似潛在類別增長(zhǎng)模型LCGA)是一種有限混合模型。GBTM是一種基于縱向數(shù)據(jù)的半?yún)?shù)模型,它假設(shè)人群分布是離散的,從而從中區(qū)分出擁有相似軌跡的潛在類別。GMM估計(jì)潛類別內(nèi)部的方差,而GBTM假設(shè)同一潛類別內(nèi)部的個(gè)體之間沒(méi)有變異(增長(zhǎng)因素上沒(méi)有隨機(jī)效應(yīng)),因此實(shí)際上GBTM是GMM的簡(jiǎn)化版。例如,在前述的三個(gè)疼痛強(qiáng)度軌跡潛類別(無(wú)改善、逐漸改善、快速改善)中,GBTM假設(shè)每個(gè)潛類別中的所有個(gè)體具有相同的疼痛強(qiáng)度演變,然后估計(jì)屬于該潛類別的人口比例,再估計(jì)每個(gè)個(gè)體屬于某個(gè)潛類別的概率(后驗(yàn)群體概率)。如同在GMM模型中一樣,每個(gè)個(gè)體按照最高的后驗(yàn)群體概率被分配到特定的潛類別中。參數(shù)通過(guò)最大化似然來(lái)估計(jì),模型中也可以納入隨時(shí)間變化或保持不變的協(xié)變量。
2.適用數(shù)據(jù)類型
GBTM是基于縱向數(shù)據(jù)的,專為研究下列三中類型的變量而開(kāi)發(fā):連續(xù)數(shù)據(jù)(特別是心理測(cè)量學(xué)產(chǎn)生的尺度數(shù)據(jù))、計(jì)數(shù)數(shù)據(jù)、以及分類數(shù)據(jù)。
3.操作步驟
與GMM一樣,GBTM擬合過(guò)程是迭代的,需要根據(jù)研究領(lǐng)域的知識(shí)進(jìn)行事先決策。然而它需要研究人員做出的決策更少。
第一步:?jiǎn)栴}定義和軌跡亞組數(shù)量的規(guī)定
與GMM模型相同。
第二步:模型規(guī)范 
建議首先測(cè)試一個(gè)單一群組模型,然后逐步調(diào)整,最后確定邏輯亞組的最大數(shù)量,這個(gè)最大數(shù)量應(yīng)該大于預(yù)期的亞組數(shù)量。在只有三個(gè)時(shí)間點(diǎn)的數(shù)據(jù)集中,應(yīng)該只測(cè)試一個(gè)單一的二次方程軌跡模型。如果這個(gè)模型的二次項(xiàng)并不顯著,那么應(yīng)該運(yùn)行一個(gè)線性軌跡模型來(lái)代替,并計(jì)算這個(gè)模型的貝葉斯信息準(zhǔn)則(BIC)值。如果二次項(xiàng)顯著,那么就進(jìn)行兩條軌跡的二次模型分析。然后將BIC值與只包含一條軌跡的模型的BIC值進(jìn)行比較,這一過(guò)程會(huì)一直重復(fù),直到找到BIC值最小的模型。每增加一條軌跡,都會(huì)重新評(píng)估模型的BIC值,以確定是否通過(guò)增加軌跡數(shù)量來(lái)改進(jìn)模型擬合。理想情況下,應(yīng)結(jié)合研究領(lǐng)域的知識(shí)和統(tǒng)計(jì)考慮來(lái)決定每個(gè)子軌跡的形狀。例如模擬隨時(shí)間變化的醫(yī)療接觸次數(shù)時(shí),那些在整個(gè)研究期間沒(méi)有與醫(yī)療系統(tǒng)接觸的病人,可以假設(shè)他們屬于一個(gè)“零階形狀”軌跡,即他們的醫(yī)療接觸次數(shù)保持為零(水平直線)。
第三步:模型估計(jì)
與GMM相同。
第四步:模型選擇與解釋
模型選擇應(yīng)結(jié)合研究領(lǐng)域的具體需求,同時(shí)還應(yīng)考慮以下因素:1)選擇模型時(shí),應(yīng)偏好既實(shí)用又簡(jiǎn)潔的模型;2)模型應(yīng)確保每個(gè)子群體的估計(jì)概率與根據(jù)最大概率歸屬規(guī)則分類的個(gè)體比例相匹配;3)每個(gè)子群體的平均后驗(yàn)概率應(yīng)大于或等于0.7;4)每個(gè)子群體中的個(gè)體數(shù)量應(yīng)超過(guò)總數(shù)的5%;5)模型的置信區(qū)間應(yīng)足夠窄;6)比較具有不同子群體數(shù)量的模型時(shí),應(yīng)考慮它們的BIC值差異。
4.可用軟件包
GBTM模型可以通過(guò)SAS軟件中的Proc Traj程序步來(lái)使用,也可以通過(guò)Mplus、R語(yǔ)言的crimCV包和lcmm包,以及使用Stata的traj插件來(lái)實(shí)現(xiàn),在SPSS或Excel中不可用。
5.優(yōu)勢(shì)與局限性
GBTM是GMM的一個(gè)更簡(jiǎn)潔的版本,兩者在處理缺失數(shù)據(jù)和允許相關(guān)殘差方面都具有相同的優(yōu)勢(shì)。GBTM假設(shè)同一軌跡類別中的所有個(gè)體都表現(xiàn)出相同的行為,而GMM允許存在潛類別內(nèi)部存在隨機(jī)效應(yīng)。這意味著,使用GBTM時(shí),研究人員可以討論潛類別之間的差異,但不能討論潛類別內(nèi)部的差異。GBTM估計(jì)的參數(shù)更少,因此運(yùn)行速度更快,報(bào)錯(cuò)更少。同時(shí)由于模型較為簡(jiǎn)單,結(jié)果也可能更易于解釋。出于這些原因,GBTM通常是研究人員更實(shí)用的選擇。
6.GBTM的實(shí)際應(yīng)用
Flint等(2017)通過(guò)GBTM法研究了參加以患者為中心的疾病管理干預(yù)隨機(jī)對(duì)照試驗(yàn)的心力衰竭門診患者的健康狀態(tài)軌跡。研究借助堪薩斯城心肌病問(wèn)卷(KCCQ)在基線、3個(gè)月、6個(gè)月和12個(gè)月的測(cè)量數(shù)據(jù),根據(jù)以下標(biāo)準(zhǔn)識(shí)別了包括一些協(xié)變量的三種健康狀態(tài)軌跡:
(1)各種統(tǒng)計(jì)指標(biāo)(較低的BIC和AIC,顯著的LMR-LRT以及軌跡樣本量超過(guò)總樣本的5%),
(2)潛類別分類的理論意義和概念可解釋性。
然后將軌跡亞組作為多項(xiàng)邏輯回歸模型中的分類變量,以識(shí)別軌跡亞組的預(yù)測(cè)因子。研究顯示,較差的抑郁情緒、癥狀負(fù)擔(dān)和平靜感與健康狀況較差的軌跡亞組相關(guān)。大多數(shù)時(shí)間里患者的健康狀態(tài)變化是平穩(wěn)的,也就是說(shuō)在這一期間內(nèi),大多數(shù)患者的健康狀況沒(méi)有經(jīng)歷劇烈的波動(dòng)。

潛轉(zhuǎn)換分析Latent Transition Analysis (LTA)

1.介紹
LTA能夠分析多個(gè)分類變量隨時(shí)間的變化(例如,是/否,輕度/中度/重度),以及隨時(shí)間變化的2x2表或任何列聯(lián)表的變化。LTA是一種用于縱向數(shù)據(jù)的半?yún)?shù)有限混合模型,通過(guò)一組分類變量的觀察數(shù)據(jù)來(lái)定義每個(gè)時(shí)間點(diǎn)的潛在變量。該模型假設(shè)個(gè)體隨時(shí)間可以改變其所在的潛類別。例如,在三個(gè)疼痛強(qiáng)度亞組(輕度/中度/重度)中,LTA允許個(gè)體從一個(gè)時(shí)間點(diǎn)的重度亞組轉(zhuǎn)換到下一個(gè)時(shí)間點(diǎn)的輕度或中度亞組,因此這種方法的主要目標(biāo)是研究個(gè)體從一個(gè)時(shí)間點(diǎn)的一個(gè)類別轉(zhuǎn)移到下一個(gè)時(shí)間點(diǎn)另一個(gè)類別的轉(zhuǎn)換概率。在這個(gè)模型中,變化在兩個(gè)連續(xù)時(shí)間點(diǎn)之間的轉(zhuǎn)換概率矩陣中被量化。模型估計(jì)以下參數(shù):
(1)第一時(shí)間點(diǎn)在某潛類別中的概率;
(2)每個(gè)時(shí)間點(diǎn)每個(gè)潛類別中的人口比例;
(3)隨時(shí)間從一個(gè)潛類別轉(zhuǎn)移到另一個(gè)潛類別的條件概率例如,給定時(shí)間t-1的潛在狀態(tài)L1,時(shí)間t的潛在狀態(tài)L2的概率);
(4)后驗(yàn)群體概率。在任何給定的時(shí)間點(diǎn)都可以預(yù)測(cè)一個(gè)后驗(yàn)群體概率。因此,可以使用時(shí)間1的潛在狀態(tài)成員資格概率,將個(gè)體分配到時(shí)間1的潛在類別/狀態(tài),并使用后群體概率在給定時(shí)間點(diǎn)進(jìn)行分配。
參數(shù)是通過(guò)最大似然函數(shù)或貝葉斯法來(lái)估計(jì)。如同GMM和GBTM一樣,LTA模型也可以加入?yún)f(xié)變量,但必須在添加協(xié)變量之前選擇類別數(shù),主要是為了避免加入?yún)f(xié)變量前后類別數(shù)可能發(fā)生的變化。
2.適用數(shù)據(jù)類型
LTA可以研究隨時(shí)間變化的分類變量(名義或順序)。不過(guò),由于數(shù)據(jù)集的結(jié)構(gòu)可能導(dǎo)致變量類別過(guò)多時(shí)形成龐大而復(fù)雜的列聯(lián)表,因此推薦將這些變量重新編碼為盡可能少的類別。當(dāng)時(shí)間點(diǎn)的數(shù)量不超過(guò)6個(gè)時(shí),使用LTA更為合適。
3.操作步驟
與GMM和GBTM一樣,LTA的實(shí)施是迭代的,需要基于研究領(lǐng)域的知識(shí)和統(tǒng)計(jì)考慮做出先驗(yàn)決策。LTA的實(shí)施還需要幾個(gè)步驟。
第一步:?jiǎn)栴}定義和軌跡子群體數(shù)量的規(guī)定
選擇潛在類別數(shù)量基于假設(shè)測(cè)試的結(jié)果,以及研究領(lǐng)域的理論和特定考慮因素。
第二步:模型規(guī)定
在此步驟中,研究人員需要決定項(xiàng)目響應(yīng)概率的時(shí)間不變性、轉(zhuǎn)換概率的測(cè)量不變性(為了實(shí)現(xiàn)模型識(shí)別并促進(jìn)類別流行度的解釋)以及協(xié)變量的添加。
第三步:模型估計(jì)
在此步驟中,應(yīng)在擬合模型之前選擇估計(jì)方法。LTA模型可以通過(guò)使用期望最大化算法的最大似然法來(lái)估計(jì)。它們也可以使用馬爾可夫鏈蒙特卡洛算法的貝葉斯方法來(lái)估計(jì)。
第四步:模型選擇和解釋
依據(jù)更小的AIC和BIC來(lái)選擇最佳模型。 
4.可用軟件包
LTA可以通過(guò)SAS中的Proc LTA程序步、Mplus以及R中的poLCA和depmixs4包來(lái)使用。
5.優(yōu)勢(shì)與局限性
LTA在模擬隨時(shí)間變化以及研究這種變化的預(yù)測(cè)因素方面非常有用,也有助于比較不同子群體以測(cè)試治療效果。然而LTA需要大樣本量,因?yàn)樾枰烙?jì)許多參數(shù)。實(shí)際上,每個(gè)可能的轉(zhuǎn)換都可以被視為一個(gè)單獨(dú)的列聯(lián)表。這個(gè)表通常包含大量可能的響應(yīng)模式。事實(shí)上,許多已抽樣的單元格可能是空的,但是樣本量越大,列聯(lián)表單元格內(nèi)稀疏的可能性就越小。此外,當(dāng)時(shí)間點(diǎn)的數(shù)量增加(例如大于6)時(shí),由于需要估計(jì)的參數(shù)眾多,LTA變得更加復(fù)雜。值得注意的是,LTA與隱藏馬爾可夫模型(HMM)有一些相似之處。
6.LTA的實(shí)際應(yīng)用
Pat-Horenczyk等(2016)使用LTA法評(píng)估乳腺癌患者治療后適應(yīng)情況的穩(wěn)定性和轉(zhuǎn)變。通過(guò)在治療后0個(gè)月、6個(gè)月、12個(gè)月和24個(gè)月測(cè)量的一系列指標(biāo),包括困擾和應(yīng)對(duì)策略,基于多個(gè)擬合優(yōu)度指標(biāo)和類別的可解釋性,發(fā)現(xiàn)了四種治療后適應(yīng)情況:困擾、抵抗、建設(shè)性成長(zhǎng)和掙扎成長(zhǎng)。研究結(jié)論是,適應(yīng)情況之間的大多數(shù)轉(zhuǎn)變發(fā)生在治療后6到12個(gè)月之間。他們的工作被視為對(duì)成長(zhǎng)、困擾和應(yīng)對(duì)之間關(guān)系理論理解的貢獻(xiàn)。

潛類別分析Latent Class Analysis (LCA)

1.介紹
LCA假設(shè)存在未觀察到的潛在分類變量,這些變量將人群劃分為互斥且完整的潛在類別。每個(gè)潛在類別代表一組個(gè)體,這些個(gè)體通過(guò)對(duì)一組變量的響應(yīng)類型來(lái)進(jìn)行特征描述。LCA是用于分類橫斷面數(shù)據(jù)的半?yún)?shù)模型(即,非縱向版本的LTA)。實(shí)際上,在LTA中,每個(gè)時(shí)間點(diǎn)都使用LCA來(lái)確定類別。因此像在LTA中一樣,LCA中的參數(shù)通過(guò)最大化似然或貝葉斯方法來(lái)估計(jì)。每個(gè)類別中還可以模擬協(xié)變量的貢獻(xiàn)。因此,屬于某一類別的概率取決于協(xié)變量的值或水平。
2.適用數(shù)據(jù)類型
LCA是為了研究橫斷面數(shù)據(jù)中的分類變量而開(kāi)發(fā)的。與LTA一樣,當(dāng)變量的類別過(guò)多時(shí),最好將它們重新編碼為盡可能少的類別。
3.操作步驟
執(zhí)行LCA的步驟與其縱向版本LTA相同,不同之處在于LTA中關(guān)于縱向方面的模型規(guī)范決策,例如參數(shù)時(shí)間不變性。
4.可用軟件包
LCA可以通過(guò)SAS中的Proc LCA實(shí)現(xiàn),也可以在Mplus、R(通過(guò)poLCA和depmixs4包)以及其他一些文獻(xiàn)中較少提及的軟件中進(jìn)行。
5.優(yōu)勢(shì)與局限性
LCA是一種強(qiáng)大的工具,用于分析分類變量之間關(guān)系的結(jié)構(gòu)。它使研究人員能夠探索和解釋復(fù)雜的列聯(lián)表,并提供了一種測(cè)試分類變量之間潛在結(jié)構(gòu)假設(shè)的方法。然而,LCA僅適用于橫斷面數(shù)據(jù)或序數(shù)數(shù)據(jù)。LCA更適合用于探索性研究,由于它分析的是橫截面數(shù)據(jù),LCA不能真正被視為一種“軌跡”建模技術(shù)。
6.LCA的實(shí)際應(yīng)用
Huh等(2011)采用LCA法,以飲食、體育活動(dòng)和體重感知等方面,識(shí)別兒童的不同亞型。使用一組代表肥胖風(fēng)險(xiǎn)維度的橫截面指標(biāo),得到了一個(gè)包括人口統(tǒng)計(jì)變量的5類模型。通過(guò)較低的BIC和AIC、顯著的LMR-LRT以及每個(gè)類別的內(nèi)容和獨(dú)特性確定了類別數(shù)量,然后評(píng)估潛在類別成員資格與體重、體重感知和社會(huì)人口統(tǒng)計(jì)特征等多種變量之間的關(guān)聯(lián)。研究顯示,兒童的體重、種族、性別和社會(huì)經(jīng)濟(jì)地位與潛在類別成員資格相關(guān)。最后,作者建議,兒童肥胖相關(guān)因素的這些亞型對(duì)肥胖干預(yù)計(jì)劃的設(shè)計(jì)和實(shí)施是相關(guān)的。
關(guān)于潛類別建模方法的進(jìn)一步說(shuō)明
  • a.使用以往的研究和理論來(lái)指導(dǎo)建模的類別數(shù)量時(shí),可能會(huì)遇到困難(缺乏先前的研究)或者在研究的人群中可能不適用。在這種情況下,研究人員應(yīng)當(dāng)從建模一個(gè)類別開(kāi)始,然后是兩個(gè)類別、三個(gè)類別等(包括建模他們認(rèn)為正確的軌跡數(shù)量)。然后可以比較模型的擬合優(yōu)度。
  • b.潛在類別模型因其靈活性和能夠處理隨機(jī)缺失數(shù)據(jù)(MAR)而受到重視。當(dāng)數(shù)據(jù)非隨機(jī)缺失(NMAR)時(shí),一些作者提出了對(duì)增長(zhǎng)模型(如GMM、GBTM和LTA)的擴(kuò)展,以考慮這類缺失數(shù)據(jù)。
  • c.除了前面提到的擬合優(yōu)度指標(biāo)外,熵也可以用來(lái)評(píng)估模型在使用潛在類別建模方法時(shí)提供良好分離子群的能力。實(shí)際上,如果分析的目的是對(duì)研究參與者進(jìn)行分類(這通常是潛在類別建模的情況),那么就有必要報(bào)告這種分類的性能。熵總結(jié)了潛在類別的可區(qū)分程度以及個(gè)體被分配到類別的精確性。它是個(gè)體估計(jì)后驗(yàn)概率的函數(shù),范圍從0到1,數(shù)值越高表示類別分離得越好。然而,對(duì)于解釋沒(méi)有固定的截止標(biāo)準(zhǔn)。此外,當(dāng)向潛在類別模型添加協(xié)變量時(shí),熵可能會(huì)被高估,這會(huì)增加對(duì)分類的信心。
  • d.值得注意的是,對(duì)于GMM、GBTM、LCA和LTA,底層的軌跡是未被觀察到的,也永遠(yuǎn)無(wú)法去觀察。因此,在報(bào)告和解釋結(jié)果時(shí),不應(yīng)該將其描述為已知的軌跡。此外,衍生的軌跡只應(yīng)在其研究的人群背景下進(jìn)行解釋,它們可能在不同的人群中不適用。
  • e.一旦確定了軌跡(類別/亞組),就有不同的方法將這些軌跡與先前因素或后續(xù)結(jié)果關(guān)聯(lián)起來(lái)。需要注意的是,評(píng)估此類關(guān)聯(lián)的方法可能會(huì)產(chǎn)生非常不同的結(jié)果。
  • f.潛類別建模方法對(duì)于回答許多類型的研究問(wèn)題都是有用的。然而研究人員應(yīng)該意識(shí)到,最佳模型可能是單一類別模型,建模的擬合優(yōu)度可能較差或者無(wú)法解釋。在這些情況下,研究人員可以使用常見(jiàn)的建模方法,如回歸模型,或者使用非參數(shù)建模方法,如下一節(jié)所述。

其他建模方法

聚類分析

在某些情況下,由于數(shù)據(jù)的性質(zhì),潛類別建模方法可能不適用。在這些情況下,聚類分析可以作為非參數(shù)的替代方法來(lái)使用,例如當(dāng)不滿足假設(shè)或者感興趣的變量不是分類變量時(shí)。
1.介
在數(shù)據(jù)挖掘領(lǐng)域,“聚類”一詞指的是一組相似的對(duì)象。聚類分析是一種完全非參數(shù)的方法,用于橫斷面數(shù)據(jù),旨在將相似的對(duì)象或個(gè)體分類為離散的類別,其目標(biāo)是確定類別的數(shù)量和組成。個(gè)體之間的相似性是通過(guò)距離度量來(lái)衡量的。這種方法的目標(biāo)是最大化組內(nèi)相似性,同時(shí)最小化組間相似性。
在聚類分析中,可以使用多種方法對(duì)數(shù)據(jù)進(jìn)行分類:
(1) 劃分法:構(gòu)建多個(gè)集群,然后根據(jù)特定的標(biāo)準(zhǔn)對(duì)這些分區(qū)進(jìn)行評(píng)估來(lái)對(duì)數(shù)據(jù)進(jìn)行分類(如k-均值,k-中心點(diǎn)算法)。必須事先確定集群的數(shù)量(k);
(2) 層次法:根據(jù)特定標(biāo)準(zhǔn)對(duì)對(duì)象進(jìn)行層次化分解。這種方法使用距離矩陣作為分組標(biāo)準(zhǔn)。集群的數(shù)量(k)無(wú)需預(yù)先定義;但必須指定一個(gè)停止條件(例如達(dá)到預(yù)定的群集數(shù)量);
(3)密度法依據(jù)數(shù)據(jù)點(diǎn)的密集程度和相互連接性來(lái)確定群集;
(4)網(wǎng)格法:通過(guò)將數(shù)據(jù)空間劃分為有限數(shù)量的單元格,即“網(wǎng)格”,來(lái)進(jìn)行數(shù)據(jù)分類。這些單元格構(gòu)成了一個(gè)多級(jí)粒度結(jié)構(gòu),使得聚類過(guò)程可以在不同的粒度級(jí)別上進(jìn)行。
經(jīng)典的距離度量包括歐幾里得距離、曼哈頓距離和基于相關(guān)性的距離(皮爾遜相關(guān)距離、Eisen余弦相關(guān)距離、Spearman相關(guān)距離和Kendall相關(guān)距離)。
聚類分析中,每個(gè)個(gè)體或?qū)ο髮儆谝粋€(gè)單一的集群,并且完整的集群集包含所有個(gè)體。聚類分析經(jīng)常用于流行病學(xué)和公共衛(wèi)生,以及心理學(xué)和社會(huì)科學(xué)。
2.適用數(shù)據(jù)類型
聚類分析可以支持各種類型的橫截面數(shù)據(jù),包括連續(xù)數(shù)據(jù)、分類數(shù)據(jù)和混合數(shù)據(jù)。
3.操作步驟
構(gòu)建聚類的步驟取決于所選方法和距離度量。
第一步:數(shù)據(jù)探索 
鑒于距離度量的選擇取決于所用數(shù)據(jù)的類型,對(duì)數(shù)據(jù)集進(jìn)行探索性分析以了解數(shù)據(jù)的類型和分布。在某些情況下,根據(jù)所追求的目標(biāo),數(shù)據(jù)可以進(jìn)行轉(zhuǎn)換(例如,連續(xù)變量可以被重新編碼為二進(jìn)制變量)。
第二步:方法和距離度量的選擇
一旦了解數(shù)據(jù)的性質(zhì),就可以選擇距離度量和聚類分析方法。然而,不同的方法使用相同的變量集合可能會(huì)產(chǎn)生截然不同的結(jié)果。聚類分析方法高度依賴于所選的距離度量。根據(jù)變量的性質(zhì)(連續(xù)、分類或混合數(shù)據(jù)),距離的定義也有所不同。Everitt等建議在特定情況下使用距離度量,具體如下:
(1)連續(xù)數(shù)據(jù):使用Minkowski距離;
(2)二元數(shù)據(jù):基于列聯(lián)表,如果對(duì)象是對(duì)稱的,則使用簡(jiǎn)單匹配系數(shù),如果對(duì)象是不對(duì)稱的,則使用Jaccard系數(shù);
(3)多余兩類的分類數(shù)據(jù):根據(jù)變量總數(shù)和匹配數(shù)使用簡(jiǎn)單匹配系數(shù),或?yàn)槊糠N模態(tài)創(chuàng)建一個(gè)二進(jìn)制變量并采用二元數(shù)據(jù)的方法;
(4)混合數(shù)據(jù):結(jié)合兩種或更多上述距離度量。
第三步:方法實(shí)施和結(jié)果解釋
根據(jù)選定的方法和距離度量的特點(diǎn)進(jìn)行聚類分析。距離度量用于找出兩個(gè)對(duì)象之間的相似度,并決定執(zhí)行哪種分組。兩個(gè)對(duì)象之間的距離測(cè)量結(jié)果范圍在0到1之間,其中“0”表示對(duì)象不相似,“1”表示完全相似。
4.可用軟件包
聚類分析可以在多種常見(jiàn)軟件包中進(jìn)行,例如SAS的proc cluster、R的一系列包、Stata的cluster和clustermat命令、SPSS的cluster語(yǔ)法。
5.優(yōu)勢(shì)與局限性
聚類分析在探索橫截面多變量數(shù)據(jù)時(shí)非常有用。通過(guò)將這些數(shù)據(jù)組織成聚類,有助于研究人員發(fā)現(xiàn)潛在結(jié)構(gòu)或模式的特征。然而聚類分析無(wú)法提供有關(guān)子群內(nèi)個(gè)體差異的詳細(xì)視角。與之相反,潛在類別模型比聚類分析更靈活,適用于識(shí)別異質(zhì)的子群體。與潛在類別分析一樣,聚類分析處理的是橫截面數(shù)據(jù),并不能真正被視為“軌跡”建模技術(shù)。
6.聚類分析的實(shí)際應(yīng)用
為了研究導(dǎo)致自發(fā)性早產(chǎn)的共同機(jī)制和潛在的遺傳因素,Esplin等(2015)使用層次聚類分析來(lái)識(shí)別同質(zhì)的表型特征配置。利用橫截面臨床和人口統(tǒng)計(jì)變量、每種表型的二元指標(biāo)、每個(gè)表型類別的加權(quán)得分和不相似矩陣,找到了一個(gè)5聚類模型,可能識(shí)別出具有相似遺傳風(fēng)險(xiǎn)的自發(fā)性早產(chǎn)婦女的子集,然后選擇其中一個(gè)表型聚類進(jìn)行了基因關(guān)聯(lián)研究。

序列分析

當(dāng)研究人員對(duì)將展示了相似事件序列的個(gè)體進(jìn)行分組感興趣時(shí),序列分析顯得非常重要。例如,在健康服務(wù)研究領(lǐng)域,個(gè)人的護(hù)理軌跡可以被視為一系列健康事件的模式,這涉及到與患者、疾病狀況、護(hù)理提供者、護(hù)理環(huán)境、治療方法及時(shí)間相關(guān)的變量。
1.介紹
序列分析是一種用于縱向序列數(shù)據(jù)的完全非參數(shù)方法,旨在根據(jù)觀察序列的相似性對(duì)其進(jìn)行分類(例如護(hù)理軌跡:急診-住院-回家-普通執(zhí)業(yè)醫(yī)生訪問(wèn))。這種方法最初是為蛋白質(zhì)和DNA序列分析而開(kāi)發(fā)的,然而自那時(shí)起它已經(jīng)被應(yīng)用于許多其他領(lǐng)域,包括流行病學(xué)和公共衛(wèi)生、心理學(xué)和社會(huì)科學(xué)。
序列分析首先計(jì)算個(gè)體之間的不相似性或距離矩陣。這種矩陣是通過(guò)比較序列中的事件或狀態(tài)的順序和持續(xù)時(shí)間來(lái)構(gòu)建的,從而反映出個(gè)體序列之間的差異。接著,這些不相似性矩陣被用于分類方法——主要是聚類分析方法——以確定根據(jù)其相似性的觀察子組或類別。這意味著,通過(guò)分析數(shù)據(jù)中的模式和關(guān)系,可以將具有相似生活或健康軌跡的個(gè)體分為相同的組或類別。
基于之前的“多維護(hù)理軌跡模型”,最近提出了一種全面的序列分析方法。這種方法同時(shí)考慮疾病狀況、護(hù)理提供者和護(hù)理設(shè)置,從而提供了一個(gè)更為全面的視角來(lái)分析和理解個(gè)體的健康和護(hù)理路徑。這種方法的提出,是為了更好地理解不同因素如何共同影響健康結(jié)果。在這種分類方法中,子組成員資格可以用作依賴變量或獨(dú)立變量,以探索健康軌跡的預(yù)測(cè)因素及其對(duì)未來(lái)結(jié)果的貢獻(xiàn)。這意味著,通過(guò)識(shí)別和分析影響健康軌跡的關(guān)鍵因素,可以更好地預(yù)測(cè)個(gè)體未來(lái)的健康狀況,并為制定個(gè)性化的健康干預(yù)措施提供依據(jù)。這種方法在公共衛(wèi)生、流行病學(xué)、心理學(xué)和社會(huì)科學(xué)等多個(gè)領(lǐng)域都有廣泛的應(yīng)用前景。
2.適用數(shù)據(jù)類型
序列分析能夠處理分類的縱向數(shù)據(jù)。
3.操作步驟
第一步:數(shù)據(jù)探索 
在進(jìn)行分析之前,必須從原始數(shù)據(jù)中創(chuàng)建狀態(tài)序列數(shù)據(jù)。例如,確保為每個(gè)狀態(tài)選擇合適的字母(例如,H代表住院,E代表急診訪問(wèn)等)。狀態(tài)序列必須放置在時(shí)間軸上,時(shí)間周期(每日、每周、每月、每年等)必須明確定義。對(duì)于每個(gè)時(shí)間周期,研究者必須選擇一個(gè)單一狀態(tài)。
這一步驟相對(duì)復(fù)雜,因?yàn)樵诮o定時(shí)間點(diǎn)有多個(gè)狀態(tài)可供選擇時(shí),確定優(yōu)先考慮的狀態(tài)有許多可能性(例如,在月度醫(yī)療利用的情況下,一個(gè)人可能在同一個(gè)月內(nèi)既住院又急診)。
第二步:距離度量選擇
研究者應(yīng)基于更新的距離或基于子序列的距離選擇合適的距離度量?;诟碌木嚯x通過(guò)計(jì)算將一個(gè)序列轉(zhuǎn)換成另一個(gè)完全相同的序列所需的最少更新操作次數(shù)來(lái)測(cè)量?jī)蓚€(gè)序列之間的距離,這些距離度量被稱為“最優(yōu)匹配”。因此,兩個(gè)軌跡之間的距離是一個(gè)函數(shù),取決于歸因于插入、刪除和替換等操作的成本(就運(yùn)行時(shí)間和計(jì)算機(jī)內(nèi)存空間而言)。確定所有操作的相對(duì)成本對(duì)于確定序列之間的距離至關(guān)重要。這些需要研究者事先定義。相比之下,基于子序列的距離通過(guò)計(jì)算共有子序列的數(shù)量來(lái)評(píng)估序列之間的距離。然而,最優(yōu)匹配是文獻(xiàn)中最廣泛使用的距離度量。
第三步:序列分析及結(jié)果解釋
計(jì)算所有序列之間的距離會(huì)得到一個(gè)距離矩陣。序列分析使用這個(gè)距離矩陣將序列劃分為相對(duì)均勻的子組。為此目的,各種聚類分析方法都是合適的,包括層次化方法。
4.可用軟件包
SAS、Stata、SPSS、R等軟件包執(zhí)行序列分析,迄今為止,執(zhí)行序列分析最強(qiáng)大和完整的方法是R的TraMineR軟件包。
5.優(yōu)勢(shì)與局限性
序列分析的優(yōu)勢(shì)在于,當(dāng)研究人員對(duì)隨時(shí)間發(fā)生事件的順序感興趣時(shí),這種方法使得可以根據(jù)路徑的相似性將個(gè)體分組為類別。然而,如果研究人員對(duì)隨時(shí)間發(fā)生的事件數(shù)量感興趣,則順序分析就不太合適。
6.序列分析的實(shí)際應(yīng)用
Vanasse等(2020)使用序列分析來(lái)識(shí)別慢性阻塞性肺疾?。–OPD)首次住院后患者之間的類似護(hù)理軌跡。護(hù)理軌跡由在一年時(shí)間內(nèi)的醫(yī)療利用序列組成,以“周”為時(shí)間單位。利用魁北克醫(yī)療行政數(shù)據(jù)中關(guān)于醫(yī)療就診和住院情況的信息,基于多種工具和特定選擇標(biāo)準(zhǔn)(最佳匹配、匯總距離矩陣、Ward's連接標(biāo)準(zhǔn)和平方和或慣性),發(fā)現(xiàn)了五個(gè)亞組,形成了新的護(hù)理軌跡類型學(xué)。隨后,患者的特征在護(hù)理軌跡亞組之間進(jìn)行了比較。研究表明,在第三高利用護(hù)理軌跡亞組中的患者年齡較大,合并癥較多,并且在住院期間病情更為嚴(yán)重。

如何報(bào)告軌跡模型的方法

在科學(xué)論文中報(bào)告統(tǒng)計(jì)方法時(shí),研究者應(yīng)確保分析描述得足夠詳細(xì),以便其他研究者能夠復(fù)現(xiàn)。因此應(yīng)包含:

(1)數(shù)據(jù)呈現(xiàn)(確定因變量和可能的協(xié)變量,并提及所有數(shù)據(jù)處理,例如創(chuàng)建新變量,重新編碼某些變量以便于分析等);

(2)軌跡建模技術(shù)及其使用的理由;

(3)選擇軌跡數(shù)量的邏輯和標(biāo)準(zhǔn)的規(guī)格說(shuō)明(例如,使用BIC和/或AIC,或用于在聚類分析和序列分析中選擇子組的距離度量);

(4)統(tǒng)計(jì)軟件(例如,指定在SAS中使用的程序,或R上的包等)。之前已發(fā)布了關(guān)于潛在軌跡研究報(bào)告的詳細(xì)指南(GRoLTS),如GMM和GBTM。

根據(jù)我們的審查,軌跡建模技術(shù)的完整描述通常不夠充分,并且由于某些醫(yī)學(xué)期刊的空間限制,缺乏必要的細(xì)節(jié)。這影響了研究社區(qū)理解、評(píng)估適當(dāng)性以及復(fù)制軌跡建模分析的能力。如果稿件長(zhǎng)度有限,研究者應(yīng)考慮增加網(wǎng)絡(luò)附錄以完整描述其建模步驟。這將增強(qiáng)軌跡建模技術(shù)的透明度、適當(dāng)性和可復(fù)制性。

如何報(bào)告軌跡模型的結(jié)果

軌跡分析結(jié)果的描述應(yīng)包含:
(1)獲得的軌跡/類別數(shù)量;
(2)軌跡形狀(在GMM和GBTM的情況下:線性、二次、三次等);
(3)用于選擇軌跡數(shù)量的標(biāo)準(zhǔn)值(例如,BIC和/或AIC);
(4)軌跡亞組成員的特征(每個(gè)亞組中的頻率和百分比,包括潛在狀態(tài)的普遍性、項(xiàng)目響應(yīng)概率和LTA的轉(zhuǎn)換概率);
(5)一個(gè)顯示軌跡亞組的圖形(例如,使用SAS proc traj進(jìn)行GBTM時(shí),連續(xù)曲線代表觀察到的數(shù)據(jù),不連續(xù)曲線代表所選模型的估計(jì))。
還應(yīng)解釋分配給每個(gè)軌跡的標(biāo)簽或名稱。

總結(jié)

軌跡建模方法已被用于使用不同統(tǒng)計(jì)方法預(yù)測(cè)各種結(jié)果。在醫(yī)療研究中,它們有助于改善我們對(duì)疾病嚴(yán)重程度、干擾、管理和隨時(shí)間演變的理解。然而,一些問(wèn)題限制了人們對(duì)它們的理解、實(shí)用性和解釋。事實(shí)上,在已發(fā)表的科學(xué)文獻(xiàn)中,用于指代潛在類模型方法的各種術(shù)語(yǔ)(如GMM、GBTM、LTA、LCA)使用不一致,經(jīng)常互換使用。對(duì)于描述和報(bào)告潛在類模型統(tǒng)計(jì)技術(shù)結(jié)果的空間在科學(xué)文章中也是不足的。我們希望這篇敘述性評(píng)論將指導(dǎo)研究人員選擇最適合其研究問(wèn)題的技術(shù)。我們展示了不同方法如何實(shí)施以及結(jié)果如何報(bào)告,這對(duì)非統(tǒng)計(jì)學(xué)研究人員是有價(jià)值的。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多