根據(jù)視頻教程拿到數(shù)據(jù),很容易可視化如下: 可以得出結(jié)論,我們感興趣的基因(這里是CUL5)在乳腺癌的正常組織及癌癥組織(原位和轉(zhuǎn)移)表達量,使用單因素方差分析,得到了統(tǒng)計學(xué)顯著的結(jié)果。 定義單因素方差分析是兩個樣本平均數(shù)比較的引伸,它是用來檢驗多個平均數(shù)之間的差異,從而確定因素對試驗結(jié)果有無顯著性影響的一種統(tǒng)計方法。
了解數(shù)據(jù)數(shù)據(jù)文件可以下載,然后讀入R里面進行可視化,代碼如下: rm(list = ls()) 這個文件 可以看到,比網(wǎng)頁工具出圖要好看: 但是,這個時候還沒有進行統(tǒng)計分析,可以添加的統(tǒng)計學(xué)檢驗包括: 代碼也很簡單: p+stat_compare_means(method = "anova", label.y = 10)+ # Add global p-value 可以看到,跟網(wǎng)頁工具結(jié)果一模一樣,而且出圖更漂亮,下面我們就手把手帶領(lǐng)大家完成這個分析,把這個ggpubr一步就完成的工作拆解開來。 第1步:計算各組內(nèi)樣本均值lapply(split(df,df$sample_type),function(x) mean(x$CUL5)) 第2步:計算所有樣本均值mean(df$CUL5 ) 第3步:計算各組內(nèi)部誤差平方和tmp=lapply(split(df,df$sample_type),function(x) sum((x$CUL5-mean(x$CUL5))^2) ) 第4步:計算各組間誤差平方和tmp=lapply(split(df,df$sample_type),function(x) nrow(x)*(mean(x$CUL5) - mean(df$CUL5 ))^2 ) 第5步:計算各組內(nèi)部均方誤mse=sse/(nrow(df)-length(unique(df$sample_type))) 第6步:計算組間均方誤msd=ssb/length(unique(df$sample_type))-1 第7步:計算F比率f= msb/mse 第8步:查找F臨界值df1=(length(unique(df$sample_type))-1) 差別可知這里的F值是0.05,遠小于我們真實情況,所以非常顯著了。 第9步:判斷是否顯著1-pf(f,2,1215) 現(xiàn)在我們已經(jīng)知道了,在選定的顯著水平為0.05時候,這個F統(tǒng)計是顯著的,但是仍然是不知道哪組之間不一樣, 所以可以選擇tukey檢驗 第10步:進行tukey檢驗,多重比較J·W·圖凱(Tukey)于1953年提出一種能將所有各對平均值同時比較的方法,這種方法現(xiàn)在已被廣泛采用,一般稱之為“HSD檢驗法”,或稱“W法”。 Tukey (John Wilder Tukey) for multiple comparisons 這個多重比較算法還蠻多的,參考:https://zhuanlan.zhihu.com/p/44880434 這里超綱了,我就不具體介紹了! |
|