之前寫的Tassel說(shuō)明文檔,雖然我都是使用命令行相關(guān)的軟件,但是我發(fā)現(xiàn),Linux,命令行對(duì)大多數(shù)人還是可望而不可即,分享一篇我做的說(shuō)明文檔,用示例數(shù)據(jù),一步一步進(jìn)行GWAS分析。具體如下: 目錄 1. 下載安裝軟件 2. 導(dǎo)入數(shù)據(jù) 3. 處理數(shù)據(jù) 3.1 清洗數(shù)據(jù) 3.2 主成分分析 3.3 用基因標(biāo)記估計(jì)系譜 3.4 用一般線性模型分析GLM 3.5 用混合線性模型分析 4. 歡迎關(guān)注我的微信公眾號(hào) 1. 下載安裝軟件 下載地址:http://tassel./ 這里下載的是win的64為系統(tǒng),截圖如下: 安裝成功后,打開(kāi)菜單如下: 2. 導(dǎo)入數(shù)據(jù) 數(shù)據(jù)下載地址:http://tassel./ 截圖如下: 打開(kāi)data,load,選擇Make Best Guess 選擇幾個(gè)示例數(shù)據(jù): 打開(kāi)后的數(shù)據(jù)如下 里面包括系譜數(shù)據(jù)、性狀數(shù)據(jù)和基因型數(shù)據(jù)(snp)。 3. 處理數(shù)據(jù) 3.1 清洗數(shù)據(jù) 選中mdp_trait, 然后選擇:Data中的TransformPhenotype, 可以對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化、標(biāo)準(zhǔn)化等操作,注意,要先對(duì)數(shù)據(jù)進(jìn)行選擇,然后再進(jìn)行操作: 也可以對(duì)缺失值的數(shù)據(jù)進(jìn)行刪除,點(diǎn)擊imput,Numerical impute,就會(huì)生成沒(méi)有缺失值的數(shù)據(jù),這只是缺失值的不同替換方法。 3.2 主成分分析 主成分分析(PCA)是一種統(tǒng)計(jì)方法,它可以將相互關(guān)聯(lián)的變量轉(zhuǎn)化為獨(dú)立的主成分(PC),第一種成分包含最多的組分,其它依次降低。另一個(gè)主成分的作用可以用標(biāo)記的主成分來(lái)代表群體結(jié)構(gòu)。這種方法比最大似然法節(jié)省時(shí)間。因?yàn)榇蟛糠值姆肿訕?biāo)記都是字符,需要先將其轉(zhuǎn)化為數(shù)值,然后再進(jìn)行主成分分析,一般將純合的標(biāo)記用0代替,另一個(gè)純合子用2代替,雜合的用1代替。PCA要求變量不能有缺失值,因此,在進(jìn)行主成分分析時(shí),需要對(duì)數(shù)據(jù)進(jìn)行清洗,去除缺失值。 去掉頻率小于0.05的標(biāo)記,可以選擇Data,選擇Site,然后在最小頻率的框中鍵入0.05,然后選擇Remove minor SNP status,然后點(diǎn)擊Filter,進(jìn)行過(guò)濾,模型如下: 選擇PCA,然后選擇5個(gè)主成分(默認(rèn)項(xiàng)),點(diǎn)擊確定,就會(huì)生成結(jié)果,模型如下: 結(jié)果如下: 3.3 用基因標(biāo)記估計(jì)系譜 利用主成分分析可以判斷群體的結(jié)構(gòu)特征,但是如果利用系譜信息,這種結(jié)果會(huì)更加準(zhǔn)確??梢杂没蛐蛿?shù)據(jù)生成系譜信息,首先選中基因型數(shù)據(jù),點(diǎn)擊Analysis,選擇Kinship 結(jié)果如下: 3.4 用一般線性模型分析GLM 下面我們用GLM模型來(lái)分析示例數(shù)據(jù),mdp_genotype.hmp.txt是snp數(shù)據(jù),里面有3093個(gè)標(biāo)記,281個(gè)玉米自交系,另一個(gè)文件是mdp_population_structure.txt,里面是282個(gè)玉米自交系的群體結(jié)構(gòu),還有一個(gè)是mdp_traits.txt,里面是282玉米自交系的表型數(shù)據(jù)。 首先對(duì)基因型數(shù)據(jù)進(jìn)行過(guò)濾,去掉頻率小于0.05的,最小的數(shù)目是150,點(diǎn)擊過(guò)濾,生成過(guò)濾后的基因型數(shù)據(jù): 然后對(duì)數(shù)據(jù)進(jìn)行個(gè)過(guò)濾,選擇開(kāi)花期dpoll這個(gè)性狀, 進(jìn)行協(xié)變量選擇,即選擇群體結(jié)構(gòu)的文件,這里我們?nèi)サ?/span>Q3,數(shù)據(jù)如下: 合并數(shù)據(jù),將這三個(gè)過(guò)濾好的數(shù)據(jù),選中進(jìn)行合并,點(diǎn)擊Data IntersectJoin, 數(shù)據(jù)合并如下: 然后選中合并后的數(shù)據(jù),用analysis ,GLM來(lái)進(jìn)行分析 運(yùn)行結(jié)果如下: QQ圖: P-value值: 3.5 用混合線性模型分析 混合模型需要添加系譜矩陣 點(diǎn)擊run 結(jié)果: 相關(guān)圖形: |
|
來(lái)自: 育種數(shù)據(jù)分析 > 《待分類》