日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

如何使用Tassel 做GWAS 說(shuō)明文檔

 育種數(shù)據(jù)分析 2021-11-18

之前寫的Tassel說(shuō)明文檔,雖然我都是使用命令行相關(guān)的軟件,但是我發(fā)現(xiàn),Linux,命令行對(duì)大多數(shù)人還是可望而不可即,分享一篇我做的說(shuō)明文檔,用示例數(shù)據(jù),一步一步進(jìn)行GWAS分析。具體如下:

目錄

1.      下載安裝軟件

2.      導(dǎo)入數(shù)據(jù)

3.      處理數(shù)據(jù)

3.1 清洗數(shù)據(jù)

3.2 主成分分析

3.3 用基因標(biāo)記估計(jì)系譜

3.4 用一般線性模型分析GLM

3.5 用混合線性模型分析

4.      歡迎關(guān)注我的微信公眾號(hào)

1.       下載安裝軟件

下載地址:http://tassel./

這里下載的是win64為系統(tǒng),截圖如下:

安裝成功后,打開(kāi)菜單如下:

2.       導(dǎo)入數(shù)據(jù)

數(shù)據(jù)下載地址:http://tassel./

截圖如下:

打開(kāi)data,load,選擇Make Best Guess

選擇幾個(gè)示例數(shù)據(jù):

打開(kāi)后的數(shù)據(jù)如下

里面包括系譜數(shù)據(jù)、性狀數(shù)據(jù)和基因型數(shù)據(jù)(snp)。

3.       處理數(shù)據(jù)

3.1 清洗數(shù)據(jù)

選中mdp_trait,

然后選擇:Data中的TransformPhenotype,

可以對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化、標(biāo)準(zhǔn)化等操作,注意,要先對(duì)數(shù)據(jù)進(jìn)行選擇,然后再進(jìn)行操作:

也可以對(duì)缺失值的數(shù)據(jù)進(jìn)行刪除,點(diǎn)擊imput,Numerical impute,就會(huì)生成沒(méi)有缺失值的數(shù)據(jù),這只是缺失值的不同替換方法。

3.2 主成分分析

主成分分析(PCA)是一種統(tǒng)計(jì)方法,它可以將相互關(guān)聯(lián)的變量轉(zhuǎn)化為獨(dú)立的主成分(PC),第一種成分包含最多的組分,其它依次降低。另一個(gè)主成分的作用可以用標(biāo)記的主成分來(lái)代表群體結(jié)構(gòu)。這種方法比最大似然法節(jié)省時(shí)間。因?yàn)榇蟛糠值姆肿訕?biāo)記都是字符,需要先將其轉(zhuǎn)化為數(shù)值,然后再進(jìn)行主成分分析,一般將純合的標(biāo)記用0代替,另一個(gè)純合子用2代替,雜合的用1代替。PCA要求變量不能有缺失值,因此,在進(jìn)行主成分分析時(shí),需要對(duì)數(shù)據(jù)進(jìn)行清洗,去除缺失值。

去掉頻率小于0.05的標(biāo)記,可以選擇Data,選擇Site,然后在最小頻率的框中鍵入0.05,然后選擇Remove minor SNP status,然后點(diǎn)擊Filter,進(jìn)行過(guò)濾,模型如下:

選擇PCA,然后選擇5個(gè)主成分(默認(rèn)項(xiàng)),點(diǎn)擊確定,就會(huì)生成結(jié)果,模型如下:

結(jié)果如下:

3.3 用基因標(biāo)記估計(jì)系譜

利用主成分分析可以判斷群體的結(jié)構(gòu)特征,但是如果利用系譜信息,這種結(jié)果會(huì)更加準(zhǔn)確??梢杂没蛐蛿?shù)據(jù)生成系譜信息,首先選中基因型數(shù)據(jù),點(diǎn)擊Analysis,選擇Kinship

結(jié)果如下:

3.4 用一般線性模型分析GLM

下面我們用GLM模型來(lái)分析示例數(shù)據(jù),mdp_genotype.hmp.txtsnp數(shù)據(jù),里面有3093個(gè)標(biāo)記,281個(gè)玉米自交系,另一個(gè)文件是mdp_population_structure.txt,里面是282個(gè)玉米自交系的群體結(jié)構(gòu),還有一個(gè)是mdp_traits.txt,里面是282玉米自交系的表型數(shù)據(jù)。

首先對(duì)基因型數(shù)據(jù)進(jìn)行過(guò)濾,去掉頻率小于0.05的,最小的數(shù)目是150,點(diǎn)擊過(guò)濾,生成過(guò)濾后的基因型數(shù)據(jù):

然后對(duì)數(shù)據(jù)進(jìn)行個(gè)過(guò)濾,選擇開(kāi)花期dpoll這個(gè)性狀,

進(jìn)行協(xié)變量選擇,即選擇群體結(jié)構(gòu)的文件,這里我們?nèi)サ?/span>Q3,數(shù)據(jù)如下:

合并數(shù)據(jù),將這三個(gè)過(guò)濾好的數(shù)據(jù),選中進(jìn)行合并,點(diǎn)擊Data IntersectJoin,

數(shù)據(jù)合并如下:

然后選中合并后的數(shù)據(jù),用analysis GLM來(lái)進(jìn)行分析

運(yùn)行結(jié)果如下:

QQ圖:

P-value值:

3.5 用混合線性模型分析

混合模型需要添加系譜矩陣

點(diǎn)擊run

結(jié)果:

相關(guān)圖形:

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多