這是一個讀者給我寫信詢問的問題: 初學(xué)GWAS,應(yīng)該知道,GWAS是干什么用的?我的理解,GWAS分為四部分: 1. 數(shù)據(jù)清洗1.1 表型數(shù)據(jù)清洗·刪除異常值·查看數(shù)據(jù)分布·數(shù)據(jù)可視化 1.2 基因型數(shù)據(jù)清洗·MAF·Call rate·HWE 2 關(guān)聯(lián)分析2.1 一般線性模型GLM2.2 混合線性模型3 結(jié)果可視化3.1 PCA群體結(jié)構(gòu)3.2 QQ圖3.3 曼哈頓圖3.4 LD衰減圖4. 結(jié)果注釋4.1 顯著SNP注釋·ANNOVAR·snpEFF 4.2 基因聚類分析·GO 富集分析·Kegg 通路分析 上面是我之前做的匯總。 整體而言, plink可以手動進(jìn)行: ·基因型數(shù)據(jù)質(zhì)控·MAF·geno·HWE·建模·GLM模型(連續(xù)性狀)·logistic模型(二分類性狀) TASSEL ·窗口化界面·不用編程,鼠標(biāo)點點點·需要提前將表型數(shù)據(jù)和基因型數(shù)據(jù)整理好·模型· GLM模型·LMM模型·可視化·QQ圖·曼哈頓圖·LD衰減圖 可以看到,TASSEL比較有優(yōu)勢,特別是它具有LMM模型,LMM模型是連續(xù)性狀主流的分析方法。 其它GWAS分析軟件·R包:GAPIT·R包:FamCPU·R包:rMVP·GEMMA 很多都是相通的,學(xué)習(xí)一種方法,其它軟件也能很快入手。比如我先是用GEMMA,然后GAPIT和TASSEL也能很快上手。 后面,我將之前的文檔,重新整理一下,按照這個流程,重新整理一份GWAS cookbook,豈不善哉!
|
|