今天寫一篇回答,總結(jié)一下目前的想法。 先說兩個趨勢: 趨勢1: 農(nóng)業(yè)的數(shù)據(jù)分析以后會越來越重要,因為分子數(shù)據(jù)的落地,包括分子標(biāo)記輔助、GWAS和GS的應(yīng)用,特別是基因組選擇(GS)的落地,使得育種的效率大大提升,以后使用數(shù)據(jù)去育種將不再是紙面上冠冕堂皇的話,而是事實。 趨勢2: 新興的機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等算法將會進入到育種數(shù)據(jù)分析中來,這一塊的應(yīng)用,還是要育種從業(yè)人員自己學(xué)習(xí)掌握,至少會調(diào)包,靠別人不如靠自己,要擁抱新技術(shù),使用新技術(shù)。 痛點在哪里? 現(xiàn)有的教育環(huán)節(jié)中,對這一塊涉及極少,我們學(xué)習(xí)的生物統(tǒng)計都是基于線性模型的,T檢驗+方差分析+回歸分析,甚至連聚類分析和主成分分析都沒有包含,而育種中的數(shù)據(jù)分析框架主要是混合線性模型+貝葉斯+機器學(xué)習(xí),這些內(nèi)容很偏,但是也很深。學(xué)起來相當(dāng)吃力。 統(tǒng)計是個攔路虎,編程則是道中狼,很多統(tǒng)計不需要細究會用就行,而會用就需要會編程,Excel和SPSS那種鼠標(biāo)點點點的已經(jīng)out了,R和Python以及Julia才是王道,編程+Linux系統(tǒng)是標(biāo)配,對于非計算機背景的我們,確實很頭大。 另外一個就是數(shù)量遺傳學(xué),如果打開植物的數(shù)量遺傳學(xué)、玉米的數(shù)量遺傳學(xué),什么F1群體、F2群體、BC1群體,各種方差分解,公式推導(dǎo),都是老掉牙很繁瑣的東西,一學(xué)就放棄,一看就頭暈。動物的數(shù)量遺傳學(xué)則是矩陣運算、貝葉斯抽樣一看就是勸退的內(nèi)容。明明是貼地氣的農(nóng)學(xué),卻要和高大上的金融肩并肩。 應(yīng)該怎么做? 我讀研究生時,本科時學(xué)習(xí)的生物統(tǒng)計早已經(jīng)還給了老師,兩眼一抹黑,我的學(xué)習(xí)路徑是這樣的,將一些彎路去掉,給出最快的路徑。 1,通過Python語言學(xué)習(xí)編程,入門編程。后面的機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)是個非常好的平臺。 2,通過R語言學(xué)習(xí)生物統(tǒng)計,包括傳統(tǒng)方差分析、回歸分析,也包括聚類、主成分和混合線性模型。 3,通過遺傳評估軟件學(xué)習(xí)數(shù)量遺傳學(xué),我是學(xué)習(xí)ASReml軟件,也可以是BLUPF90,DMU等軟件,軟件的說明文檔是上好的學(xué)習(xí)教程。 注意: 學(xué)習(xí)的過程,先要跑起來,然后再理解。切記看書百遍不動手,敲代碼重演結(jié)果,看報錯調(diào)整代碼很重要,在實踐中成長。 資源推薦: 編程+統(tǒng)計+數(shù)量遺傳學(xué),可以通過一個包含數(shù)據(jù)+R代碼+原理解釋的GWAS教程達到目的,上手一個項目,比著敲代碼,一舉多得。下面是我精心整理的學(xué)習(xí)資料,有我編寫的GWAS學(xué)習(xí)教程,有我收集的入門數(shù)據(jù)分析資源,有我推薦的最新版R語言電子書,以及我翻譯整理的統(tǒng)計遺傳學(xué)分析導(dǎo)論。 這些資料的特點是:代碼,數(shù)據(jù),理論介紹都有包括,值得擁有: 想要有人帶的小伙伴,畢竟老司機帶,不迷路,更快到達! 掃碼加入知識星球:
|
|
來自: 育種數(shù)據(jù)分析 > 《待分類》