1, 序言看到一篇論文, 介紹的特別好, 包羅萬(wàn)象, 讀文章時(shí)好像看到作者指點(diǎn)江山, 摘抄學(xué)習(xí)如下, 引用部分是我的吐槽. 2, 摘要基因組選擇(genomic selection, GS)是畜禽經(jīng)濟(jì)性狀遺傳改良的重要方法。隨著高密度SNP芯片和二代測(cè)序價(jià)格的下降,GS技術(shù)越來(lái)越多被應(yīng)用于奶牛、豬、雞等農(nóng)業(yè)動(dòng)物育種中。然而,降低全基因組SNP分型成本、提高基因組育種值(genomic estimated breeding value,GEBV)估計(jì)準(zhǔn)確性仍然是GS研究的主要難題。本文從全基因組SNP分型策略和GEBV估計(jì)模型兩個(gè)方面進(jìn)行了綜述,并對(duì)目前GS技術(shù)在主要畜禽品種中的應(yīng)用現(xiàn)狀進(jìn)行了介紹, 以期為GS在農(nóng)業(yè)動(dòng)物育種中的深入開展提供借鑒和參考。
3, 基因組選擇的優(yōu)勢(shì)由于GEBV計(jì)算可以不依賴系譜記錄和表型信息,這就為早期選擇提供了可能,可以大幅度縮短世代間隔,提高遺傳進(jìn)展,降低農(nóng)業(yè)動(dòng)物的育種成本[5,6]。此外,對(duì)于傳統(tǒng)育種受限的性狀,如低遺傳力的性狀和難以測(cè)量的性狀,GS也更加具有優(yōu)勢(shì)。
4, 基因組選擇的流程GS一般包括以下步驟(圖1):首先建立參考群體(reference population),參考群體中每個(gè)個(gè)體都有已知的表型和基因型,通過(guò)合適的統(tǒng)計(jì)模型可以估計(jì)出每個(gè)SNP或不同染色體片段的效應(yīng)值;然后對(duì)候選群體(candidate population)每個(gè)個(gè)體進(jìn)行基因分型,利用參考群體中估計(jì)得到的SNP效應(yīng)值來(lái)計(jì)算候選群體中每個(gè)個(gè)體的GEBV;最后,根據(jù)GEBV排名對(duì)個(gè)體進(jìn)行選留,待選留個(gè)體(selected candidates)完成性能測(cè)定后,這些個(gè)體又可以被放入?yún)⒖既后w,用于重新估計(jì)SNP的效應(yīng)值,如此反復(fù)。
5, 為什么減低成本這么重要隨著商業(yè)化高密度SNP芯片的普及和二代測(cè)序價(jià)格的下降,GS越來(lái)越多被應(yīng)用于除奶牛以外其他農(nóng)業(yè)動(dòng)植物的育種實(shí)踐中,如豬(Sus scrofa)[7,8]、雞(Gallus gallus)[9,10]、水產(chǎn)動(dòng)物[11,12]、水稻(Oryza sativa)[13]、玉米(Zea mays)[14]等。盡管如此,基因分型成本仍然是GS技術(shù)推廣和應(yīng)用的重大障礙,大多數(shù)育種企業(yè)限于長(zhǎng)久的基因分型成本投入而不敢大規(guī)模應(yīng)用。多數(shù)已開展GS研究的研究院所或企業(yè)也囿于基因分型方面的投入,不得不通過(guò)縮小參考群體規(guī)?;蚪档蜆?biāo)記密度來(lái)降低成本。較小的參考群或較低的標(biāo)記密度一定程度上影響了GEBV的準(zhǔn)確性,從而低估了GS技術(shù)在動(dòng)物育種中的潛力,反而阻礙了這一技術(shù)的推廣和應(yīng)用。因此,降低個(gè)體分型費(fèi)用一直是GS的研究熱點(diǎn)之一。
6, 未來(lái)GS的發(fā)展隨著基因分型個(gè)體數(shù)極大累積或標(biāo)記密度極大提高,傳統(tǒng)基于單點(diǎn)SNP信息的統(tǒng)計(jì)模型無(wú)法利用所有個(gè)體表型數(shù)據(jù)或所有標(biāo)記位點(diǎn)信息,此時(shí)基于單倍型的GEBV預(yù)測(cè)模型可以解決這一問(wèn)題。通過(guò)將已知功能的基因組學(xué)信息,包括基因結(jié)構(gòu)、甲基化區(qū)域、轉(zhuǎn)錄因子調(diào)控結(jié)合位點(diǎn)、選擇信號(hào)候選區(qū)域等信息,以單倍型信息整合進(jìn)GEBV預(yù)測(cè)模型,從而提高GEBV的準(zhǔn)確性.
7, 常見的基因芯片高通量時(shí)代的SNP分型技術(shù)以高密度SNP芯片為代表,Illumina公司Infinium技術(shù)和Affymetrix公司Axiom技術(shù)是目前最流行的高密度SNP芯片解決方案。 Illumina芯片 ffymetrix 芯片
8, 其它幾種獲得基因組SNP信息的方法簡(jiǎn)化基因組 特點(diǎn):
基因組重測(cè)序 特點(diǎn):
9, 基于單倍型的GS策略基于基因組重測(cè)序的GS還有另外一個(gè)策略(圖4),即首先對(duì)群體中遺傳貢獻(xiàn)較大的個(gè)體進(jìn)行10~30×的中高覆蓋度的重測(cè)序,結(jié)合單倍型估計(jì)技術(shù)構(gòu)建群體主要的單倍型庫(kù);對(duì)于大多數(shù)個(gè)體采用高密度SNP芯片或簡(jiǎn)化基因組測(cè)序技術(shù)進(jìn)行分型,通過(guò)基因型填充獲得全基因組的遺傳變異,從而用于GEBV的預(yù)測(cè)。 10, 芯片, GBS和二代測(cè)序的論述高密度SNP芯片和簡(jiǎn)化基因組測(cè)序具有各自的優(yōu)勢(shì)。隨著測(cè)序價(jià)格的繼續(xù)下降,以及生物信息學(xué)分析的流程化,基于二代測(cè)序技術(shù)的全基因組重測(cè)序進(jìn)行SNP的鑒定和分型會(huì)越來(lái)越普及,特別是對(duì)于一些沒(méi)有標(biāo)準(zhǔn)化芯片的非模式物種。當(dāng)然,也可以選擇20~30個(gè)代表性的個(gè)體進(jìn)行重測(cè)序,獲得這個(gè)群體具有一定代表性的SNP數(shù)據(jù)集,利用這些數(shù)據(jù)設(shè)計(jì)芯片,從而進(jìn)行“廉價(jià)”的大規(guī)?;蚍中?。但是,遇到無(wú)標(biāo)準(zhǔn)化芯片的物種,測(cè)序無(wú)疑是最佳選擇。即使對(duì)于一些有標(biāo)準(zhǔn)化芯片的模式生物,全基因組重測(cè)序也常常是更好的選擇。在商業(yè)化SNP芯片密度不夠的情況下,簡(jiǎn)化基因組測(cè)序是很好的替代方法,因?yàn)榧词怪粚?duì)基因組的很小一部分進(jìn)行測(cè)序,就可以輕松獲得幾十萬(wàn)的SNP標(biāo)記。在地方豬種中,高密度SNP芯片也有其局限性。以藏豬為例,PorcineSNP60芯片效果不理想,因?yàn)樾酒系腟NP位點(diǎn)都是從常見的品種中篩選出來(lái)的,這些位點(diǎn)在藏豬這樣的特殊亞種中多態(tài)性比較差。因此,簡(jiǎn)化基因組測(cè)序或全基因組重測(cè)序的效果會(huì)優(yōu)于芯片。總之,在具體研究中,應(yīng)該根據(jù)具體情況來(lái)選擇全基因組SNP分型方案。隨著測(cè)序價(jià)格的不斷降低,測(cè)序的確會(huì)不斷侵蝕芯片的市場(chǎng)空間,成為一種趨勢(shì)。
11, 貝葉斯和GBLUP方法介紹貝葉斯 Meuwissen等[1]首次提出GS理論時(shí),提供了兩種貝葉斯(Bayesian, Bayes)方法用以解決SNP標(biāo)記數(shù)目通常遠(yuǎn)遠(yuǎn)多于表型記錄的問(wèn)題,即BayesA和BayesB。BayesA假設(shè)所有SNP 位點(diǎn)都有效應(yīng),且所有SNP效應(yīng)的方差服從尺度逆卡方分布的正態(tài)分布,其中的兩個(gè)參數(shù)——自由度和尺度參數(shù)與遺傳結(jié)構(gòu)直接相關(guān),能夠確定遺傳結(jié)構(gòu),而這兩個(gè)參數(shù)都是事先給定的。BayesA使用MCMC(馬爾科夫鏈蒙特卡洛方法)方法構(gòu)建Gibbs抽樣鏈,在模型中對(duì)標(biāo)記效應(yīng)進(jìn)行求解。BayesB與BayesA的區(qū)別在于對(duì)SNP效應(yīng)的先驗(yàn)假設(shè)不同。BayesA假設(shè)所有SNP 都有效應(yīng),而BayesB假設(shè)只有一小部分標(biāo)記位點(diǎn)有效應(yīng),其他大部分染色體片段效應(yīng)為0 (無(wú)效應(yīng)位點(diǎn)的比例為π);這一小部分有效應(yīng)的位點(diǎn),其效應(yīng)方差服從的分布與BayesA一樣。BayesB中有效應(yīng)位點(diǎn)的比例(1-π)在模型中是預(yù)先設(shè)定的,通常為0.05左右。與BayesA不同,BayesB 使用混合分布作為標(biāo)記效應(yīng)方差的先驗(yàn),所以難以構(gòu)建標(biāo)記效應(yīng)和方差各自的完全條件后驗(yàn)分布,因此BayesB使用MH (Metropolis-Hasting)抽樣對(duì)標(biāo)記效應(yīng)和方差進(jìn)行聯(lián)合抽樣。 在Meuwissen 提出的兩種貝葉斯模型基礎(chǔ)之上,研究人員又提出了多種GEBV估計(jì)的Bayes模型。BayesC 模型[34]使用混合分布作為標(biāo)記效應(yīng)的先驗(yàn)分布,但在BayesC模型中,π是未知的,需要在模型中求解得到,其他與BayesB相同。Habier等[34]還提出了BayesCπ、BayesDπ方法:BayesCπ 與BayesC的主要區(qū)別在于BayesCπ假設(shè)有效應(yīng)的SNP的效應(yīng)方差相同,而BayesC假設(shè)其效應(yīng)方差是不同的。BayesC和BayesCπ相比于BayesA和BayesB的最大改進(jìn)之處在于對(duì)模型中無(wú)效應(yīng)SNP位點(diǎn)的比例π進(jìn)行估計(jì)[16,35]。BayesDπ[34]在模型中假設(shè)π值服從U[0,1]的均勻分布,同時(shí)也要對(duì)尺度參數(shù)進(jìn)行求解,其假設(shè)尺度參數(shù)的先驗(yàn)分布為Gamma(1,1)分布,其后驗(yàn)分布也是Gamma分布,可以直接從后驗(yàn)分布中抽樣。Bayes LASSO (Least Absolute Shrinkage and Selection Operator)[36,37,38,39,40]假定SNP標(biāo)記效應(yīng)服從Laplace分布,而Lpalace分布等價(jià)于方差服從指數(shù)分布的正態(tài)分布。Laplace分布與BayesA假定的SNP標(biāo)記效應(yīng)Student’s t分布具有相同的特點(diǎn):具有比正態(tài)分布更重的兩尾概率。在高維數(shù)據(jù)線性回歸中常用到的方法除了LASSO,還有EN (Elastic net)[41],這兩種方法都是在懲罰函數(shù)中增加約束項(xiàng),同時(shí)實(shí)現(xiàn)變量選擇與參數(shù)估計(jì),可以將很多變量效應(yīng)壓縮至(接近)0。Bayes LASSO在GS算法應(yīng)用中的一種拓展策略是使用廣義正態(tài)分布作為標(biāo)記效應(yīng)先驗(yàn)。Bayes LASSO的思想和BayesA一樣,不同之處在于它假設(shè)標(biāo)記效應(yīng)服從另一種分布-拉普拉斯分布,所以標(biāo)記效應(yīng)的后驗(yàn)分布也隨之改變。 其他的貝葉斯方法,如Bayes SSVS[42]、fBayesB[43]、wBSR[44]、BAL/IAL[45]、emBayesR[46]、EBL[47]、BayesRS[48]和Bayes TA[49]等,都是在前人研究基礎(chǔ)之上對(duì)模型中的先驗(yàn)假設(shè)進(jìn)行變換和模型中的參數(shù)進(jìn)行優(yōu)化,以期尋找最適合群體的假設(shè)模型和參數(shù)。目前廣泛應(yīng)用的貝葉斯算法仍是BayesA、BayesB、BayesCπ和Bayes LASSO,這是由于它們計(jì)算的結(jié)果穩(wěn)定,具有較高的GEBV估計(jì)準(zhǔn)確性??傊?在經(jīng)典貝葉斯方法基礎(chǔ)上,貝葉斯方法的改進(jìn)算法及其參數(shù)優(yōu)化策略圍繞著以提高GEBV估計(jì)的準(zhǔn)確性為目的,通過(guò)生物遺傳算法與實(shí)際的群體情況相結(jié)合,尋找最適的模型假設(shè)和參數(shù)優(yōu)化方法,使得GEBV更具有育種價(jià)值。
GBLUP方法 GEBV的方法是通過(guò)構(gòu)建基因組關(guān)系矩陣(G矩陣)替換基于系譜信息構(gòu)建的分子血緣關(guān)系矩陣(numerator relationship matrix, NRM或A矩陣),進(jìn)而使用最佳線性無(wú)偏預(yù)測(cè)(best linear unbiased prediction, BLUP)方法直接估計(jì)GEBV,即GBLUP法。VanRaden[16]提出了G矩陣的構(gòu)建方法,將SNP基因型進(jìn)行編碼,純合基因型分別編碼為1和-1,雜合基因型為0,假設(shè)pi為位點(diǎn)i的第二個(gè)等位基因的頻率,則每個(gè)基因型編碼后的值減去相應(yīng)的處于哈代-溫伯格平衡(Hardy-Weinberg equilibrium, HWE)時(shí)的均值2×(pi-0.5),得到Z矩陣,按照公式 (1-1)即可計(jì)算得到G矩陣: 與貝葉斯方法相比,GBLUP不需要先利用參考群體估計(jì)SNP標(biāo)記效應(yīng),再計(jì)算GEBV;而是可以直接將有表型及無(wú)表型個(gè)體可以放在同一個(gè)模型中,同時(shí)估計(jì)出有表型和無(wú)表型個(gè)體的GEBV及其準(zhǔn)確性[50]。從計(jì)算速度來(lái)講,GBLUP比Bayes方法快很多,因此更加適用于現(xiàn)場(chǎng)應(yīng)用時(shí)快速獲得GEBV[51]。Azevedo等[52]比較了GBLUP與幾種改進(jìn)的Bayes LASSO之間的準(zhǔn)確性,通過(guò)對(duì)多種不同遺傳力、不同遺傳基礎(chǔ)性狀的GEBV估計(jì),認(rèn)為GBLUP總體上表現(xiàn)最好,其次是BayesA或BayesB。
一步法GBLUP (single-step GBLUP, ssGBLUP)模型是傳統(tǒng)基于系譜信息的BLUP法和基于SNP標(biāo)記信息的GBLUP法的合并,它的模型形式上與BLUP及GBLUP法并無(wú)區(qū)別。如公式(1-2)中,ssGBLUP是用H矩陣替代GBLUP中的G矩陣,從而將沒(méi)有基因型的個(gè)體與有基因型的個(gè)體放在同一個(gè)模型中進(jìn)行EBV或GEBV的估計(jì),H矩陣結(jié)構(gòu)如公式(1-3):
12, GS在牛育種中的應(yīng)用區(qū)域化的奶牛GS育種體系使得參考群體規(guī)模迅速擴(kuò)大,GS選擇準(zhǔn)確性逐漸提高,大大促進(jìn)了GS技術(shù)在奶牛育種中的普及。除了常規(guī)的產(chǎn)奶量和乳脂率等性狀,奶牛GS研究也開始關(guān)注一些常被忽視但非常有應(yīng)用潛力的性狀,如肢蹄健康、飼料轉(zhuǎn)化率和甲烷排放量等[63]。我國(guó)于2008年開始啟動(dòng)奶牛GS研究,2012年正式將GS技術(shù)應(yīng)用于荷斯坦奶牛的遺傳評(píng)估中,評(píng)估的性狀共14個(gè),包括產(chǎn)奶量、體細(xì)胞計(jì)數(shù)、體型評(píng)分等,其中產(chǎn)奶性狀基因組預(yù)測(cè)準(zhǔn)確性為0.59~ 0.76,比傳統(tǒng)BLUP方法提高了0.13~0.30。
13, GS在豬育種中的應(yīng)用與奶牛不同,在豬的育種體系中,GS應(yīng)用的前提是提高GEBV估計(jì)的準(zhǔn)確性[58],這是因?yàn)樵趥鹘y(tǒng)育種體系中,豬的世代間隔已經(jīng)控制在較短的時(shí)間,很難再對(duì)其進(jìn)行大幅縮減。因此,豬的GS應(yīng)用主要是靠提高GEBV的準(zhǔn)確性來(lái)獲得額外的遺傳進(jìn)展,特別是對(duì)傳統(tǒng)育種中選擇準(zhǔn)確性低的性狀,如繁殖性狀、屠宰性狀、肉質(zhì)性狀、抗病性狀等,GS具有更大的優(yōu)勢(shì)。
14, GS在雞育種中的應(yīng)用從個(gè)體角度,GS在雞育種中很難普及,因?yàn)槠鋫€(gè)體價(jià)值遠(yuǎn)小于基因分型成本。但是,如果從整個(gè)育種體系的角度來(lái)看,為了培育特定目標(biāo)群體進(jìn)行配套系生產(chǎn)的話,GS在雞的應(yīng)用還是有一定的潛力的。Long等[69]利用5000個(gè)與后代死亡率相關(guān)的SNP標(biāo)記對(duì)肉雞0-14天齡的死亡率進(jìn)行預(yù)測(cè),結(jié)果顯示當(dāng)利用SNP信息的進(jìn)行選擇時(shí),其準(zhǔn)確性與不使用SNP信息相比提高了50%~90%。隨后,陸續(xù)開展了關(guān)于飼料轉(zhuǎn)化效率、肉雞6周齡體重、胸肌面積、腿評(píng)分等性狀[70,71]及蛋雞產(chǎn)蛋量、蛋重、沙門氏菌抗性等性狀[72,73]的GS研究。美國(guó)海蘭公司對(duì)蛋雞進(jìn)行GS研究,研究了包括產(chǎn)蛋量、蛋重、蛋殼質(zhì)量和性成熟等重要經(jīng)濟(jì)性狀,目標(biāo)是將世代間隔縮短一半,即從12個(gè)月減為6個(gè)月,從而提高年遺傳進(jìn)展;其方案是使用高密度SNP芯片測(cè)定個(gè)體基因型,并對(duì)GS群體的大小及結(jié)構(gòu)進(jìn)行優(yōu)化,使選擇準(zhǔn)確性最大化,且年近交速率不增加。
15, 展望GS作為一種新的畜禽遺傳評(píng)估方法,比傳統(tǒng)BLUP方法有明顯的優(yōu)勢(shì)。隨著基因分型成本的下降,GS技術(shù)有望在國(guó)內(nèi)大型育種公司中應(yīng)用普及。由于已有的SNP芯片在特定群體中多態(tài)性差,越來(lái)越多的研究和應(yīng)用開始使用自定制高密度SNP芯片,如豬的PorcineSNP55K芯片,在肉雞、肉牛和蛋雞等物種中也有相應(yīng)報(bào)道。隨著二代測(cè)序價(jià)格的下降,基于二代測(cè)序技術(shù)的GS優(yōu)勢(shì)日趨明顯,有望在5~10年內(nèi)替代高密度SNP芯片,成為GS應(yīng)用的主要分型手段。基于二代測(cè)序的GS技術(shù)主要面臨的是分型準(zhǔn)確性和分析時(shí)效性的問(wèn)題,分型準(zhǔn)確性可以通過(guò)優(yōu)化測(cè)序方案和基因型填充策略來(lái)提高;而數(shù)據(jù)分析的時(shí)效性需要借助于自動(dòng)化/智能化分析流程的建立以及基于“硬件加速”技術(shù)的軟件開發(fā)。隨著基因分型個(gè)體數(shù)極大累積或標(biāo)記密度極大提高,當(dāng)前常用的基于單點(diǎn)SNP的GEBV估計(jì)模型將具有局限性,基于單倍型信息的統(tǒng)計(jì)模型可能會(huì)成為未來(lái)的研究方向。除此之外,在統(tǒng)計(jì)模型中增加顯性效應(yīng)、上位效應(yīng)和印記效應(yīng)的應(yīng)用會(huì)越來(lái)越多[74]。最后,借助目前智能化農(nóng)牧設(shè)備開發(fā)的熱潮,應(yīng)該盡快將GS應(yīng)用從“育種場(chǎng)→實(shí)驗(yàn)室→育種場(chǎng)”的所需樣品收集、表型測(cè)定、數(shù)據(jù)分析、個(gè)體選留等流程整合進(jìn)入常規(guī)育種生產(chǎn)中,加快GS在動(dòng)物育種中的應(yīng)用。
參考文獻(xiàn)談成, 邊成, 楊達(dá), et al. 基因組選擇技術(shù)在農(nóng)業(yè)動(dòng)物育種中的應(yīng)用[J]. 遺傳, 2017(11):82-94. |
|
來(lái)自: 育種數(shù)據(jù)分析 > 《待分類》