【原】文獻(xiàn)閱讀: 基因組選擇技術(shù)在農(nóng)業(yè)動(dòng)物育種中的應(yīng)用

育種數(shù)據(jù)分析 2021-11-18

展開全文

1, 序言

看到一篇論文, 介紹的特別好, 包羅萬(wàn)象, 讀文章時(shí)好像看到作者指點(diǎn)江山, 摘抄學(xué)習(xí)如下, 引用部分是我的吐槽.

2, 摘要

基因組選擇(genomic selection, GS)是畜禽經(jīng)濟(jì)性狀遺傳改良的重要方法。隨著高密度SNP芯片和二代測(cè)序價(jià)格的下降,GS技術(shù)越來(lái)越多被應(yīng)用于奶牛、豬、雞等農(nóng)業(yè)動(dòng)物育種中。然而,降低全基因組SNP分型成本、提高基因組育種值(genomic estimated breeding value,GEBV)估計(jì)準(zhǔn)確性仍然是GS研究的主要難題。本文從全基因組SNP分型策略和GEBV估計(jì)模型兩個(gè)方面進(jìn)行了綜述,并對(duì)目前GS技術(shù)在主要畜禽品種中的應(yīng)用現(xiàn)狀進(jìn)行了介紹, 以期為GS在農(nóng)業(yè)動(dòng)物育種中的深入開展提供借鑒和參考。

兩個(gè)挑戰(zhàn), 第一, 成本問(wèn)題. 第二, 準(zhǔn)確性問(wèn)題.

3, 基因組選擇的優(yōu)勢(shì)

由于GEBV計(jì)算可以不依賴系譜記錄和表型信息,這就為早期選擇提供了可能,可以大幅度縮短世代間隔,提高遺傳進(jìn)展,降低農(nóng)業(yè)動(dòng)物的育種成本[5,6]。此外,對(duì)于傳統(tǒng)育種受限的性狀,如低遺傳力的性狀和難以測(cè)量的性狀,GS也更加具有優(yōu)勢(shì)。

1, 模型簡(jiǎn)單, 依賴信息少;
2, 對(duì)于特定性狀優(yōu)勢(shì)明顯;
3, 有一定的投入產(chǎn)出比

4, 基因組選擇的流程

GS一般包括以下步驟(圖1)：首先建立參考群體(reference population),參考群體中每個(gè)個(gè)體都有已知的表型和基因型,通過(guò)合適的統(tǒng)計(jì)模型可以估計(jì)出每個(gè)SNP或不同染色體片段的效應(yīng)值;然后對(duì)候選群體(candidate population)每個(gè)個(gè)體進(jìn)行基因分型,利用參考群體中估計(jì)得到的SNP效應(yīng)值來(lái)計(jì)算候選群體中每個(gè)個(gè)體的GEBV;最后,根據(jù)GEBV排名對(duì)個(gè)體進(jìn)行選留,待選留個(gè)體(selected candidates)完成性能測(cè)定后,這些個(gè)體又可以被放入?yún)⒖既后w,用于重新估計(jì)SNP的效應(yīng)值,如此反復(fù)。

參考群, 候選群

5, 為什么減低成本這么重要

隨著商業(yè)化高密度SNP芯片的普及和二代測(cè)序價(jià)格的下降,GS越來(lái)越多被應(yīng)用于除奶牛以外其他農(nóng)業(yè)動(dòng)植物的育種實(shí)踐中,如豬(Sus scrofa)[7,8]、雞(Gallus gallus)[9,10]、水產(chǎn)動(dòng)物[11,12]、水稻(Oryza sativa)[13]、玉米(Zea mays)[14]等。盡管如此,基因分型成本仍然是GS技術(shù)推廣和應(yīng)用的重大障礙,大多數(shù)育種企業(yè)限于長(zhǎng)久的基因分型成本投入而不敢大規(guī)模應(yīng)用。多數(shù)已開展GS研究的研究院所或企業(yè)也囿于基因分型方面的投入,不得不通過(guò)縮小參考群體規(guī)?；蚪档蜆?biāo)記密度來(lái)降低成本。較小的參考群或較低的標(biāo)記密度一定程度上影響了GEBV的準(zhǔn)確性,從而低估了GS技術(shù)在動(dòng)物育種中的潛力,反而阻礙了這一技術(shù)的推廣和應(yīng)用。因此,降低個(gè)體分型費(fèi)用一直是GS的研究熱點(diǎn)之一。

GS最早是在奶牛中應(yīng)用, 現(xiàn)在在豬, 雞育種中開始應(yīng)用, 在作物比如水稻, 玉米更要靠后, 主要是因?yàn)槌杀締?wèn)題.
成本過(guò)高, 企業(yè)顧慮較大, 不敢大規(guī)模應(yīng)用. 反應(yīng)在參考群體較小, 降低芯片密度來(lái)降低成本. 這反過(guò)來(lái)影響GS的準(zhǔn)確性. 惡性循環(huán).
所以, 成本是最大的制約因素.

6, 未來(lái)GS的發(fā)展

隨著基因分型個(gè)體數(shù)極大累積或標(biāo)記密度極大提高,傳統(tǒng)基于單點(diǎn)SNP信息的統(tǒng)計(jì)模型無(wú)法利用所有個(gè)體表型數(shù)據(jù)或所有標(biāo)記位點(diǎn)信息,此時(shí)基于單倍型的GEBV預(yù)測(cè)模型可以解決這一問(wèn)題。通過(guò)將已知功能的基因組學(xué)信息,包括基因結(jié)構(gòu)、甲基化區(qū)域、轉(zhuǎn)錄因子調(diào)控結(jié)合位點(diǎn)、選擇信號(hào)候選區(qū)域等信息,以單倍型信息整合進(jìn)GEBV預(yù)測(cè)模型,從而提高GEBV的準(zhǔn)確性.

GS的方法學(xué)中, 比如測(cè)序個(gè)體遠(yuǎn)遠(yuǎn)小于芯片SNP的數(shù)目, 才衍生出很多方法, 包括RRBLUP, GBLUP, 隨著測(cè)序個(gè)體數(shù)的增加, 動(dòng)則上萬(wàn)或者幾十萬(wàn)的測(cè)序個(gè)體, 安裝目前GBLUP, 一步法的方法, 求逆是一個(gè)極大的挑戰(zhàn), 當(dāng)然也有一系列應(yīng)對(duì)措施, 比如APY方法(Algorithm for Proven and Yong)
未來(lái)空間立體的GS選擇, 比如考慮轉(zhuǎn)錄, 甲基化, 調(diào)控, 選擇信號(hào)等信息

7, 常見的基因芯片

高通量時(shí)代的SNP分型技術(shù)以高密度SNP芯片為代表,Illumina公司Infinium技術(shù)和Affymetrix公司Axiom技術(shù)是目前最流行的高密度SNP芯片解決方案。

Illumina芯片
Illumina Infinium芯片是基于微珠的 BeadArray 生物芯片,首先在玻璃基片(稱為Wafer)上,通過(guò)光蝕刻的方法蝕刻出許多個(gè)排列整齊的小孔,每個(gè)小孔直徑約為3 μm,這些小孔剛好可以容納一個(gè)微珠(圖2A)。微珠是芯片的核心部分,每個(gè)微珠的表面偶聯(lián)了幾十萬(wàn)條相同序列的DNA片段。這些DNA片段的長(zhǎng)度是73個(gè)堿基,分成2個(gè)功能區(qū)域(圖2B),靠近珠子一側(cè)的23個(gè)堿基的序列被稱為Address序列,是標(biāo)識(shí)微珠的標(biāo)簽序列,相當(dāng)于微珠的身份證號(hào)碼(ID號(hào));遠(yuǎn)離珠子端的50個(gè)堿基被稱為探針序列,是針對(duì)某一個(gè)特定的SNP位點(diǎn)設(shè)計(jì)的,作用是與目標(biāo)DNA進(jìn)行互補(bǔ)雜交。Address序列與探針序列之間是一一對(duì)應(yīng)的關(guān)系。在Illumina芯片生產(chǎn)過(guò)程中,把幾十萬(wàn)種微珠按設(shè)定的比例混合好,撒到玻璃基片上,微珠隨機(jī)落入基片的小孔中,通過(guò)檢測(cè)微珠上DNA片段單堿基延伸時(shí)所摻入的dNTP上所帶的熒光信號(hào)來(lái)區(qū)別不同的基因型(圖2C)。

ffymetrix 芯片
Affymetrix 芯片制作也是通過(guò)“光蝕刻”完成的,即在一張大的玻璃基片上合成DNA探針,探針的3′端固定到玻璃基片上,相同序列的探針都是針對(duì)同一個(gè)SNP設(shè)計(jì)的(圖3A)。Affymetrix Axiom分型芯片是基于連接反應(yīng)進(jìn)行基因型檢測(cè)：首先設(shè)計(jì)4套顯色探針,A、C、G、T各一組,這些探針長(zhǎng)度都是9個(gè)堿基,其中只有3′末端的第1個(gè)堿基是特異的,從第2個(gè)堿基到第9個(gè)堿基都是簡(jiǎn)并的;3′端是C或G堿基的探針的5′端帶有一個(gè)生物素標(biāo)簽,最后會(huì)被染成紅色熒光;3′端是A或T堿基的探針的5′端帶另外一種標(biāo)簽,最后會(huì)被染成綠色熒光(圖3B)。以一個(gè)基因型為GT的SNP位點(diǎn)為例(圖3C),先設(shè)計(jì)這個(gè)SNP位點(diǎn)的特異性探針(通過(guò)羥基連接在芯片上,也稱為“捕獲探針”),該探針正好延長(zhǎng)到SNP位點(diǎn)旁邊的一個(gè)堿基處;當(dāng)樣本DNA經(jīng)過(guò)變性后,單鏈DNA會(huì)與捕獲探針退火雜交;再加入4種顯色探針,通過(guò)連接酶進(jìn)行連接,因?yàn)檫B接酶對(duì)連接位點(diǎn)前后幾個(gè)堿基進(jìn)行精確識(shí)別,所以只有與目標(biāo)DNA片段完全互補(bǔ)的顯色探針才會(huì)被連接酶連接到捕獲探針上去;連接反應(yīng)完成后,將游離的顯色探針洗掉,再用帶熒光標(biāo)記的染色試劑進(jìn)行染色;最后,在激光掃描儀中對(duì)芯片進(jìn)行掃描,掃描過(guò)程中,如果看到該探針上所發(fā)出的光是單純紅色,就可以判斷這個(gè)位點(diǎn)的SNP型是GG型純合子;如果發(fā)出的熒光是單純的綠光,那么就可以判斷這個(gè)SNP是TT型純合子;如果發(fā)出的光,既有紅光又有綠光,而且紅光和綠光的光強(qiáng)差不多,則可以判斷這個(gè)SNP位點(diǎn)是GT的雜合子。

關(guān)于芯片的不同類型, 學(xué)習(xí)中…

8, 其它幾種獲得基因組SNP信息的方法

簡(jiǎn)化基因組
GBS、ddGBS和RAD-seq是目前最普及的3種簡(jiǎn)化基因組測(cè)序方法,它們的主要區(qū)別在于是否在接頭連接后進(jìn)行片段選擇,以及PCR后是否進(jìn)行片段選擇.

特點(diǎn):
GBS相較于其他簡(jiǎn)化基因組測(cè)序技術(shù)具有相對(duì)簡(jiǎn)單的建庫(kù)步驟,省去了包括機(jī)械隨機(jī)打斷、片段長(zhǎng)度選擇、末端修復(fù)等步驟,在很大程度地節(jié)約了人力和物力,可以在一次實(shí)驗(yàn)中對(duì)大量的樣本進(jìn)行同時(shí)測(cè)序。GBS技術(shù)適合應(yīng)用于有高質(zhì)量參考基因組的物種;對(duì)于沒(méi)有參考基因組的物種,也可以通過(guò)de novo拼接,以拼接后的片段作為參考序列來(lái)開發(fā)標(biāo)記。GBS分型技術(shù)所獲得的SNP位點(diǎn)通常在目標(biāo)群體中多態(tài)性較好,而不像高密度SNP芯片那樣只能固定地檢測(cè)特定的位點(diǎn)。這一特點(diǎn)使得該技術(shù)非常適合在中國(guó)地方品種或高度純化的品系中進(jìn)行分型,從而獲得更大的信息量。

感覺(jué)目前應(yīng)用的還比較少, 穩(wěn)定性是一個(gè)因素.

基因組重測(cè)序
基因組重測(cè)序(whole-genome resequencing, WGS)是對(duì)參考基因組序列已知物種的個(gè)體進(jìn)行全基因組測(cè)序,并在個(gè)體或群體水平進(jìn)行序列差異性分析的測(cè)序方法。

特點(diǎn):
相比高密度SNP芯片或者簡(jiǎn)化基因組測(cè)序,基因組重測(cè)序的方法可以全面地挖掘基因序列差異和結(jié)構(gòu)變異,在全基因組水平上鑒定并檢測(cè)與重要經(jīng)濟(jì)性狀相關(guān)的突變位點(diǎn),具有重大的科研價(jià)值和產(chǎn)業(yè)價(jià)值。通過(guò)基因組重測(cè)序可以找到大量的SNP、拷貝數(shù)變異(copy number variation, CNV)、插入缺失 (InDel)、結(jié)構(gòu)變異( structural variation, SV)等遺傳變異。由于當(dāng)前測(cè)序價(jià)格相對(duì)較高,因此降低測(cè)序乘數(shù)是主要的測(cè)序策略,一般為0.1~2×,即低覆蓋度重測(cè)序。

WGS中, 可以增加CNV, InDel, 和SV, 這可以加到模型中, 提高估算的準(zhǔn)確性.
和GBS一樣, 成熟度還有待發(fā)展, 現(xiàn)在主流的是芯片.

9, 基于單倍型的GS策略

基于基因組重測(cè)序的GS還有另外一個(gè)策略(圖4),即首先對(duì)群體中遺傳貢獻(xiàn)較大的個(gè)體進(jìn)行10~30×的中高覆蓋度的重測(cè)序,結(jié)合單倍型估計(jì)技術(shù)構(gòu)建群體主要的單倍型庫(kù);對(duì)于大多數(shù)個(gè)體采用高密度SNP芯片或簡(jiǎn)化基因組測(cè)序技術(shù)進(jìn)行分型,通過(guò)基因型填充獲得全基因組的遺傳變異,從而用于GEBV的預(yù)測(cè)。
> 這個(gè)技術(shù)感覺(jué)很有前景啊, 很慚愧之前沒(méi)有聽過(guò)應(yīng)用, 以后要補(bǔ)補(bǔ)課了.

10, 芯片, GBS和二代測(cè)序的論述

高密度SNP芯片和簡(jiǎn)化基因組測(cè)序具有各自的優(yōu)勢(shì)。隨著測(cè)序價(jià)格的繼續(xù)下降,以及生物信息學(xué)分析的流程化,基于二代測(cè)序技術(shù)的全基因組重測(cè)序進(jìn)行SNP的鑒定和分型會(huì)越來(lái)越普及,特別是對(duì)于一些沒(méi)有標(biāo)準(zhǔn)化芯片的非模式物種。當(dāng)然,也可以選擇20~30個(gè)代表性的個(gè)體進(jìn)行重測(cè)序,獲得這個(gè)群體具有一定代表性的SNP數(shù)據(jù)集,利用這些數(shù)據(jù)設(shè)計(jì)芯片,從而進(jìn)行“廉價(jià)”的大規(guī)?；蚍中?。但是,遇到無(wú)標(biāo)準(zhǔn)化芯片的物種,測(cè)序無(wú)疑是最佳選擇。即使對(duì)于一些有標(biāo)準(zhǔn)化芯片的模式生物,全基因組重測(cè)序也常常是更好的選擇。在商業(yè)化SNP芯片密度不夠的情況下,簡(jiǎn)化基因組測(cè)序是很好的替代方法,因?yàn)榧词怪粚?duì)基因組的很小一部分進(jìn)行測(cè)序,就可以輕松獲得幾十萬(wàn)的SNP標(biāo)記。在地方豬種中,高密度SNP芯片也有其局限性。以藏豬為例,PorcineSNP60芯片效果不理想,因?yàn)樾酒系腟NP位點(diǎn)都是從常見的品種中篩選出來(lái)的,這些位點(diǎn)在藏豬這樣的特殊亞種中多態(tài)性比較差。因此,簡(jiǎn)化基因組測(cè)序或全基因組重測(cè)序的效果會(huì)優(yōu)于芯片。總之,在具體研究中,應(yīng)該根據(jù)具體情況來(lái)選擇全基因組SNP分型方案。隨著測(cè)序價(jià)格的不斷降低,測(cè)序的確會(huì)不斷侵蝕芯片的市場(chǎng)空間,成為一種趨勢(shì)。

現(xiàn)在豬育種中, 有中芯一號(hào)了啊…

11, 貝葉斯和GBLUP方法介紹

貝葉斯

Meuwissen等[1]首次提出GS理論時(shí),提供了兩種貝葉斯(Bayesian, Bayes)方法用以解決SNP標(biāo)記數(shù)目通常遠(yuǎn)遠(yuǎn)多于表型記錄的問(wèn)題,即BayesA和BayesB。BayesA假設(shè)所有SNP 位點(diǎn)都有效應(yīng),且所有SNP效應(yīng)的方差服從尺度逆卡方分布的正態(tài)分布,其中的兩個(gè)參數(shù)——自由度和尺度參數(shù)與遺傳結(jié)構(gòu)直接相關(guān),能夠確定遺傳結(jié)構(gòu),而這兩個(gè)參數(shù)都是事先給定的。BayesA使用MCMC(馬爾科夫鏈蒙特卡洛方法)方法構(gòu)建Gibbs抽樣鏈,在模型中對(duì)標(biāo)記效應(yīng)進(jìn)行求解。BayesB與BayesA的區(qū)別在于對(duì)SNP效應(yīng)的先驗(yàn)假設(shè)不同。BayesA假設(shè)所有SNP 都有效應(yīng),而BayesB假設(shè)只有一小部分標(biāo)記位點(diǎn)有效應(yīng),其他大部分染色體片段效應(yīng)為0 (無(wú)效應(yīng)位點(diǎn)的比例為π);這一小部分有效應(yīng)的位點(diǎn),其效應(yīng)方差服從的分布與BayesA一樣。BayesB中有效應(yīng)位點(diǎn)的比例(1-π)在模型中是預(yù)先設(shè)定的,通常為0.05左右。與BayesA不同,BayesB 使用混合分布作為標(biāo)記效應(yīng)方差的先驗(yàn),所以難以構(gòu)建標(biāo)記效應(yīng)和方差各自的完全條件后驗(yàn)分布,因此BayesB使用MH (Metropolis-Hasting)抽樣對(duì)標(biāo)記效應(yīng)和方差進(jìn)行聯(lián)合抽樣。

在Meuwissen 提出的兩種貝葉斯模型基礎(chǔ)之上,研究人員又提出了多種GEBV估計(jì)的Bayes模型。BayesC 模型[34]使用混合分布作為標(biāo)記效應(yīng)的先驗(yàn)分布,但在BayesC模型中,π是未知的,需要在模型中求解得到,其他與BayesB相同。Habier等[34]還提出了BayesCπ、BayesDπ方法：BayesCπ 與BayesC的主要區(qū)別在于BayesCπ假設(shè)有效應(yīng)的SNP的效應(yīng)方差相同,而BayesC假設(shè)其效應(yīng)方差是不同的。BayesC和BayesCπ相比于BayesA和BayesB的最大改進(jìn)之處在于對(duì)模型中無(wú)效應(yīng)SNP位點(diǎn)的比例π進(jìn)行估計(jì)[16,35]。BayesDπ[34]在模型中假設(shè)π值服從U[0,1]的均勻分布,同時(shí)也要對(duì)尺度參數(shù)進(jìn)行求解,其假設(shè)尺度參數(shù)的先驗(yàn)分布為Gamma(1,1)分布,其后驗(yàn)分布也是Gamma分布,可以直接從后驗(yàn)分布中抽樣。Bayes LASSO (Least Absolute Shrinkage and Selection Operator)[36,37,38,39,40]假定SNP標(biāo)記效應(yīng)服從Laplace分布,而Lpalace分布等價(jià)于方差服從指數(shù)分布的正態(tài)分布。Laplace分布與BayesA假定的SNP標(biāo)記效應(yīng)Student’s t分布具有相同的特點(diǎn)：具有比正態(tài)分布更重的兩尾概率。在高維數(shù)據(jù)線性回歸中常用到的方法除了LASSO,還有EN (Elastic net)[41],這兩種方法都是在懲罰函數(shù)中增加約束項(xiàng),同時(shí)實(shí)現(xiàn)變量選擇與參數(shù)估計(jì),可以將很多變量效應(yīng)壓縮至(接近)0。Bayes LASSO在GS算法應(yīng)用中的一種拓展策略是使用廣義正態(tài)分布作為標(biāo)記效應(yīng)先驗(yàn)。Bayes LASSO的思想和BayesA一樣,不同之處在于它假設(shè)標(biāo)記效應(yīng)服從另一種分布-拉普拉斯分布,所以標(biāo)記效應(yīng)的后驗(yàn)分布也隨之改變。

其他的貝葉斯方法,如Bayes SSVS[42]、fBayesB[43]、wBSR[44]、BAL/IAL[45]、emBayesR[46]、EBL[47]、BayesRS[48]和Bayes TA[49]等,都是在前人研究基礎(chǔ)之上對(duì)模型中的先驗(yàn)假設(shè)進(jìn)行變換和模型中的參數(shù)進(jìn)行優(yōu)化,以期尋找最適合群體的假設(shè)模型和參數(shù)。目前廣泛應(yīng)用的貝葉斯算法仍是BayesA、BayesB、BayesCπ和Bayes LASSO,這是由于它們計(jì)算的結(jié)果穩(wěn)定,具有較高的GEBV估計(jì)準(zhǔn)確性?？傊?在經(jīng)典貝葉斯方法基礎(chǔ)上,貝葉斯方法的改進(jìn)算法及其參數(shù)優(yōu)化策略圍繞著以提高GEBV估計(jì)的準(zhǔn)確性為目的,通過(guò)生物遺傳算法與實(shí)際的群體情況相結(jié)合,尋找最適的模型假設(shè)和參數(shù)優(yōu)化方法,使得GEBV更具有育種價(jià)值。

我這樣成段成段的復(fù)制, 真的不構(gòu)成侵權(quán)么???
貝葉斯的方法, 沒(méi)有具體做過(guò), 目前主要使用GBLUP, 一步法

GBLUP方法
GBLUP和一步法, 都屬于GBLUP方法.

GEBV的方法是通過(guò)構(gòu)建基因組關(guān)系矩陣(G矩陣)替換基于系譜信息構(gòu)建的分子血緣關(guān)系矩陣(numerator relationship matrix, NRM或A矩陣),進(jìn)而使用最佳線性無(wú)偏預(yù)測(cè)(best linear unbiased prediction, BLUP)方法直接估計(jì)GEBV,即GBLUP法。VanRaden[16]提出了G矩陣的構(gòu)建方法,將SNP基因型進(jìn)行編碼,純合基因型分別編碼為1和-1,雜合基因型為0,假設(shè)pi為位點(diǎn)i的第二個(gè)等位基因的頻率,則每個(gè)基因型編碼后的值減去相應(yīng)的處于哈代-溫伯格平衡(Hardy-Weinberg equilibrium, HWE)時(shí)的均值2×(pi-0.5),得到Z矩陣,按照公式 (1-1)即可計(jì)算得到G矩陣：

與貝葉斯方法相比,GBLUP不需要先利用參考群體估計(jì)SNP標(biāo)記效應(yīng),再計(jì)算GEBV;而是可以直接將有表型及無(wú)表型個(gè)體可以放在同一個(gè)模型中,同時(shí)估計(jì)出有表型和無(wú)表型個(gè)體的GEBV及其準(zhǔn)確性[50]。從計(jì)算速度來(lái)講,GBLUP比Bayes方法快很多,因此更加適用于現(xiàn)場(chǎng)應(yīng)用時(shí)快速獲得GEBV[51]。Azevedo等[52]比較了GBLUP與幾種改進(jìn)的Bayes LASSO之間的準(zhǔn)確性,通過(guò)對(duì)多種不同遺傳力、不同遺傳基礎(chǔ)性狀的GEBV估計(jì),認(rèn)為GBLUP總體上表現(xiàn)最好,其次是BayesA或BayesB。

我看也有文獻(xiàn)說(shuō)是BayesB最好, 不過(guò)應(yīng)用最廣以及價(jià)值最大的目前是GBLUP沒(méi)錯(cuò)

一步法GBLUP (single-step GBLUP, ssGBLUP)模型是傳統(tǒng)基于系譜信息的BLUP法和基于SNP標(biāo)記信息的GBLUP法的合并,它的模型形式上與BLUP及GBLUP法并無(wú)區(qū)別。如公式(1-2)中,ssGBLUP是用H矩陣替代GBLUP中的G矩陣,從而將沒(méi)有基因型的個(gè)體與有基因型的個(gè)體放在同一個(gè)模型中進(jìn)行EBV或GEBV的估計(jì),H矩陣結(jié)構(gòu)如公式(1-3)：

可以使用MME方程, 直接利用H逆矩陣:
ssGBLUP有效地解決了畜禽GS實(shí)施中如何充分利用已有表型記錄的歷史數(shù)據(jù)等問(wèn)題,廣泛被用于育種實(shí)踐中[58,59]。因?yàn)榇蠖鄶?shù)育種群體具有豐富翔實(shí)的系譜和表型記錄,但限于經(jīng)費(fèi)、人力、時(shí)間等因素,難以對(duì)全部個(gè)體進(jìn)行基因型測(cè)定,特別是一些年代久遠(yuǎn)的個(gè)體因?yàn)闆](méi)有DNA組織樣品而無(wú)法再進(jìn)行基因型測(cè)定。ssGBLUP能將無(wú)基因型個(gè)體的系譜及表型數(shù)據(jù)和有基因型的個(gè)體的基因組信息結(jié)合起來(lái)[60,61],會(huì)大大提高基因組選擇的準(zhǔn)確性。Christensen等[58]對(duì)2668頭杜洛克豬群體的日增重和飼料轉(zhuǎn)化率兩個(gè)性狀進(jìn)行基因組選擇準(zhǔn)確性分析,結(jié)果表明多性狀模型的ssGBLUP準(zhǔn)確性最高,比常規(guī)BLUP方法準(zhǔn)確性提高了16%。Tsuruta等[62]用有系譜和表型記錄的7 860 183頭美國(guó)荷斯坦奶牛和17 293頭有基因型數(shù)據(jù)的個(gè)體,對(duì)荷斯坦奶牛的18個(gè)性狀進(jìn)行分析,結(jié)果也證明ssGBLUP的準(zhǔn)確性明顯高于常規(guī)BLUP方法。

SSBLUP相對(duì)于BLUP方法, 對(duì)于低遺傳力和繁殖性狀, 估算的準(zhǔn)確性能提高50%, 這是很666的.

12, GS在牛育種中的應(yīng)用

區(qū)域化的奶牛GS育種體系使得參考群體規(guī)模迅速擴(kuò)大,GS選擇準(zhǔn)確性逐漸提高,大大促進(jìn)了GS技術(shù)在奶牛育種中的普及。除了常規(guī)的產(chǎn)奶量和乳脂率等性狀,奶牛GS研究也開始關(guān)注一些常被忽視但非常有應(yīng)用潛力的性狀,如肢蹄健康、飼料轉(zhuǎn)化率和甲烷排放量等[63]。我國(guó)于2008年開始啟動(dòng)奶牛GS研究,2012年正式將GS技術(shù)應(yīng)用于荷斯坦奶牛的遺傳評(píng)估中,評(píng)估的性狀共14個(gè),包括產(chǎn)奶量、體細(xì)胞計(jì)數(shù)、體型評(píng)分等,其中產(chǎn)奶性狀基因組預(yù)測(cè)準(zhǔn)確性為0.59~ 0.76,比傳統(tǒng)BLUP方法提高了0.13~0.30。
目前,奶牛GS的參考群體一般由經(jīng)后裔測(cè)定和基因型測(cè)定的驗(yàn)證公牛組成。除了通過(guò)區(qū)域合作擴(kuò)大參考群體外,對(duì)母牛進(jìn)行基因型測(cè)定,也是擴(kuò)大參考群體的一條重要途徑。隨著高密度SNP芯片和二代測(cè)序成本的下降,將來(lái)所有母?？赡苓M(jìn)行基因型測(cè)定。Buch等[64]使用驗(yàn)證公牛與經(jīng)基因型測(cè)定的女兒構(gòu)建參考群體,結(jié)果表明GS的準(zhǔn)確性比僅使用驗(yàn)證公牛時(shí)要高。對(duì)于荷斯坦以外的奶牛品種,如娟姍牛、瑞士褐牛、西門塔爾、挪威紅牛等,由于其群體相對(duì)小,并且地理分布分散,參考群相對(duì)較小,影響了GS技術(shù)的應(yīng)用。

特殊性狀, 甲烷排放量也可以用GS選擇了, 人工智能采集數(shù)據(jù)后, 我相信以后也可以選擇雙眼皮的?！璆S潛力無(wú)限大…
牛的參考群一般較小, 擴(kuò)大參考群的方法是加入母牛, 而不僅僅是驗(yàn)證公牛, 不影響準(zhǔn)確性, 性價(jià)比高.

13, GS在豬育種中的應(yīng)用

與奶牛不同,在豬的育種體系中,GS應(yīng)用的前提是提高GEBV估計(jì)的準(zhǔn)確性[58],這是因?yàn)樵趥鹘y(tǒng)育種體系中,豬的世代間隔已經(jīng)控制在較短的時(shí)間,很難再對(duì)其進(jìn)行大幅縮減。因此,豬的GS應(yīng)用主要是靠提高GEBV的準(zhǔn)確性來(lái)獲得額外的遺傳進(jìn)展,特別是對(duì)傳統(tǒng)育種中選擇準(zhǔn)確性低的性狀,如繁殖性狀、屠宰性狀、肉質(zhì)性狀、抗病性狀等,GS具有更大的優(yōu)勢(shì)。

牛GS的顯著效果是降低世代周期, 豬的應(yīng)用時(shí)提高估算的準(zhǔn)確性, 對(duì)于一些低遺傳力的性狀, 比如繁殖性狀, 屠宰性狀, 肉質(zhì)性狀, 抗病性等進(jìn)行選擇. 這在常規(guī)分析中, 選擇效果較差.

14, GS在雞育種中的應(yīng)用

從個(gè)體角度,GS在雞育種中很難普及,因?yàn)槠鋫€(gè)體價(jià)值遠(yuǎn)小于基因分型成本。但是,如果從整個(gè)育種體系的角度來(lái)看,為了培育特定目標(biāo)群體進(jìn)行配套系生產(chǎn)的話,GS在雞的應(yīng)用還是有一定的潛力的。Long等[69]利用5000個(gè)與后代死亡率相關(guān)的SNP標(biāo)記對(duì)肉雞0-14天齡的死亡率進(jìn)行預(yù)測(cè),結(jié)果顯示當(dāng)利用SNP信息的進(jìn)行選擇時(shí),其準(zhǔn)確性與不使用SNP信息相比提高了50%~90%。隨后,陸續(xù)開展了關(guān)于飼料轉(zhuǎn)化效率、肉雞6周齡體重、胸肌面積、腿評(píng)分等性狀[70,71]及蛋雞產(chǎn)蛋量、蛋重、沙門氏菌抗性等性狀[72,73]的GS研究。美國(guó)海蘭公司對(duì)蛋雞進(jìn)行GS研究,研究了包括產(chǎn)蛋量、蛋重、蛋殼質(zhì)量和性成熟等重要經(jīng)濟(jì)性狀,目標(biāo)是將世代間隔縮短一半,即從12個(gè)月減為6個(gè)月,從而提高年遺傳進(jìn)展;其方案是使用高密度SNP芯片測(cè)定個(gè)體基因型,并對(duì)GS群體的大小及結(jié)構(gòu)進(jìn)行優(yōu)化,使選擇準(zhǔn)確性最大化,且年近交速率不增加。

雞中GS應(yīng)用, 第一可以進(jìn)行配套系的研究.
對(duì)于一些繁殖性狀以及肉質(zhì)性狀, 也有很高的提高效果, 因?yàn)殡u要么是蛋雞(繁殖), 要么是肉雞(肉質(zhì)), 肉雞中保持肉質(zhì)不變, 提高繁殖性能, 也是創(chuàng)收的途徑.
最終要的一點(diǎn), 相對(duì)于豬和牛, 雞的群體大啊, 準(zhǔn)確性高.

15, 展望

GS作為一種新的畜禽遺傳評(píng)估方法,比傳統(tǒng)BLUP方法有明顯的優(yōu)勢(shì)。隨著基因分型成本的下降,GS技術(shù)有望在國(guó)內(nèi)大型育種公司中應(yīng)用普及。由于已有的SNP芯片在特定群體中多態(tài)性差,越來(lái)越多的研究和應(yīng)用開始使用自定制高密度SNP芯片,如豬的PorcineSNP55K芯片,在肉雞、肉牛和蛋雞等物種中也有相應(yīng)報(bào)道。隨著二代測(cè)序價(jià)格的下降,基于二代測(cè)序技術(shù)的GS優(yōu)勢(shì)日趨明顯,有望在5~10年內(nèi)替代高密度SNP芯片,成為GS應(yīng)用的主要分型手段。基于二代測(cè)序的GS技術(shù)主要面臨的是分型準(zhǔn)確性和分析時(shí)效性的問(wèn)題,分型準(zhǔn)確性可以通過(guò)優(yōu)化測(cè)序方案和基因型填充策略來(lái)提高;而數(shù)據(jù)分析的時(shí)效性需要借助于自動(dòng)化/智能化分析流程的建立以及基于“硬件加速”技術(shù)的軟件開發(fā)。隨著基因分型個(gè)體數(shù)極大累積或標(biāo)記密度極大提高,當(dāng)前常用的基于單點(diǎn)SNP的GEBV估計(jì)模型將具有局限性,基于單倍型信息的統(tǒng)計(jì)模型可能會(huì)成為未來(lái)的研究方向。除此之外,在統(tǒng)計(jì)模型中增加顯性效應(yīng)、上位效應(yīng)和印記效應(yīng)的應(yīng)用會(huì)越來(lái)越多[74]。最后,借助目前智能化農(nóng)牧設(shè)備開發(fā)的熱潮,應(yīng)該盡快將GS應(yīng)用從“育種場(chǎng)→實(shí)驗(yàn)室→育種場(chǎng)”的所需樣品收集、表型測(cè)定、數(shù)據(jù)分析、個(gè)體選留等流程整合進(jìn)入常規(guī)育種生產(chǎn)中,加快GS在動(dòng)物育種中的應(yīng)用。