各位老師好,我是華中農(nóng)業(yè)大學植科院的博士后賀超,今天代表第三十組“麥客江湖”值日,本組的組長是河南省濮陽市農(nóng)業(yè)農(nóng)村局的陳紅敏老師,組員有中國科學院遺傳與發(fā)育生物學研究所的李淼淼老師,衛(wèi)輝市五星農(nóng)機有限公司的介百永老師,煙臺市農(nóng)業(yè)科學研究院的丁曉義老師、漯河市農(nóng)業(yè)科學院的廖平安老師、黑龍江省農(nóng)業(yè)科學院克山分院的李長輝老師、安徽省皖農(nóng)種業(yè)有限公司的黃建華老師和江蘇里下河地區(qū)農(nóng)業(yè)科學研究所的陳士強老師等。我目前的研究方向是利用調控組學技術解析機理,尋找并驗證小麥生長發(fā)育過程中的重要調控元件和調控事件,利用基因編輯創(chuàng)建新的遺傳變異,服務分子設計育種。我的資歷跟“一麥眾承”的各位老師相比實在太淺,僅抱著一顆學習的態(tài)度加入到這個溫馨的大家庭,深深地被老師們身上對科學研究的熱情以及育種事業(yè)的熱忱感染,今天也鼓起勇氣跟各位老師就小麥向導RNA(guide RNA,gRNA)的設計進行交流,不足之處懇請指正。
基于CRISPR/Cas系統(tǒng)的基因編輯技術打破了傳統(tǒng)農(nóng)業(yè)育種性狀改良的瓶頸,其在作物品種改良中具有廣闊的應用前景。CRISPR/Cas的靶向編輯功能依賴于gRNA的向導,通過設計與靶向序列互補的gRNA,可實現(xiàn)靶位點的定點突變或將特定功能的蛋白帶到靶位點上,創(chuàng)造新的種質資源。然而,當gRNA的特異性不強時,極易產(chǎn)生脫靶現(xiàn)象,嚴重限制了CRISPR/Cas的定點操控功能。小麥是異源六倍體作物,其基因組異常龐大且重復序列占比高,這大大加劇了特異高效gRNA設計的難度。因此,選擇一款適用于小麥gRNA的設計工具非常重要。目前支持小麥基因組gRNA設計的工具,包括WheatCrispr、E-CRISP、CRISPRdirect和CRISPR-Cereal等,本文將著重比較這幾款gRNA設計工具的優(yōu)缺點,以供科研工作者參考。
1 WheatCrispr網(wǎng)站優(yōu)缺點
1.1 WheatCrispr簡介
WheatCrispr(https://crispr.bioinfo./WheatCrispr/)是專為小麥基因組基因gRNA設計而開發(fā)的生信工具[1](圖1),其使用的參考基因組為六倍體“中國春”基因組組裝版本IWGSC v1.0,針對的基因編輯系統(tǒng)僅為CRISPR/SpCas9,識別的PAM序列分為Canonical(5?-NGG-3?)和Non-canonical(5?-(NAG, NCG, NGA-3?)2類,設計的gRNA其互補序列既可位于外顯子上又可分布于啟動子區(qū)域。 圖1 WheatCrispr的gRNA設計結果
對于編輯效率的評估和off-target頻率的預測,WheatCrispr使用的是Doench算法;為了減少工作量,在基因組搜索可能的脫靶序列時,其策略是針對不同PAM序列及其所在的不同區(qū)域(啟動子/UTR/外顯子/內含子/基因間區(qū))分別使用不同的最大容許錯配數(shù)進行序列比對。WheatCrispr網(wǎng)站的使用是先提交基因名稱或序列,隨后后臺從提前構建好的gRNA數(shù)據(jù)庫中匹配相應的gRNAs,最后將匹配到的gRNAs及其相關信息反饋到結果頁面。gRNA數(shù)據(jù)庫的構建流程可總結為:i.全基因組范圍內搜索PAM位點,將PAM序列及與其上游20個堿基互補的gRNA序列提取出來;ii.先根據(jù)PAM序列將與其對應的gRNA分為canonical和non-canonical兩類,再根據(jù)gRNA序列所在的位置將gRNA進一步按外顯子、啟動子、其他基因功能區(qū)域(內含子和UTR)以及基因間區(qū)進行分類,即最后gRNA共分為8類;iii.將位于基因外顯子和啟動子上的canonical gRNA序列單獨調取,作為on-target gRNA數(shù)據(jù)庫,并利用rs2算法計算該數(shù)據(jù)庫中每一條gRNA的on-target效率;iv.將on-target gRNA數(shù)據(jù)庫中的每條gRNA序列分別用相應指定的最大容許錯配數(shù)與8類gRNAs分別比對,同時用Doench CFD算法預測off-target頻率。
1.2 WheatCrispr優(yōu)點
1)可針對啟動子區(qū)域設計gRNA序列,因此可為轉錄調控的CRISPR/Cas系統(tǒng)設計gRNA;
2)先構建gRNA數(shù)據(jù)庫,再根據(jù)用戶提交的序列去gRNA數(shù)據(jù)庫中調取匹配到的序列,節(jié)約了用戶等待的時間和后臺運行的工作量;
1.3 WheatCrispr缺點
1)參考基因組僅使用“中國春”基因組組裝版本IWGSC v1.0,而常規(guī)研究用到的材料眾多,且不同材料具有豐富的遺傳變異,因此當使用非中國春的材料時,設計出來的gRNA其靶向的區(qū)域可能存在SNP位點,大大降低了編輯的效率。
2)僅可為CRISPT/SpCas9系統(tǒng)設計gRNA序列,限制了用戶的選擇。
3)將gRNA根據(jù)其所在染色體上的位置進行分類,雖然節(jié)約了工作量,但過于武斷,因為基因不同區(qū)域的分類是基于IWGSC v1.0注釋文件,其中基因啟動子區(qū)域定義為基因上游2 kb區(qū)域,而這會導致X基因的promoter區(qū)域可能是Y基因外顯子或其他基因結構的部分區(qū)域,從而造成8種不同類型gRNA子數(shù)據(jù)庫序列存在重復。
4)顯示的gRNA信息單一,無法為后續(xù)驗證工作提供必要的信息。
5)網(wǎng)站缺少一個“submit”按鈕,只要輸入一個基因的ID或序列,甚至更改任一選項,都會自動開始加載結果,而不是等用戶做好了所有選擇再加載結果,這樣既浪費了用戶的時間,也增加了后臺運行工作量。
2 E-CRISP網(wǎng)站優(yōu)缺點
2.1 E-CRISP簡介
E-CRISP(http://www./E-CRISP/)網(wǎng)站支持包含小麥在內的55個物種CRISPR-Cas系統(tǒng)gRNA的設計[2](圖2)。小麥的參考基因組使用“中國春”基因組組裝版本IWGSC v1.0,同時利用高密度遺傳圖譜popseq.31進行序列校正;識別的PAM序列為NRG (R=G或A),即gRNA的設計僅針對CRISPR/Cas9系統(tǒng)。E-CRISP利用Bowtie/Bowtie2在基因組范圍內匹配gRNA和預測off-target位點,同時以gRNA匹配的程度以及找到的off-target位點數(shù)量來評價gRNA。利用E-CRISP設計gRNAs時,需先選擇所針對的物種和設計的目的,隨后提交基因ID(僅支持Ensembl ID)或序列(fasta格式),還可提前設定gRNA互補序列所處的位置范圍,最后將這些預設信息一并提交即獲得設計結果。 圖2 E-CRISP的信息提交界面
2.2 E-CRISP優(yōu)點
以下優(yōu)點均針對小麥基因組CRISPR-Cas系統(tǒng)的設計。
1)適用于基因敲除、轉錄沉默和激活的CRISPR/Cas系統(tǒng)gRNA的設計;
2)設計時可指定互補序列所處的位置,還可規(guī)避CpG島;
3)可批量為多個基因設計gRNA,同時支持本地命令行操作;
4)結果可選擇顯示TSS、起始密碼子、終止密碼子和限制性內切酶酶切位點的位置信息,也可將這些結果導出為gff格式文件,可輔助gRNA的選擇;
5)Off-target數(shù)據(jù)庫分為3個子數(shù)據(jù)庫,分別為染色體DNA數(shù)據(jù)庫、包含內含子的基因數(shù)據(jù)庫以及mRNA數(shù)據(jù)庫,用戶可根據(jù)實際需要進行選擇,這在滿足了用戶需求的同時減少了后臺數(shù)據(jù)分析的工作量。
2.3 E-CRISP缺點
1)參考基因組只使用“中國春”基因組IWGSC v1.0,識別的PAM序列僅針對Cas9,缺點同WheatCrispr;
2)用Bowtie/Bowtie2進行序列比對時,其容許的最大錯配數(shù)為2,因此采用這一方法預測off-target位點時只能匹配到與gRNA序列僅具有2個或2個以下堿基差異的位點,而忽略了其他可能大量真實存在的情況;
3)僅以序列匹配程度來衡量gRNA的效率、以找到的off-target位點數(shù)量來衡量off-target頻率,這種方法不合理之處一方面在于并不是100%匹配的gRNA其效率就越高,因為同時存在參考基因組序列與目的品種在該序列上存在SNP的問題,另一方面,并不是所找到的off-target位點越少對應的gRNA編輯效率就越高,因為off-target僅僅是預測的結果,且比對使用的最大錯配數(shù)被限制為2個,這大大減少了off-target的數(shù)量,使用這一策略預測到的off-target位點數(shù)量遠遠低于某條gRNA全部可能的off-target數(shù)量;
4)gRNAs互補序列位點和off-target位點分開顯示,沒有將每條gRNA對應可能產(chǎn)生的off-target位點的位置和序列與該條gRNA的信息對應顯示,這不便于用戶對所匹配到的gRNA進行選擇。
3 CRISPRdirect網(wǎng)站優(yōu)缺點
3.1 CRISPRdirect簡介
CRISPRdirect網(wǎng)站“Species”的選項多達633個,小麥僅是其中之一的物種,且也只包含“中國春”這一個小麥品種[3](圖3)。CRISPRdirect中小麥的參考基因組和識別的PAM序列同E-CRISP,不同之處在于CRISPRdirect設計頁面非常簡單,用戶只需要提交目的序列并選擇相應的基因組即可快速獲得結果,并沒有其他參數(shù)可作調整。CRISPRdirect預測off-target分為3種模式,分別為20mer PAM、12mer PAM和8mer PAM,分別表示在全基因組范圍內匹配靶點和預測off-target的位點時必須完全匹配的堿基數(shù)以及與PAM前12或8個堿基(“seed”)完全匹配的堿基數(shù),比對使用的工具為GGGenome。 圖3 CRISPRdirect的gRNA設計結果
3.2 CRISPRdirect優(yōu)點
1)可提交最長為10 kb的序列進行比對;
2)利用GGGenome軟件在基因組范圍內匹配靶點和off-target位點,基于GGGenome快速、高效的優(yōu)點,使獲得的結果更為準確,且GGGenome支持匹配的序列存在個別堿基的插入和缺失;
3)利用“seed”序列的必要性來預測可能的脫靶效應,提高了預測結果的準確性;
4)傻瓜式操作,獲取結果簡單快速;
5)顯示了匹配到的gRNA在染色體上的方向,便于后續(xù)分析;
6)高亮顯示off-target位點少的gRNAs,便于用戶快速選擇;
7)結果提供了gRNA互補序列的GC含量、Tm值、TTTT位點和限制性酶切位點信息,可輔助用戶進行gRNA的選擇。
3.3 CRISPRdirect缺點
1)參考基因組只使用“中國春”基因組組裝版本IWGSC v1.0,僅支持CRISPR/SpCas9系統(tǒng)gRNA的設計;
2)尋找靶點時不允許錯配,忽略了不同品種小麥間的SNP,可能丟失真正的靶點;
2)預測off-target位點時只考慮PAM之前的“seed”片段的匹配程度,而不限制“seed”片段之前的序列其可容許的缺失、插入和錯配數(shù),這會導致匹配的off-target數(shù)量比預期多;
3)沒有顯示gRNA互補序列所在的基因結構區(qū)域,不能對靶點所處位置的合理性作出快速判斷;
4) 僅可在外顯子區(qū)域設計gRNA,無法為以轉錄調控為目的的CRISPR/Cas系統(tǒng)設計gRNA。
4 CRISPR-Cereal工具優(yōu)缺點
4.1 CRISPR-Cereal簡介
CRISPR/Cas系統(tǒng)的編輯效率不僅依賴guide RNA (gRNA) 的序列特征,還受靶向區(qū)域染色質狀態(tài)的影響,另外,靶向基因的本底表達水平以及核苷酸多態(tài)性位點的存在與否也會影響CRISPR/Cas的效率。CRISPR-Cereal是一款整合了靶向區(qū)域的調控信息和基因組變異信息的gRNA設計工具[4](圖4),其使用的小麥參考基因組組裝版本為IWGSC v1.0,注釋版本為IWGSC v2.1,識別的PAM序列包括NGG和TTTN,即可同時支持CRIPSR/Cas9和CRIPSR/Cpf1系統(tǒng)。CRISPR-Cereal利用Flashfry算法實現(xiàn)gRNA的on-target和off-target位點的預測,使用的打分算法為Doench CFD。 圖4 CRISPR-Cereal設計高效特異gRNA的特點
3.2 CRISPR-Cereal優(yōu)點
1)支持提交基因名稱、序列和位置信息,即可針對基因又可針對非編碼序列設計gRNA;
2)可快速在全基因組范圍內搜索脫靶位點,最大錯配數(shù)為5;
3)對每個脫靶位點進行了注釋,如果脫靶位點中包含靶位點的同源基因,選擇該條gRNA,可同時實現(xiàn)小麥多個同源基因的編輯;
3)展示了靶基因的表達量和染色質開放性以及組蛋白修飾信息,直觀地體現(xiàn)了gRNA是否位于染色質開放性區(qū)域以及是否包含組蛋白修飾位點,輔助gRNA的選擇;
4)展示了靶位點的SNP信息,有利于非參考基因組材料的gRNA選擇;
5)可下載靶位點和脫靶位點的全部信息,方便gRNA的篩選。
3.3 CRISPR-Cereal缺點
1)由于目前小麥的染色質開放性數(shù)據(jù)和組蛋白修飾數(shù)據(jù)較少,難以開發(fā)一套針對染色質狀態(tài)的打分算法來綜合評價gRNA的編輯效率,CRIPSR-Cereal僅僅通過有跟無的定性來對靶基因的染色質狀態(tài)進行打分和評價,無法讓用戶不通過篩選和比較即可獲得最推薦的gRNA序列;
2)現(xiàn)僅支持IWGSC v1.0版本的參考基因組,如果要針對以IWGSC v2.0為參考的序列設計gRNA,只能通過提交序列的方式進行設計,后續(xù)還需將gRNA序列與IWGSC v2.0參考序列進行比對,才可獲得靶向位點的具體位置信息。
參考文獻
[1] Cram D, Kulkarni M, Buchwaldt M, et al. WheatCRISPR: a web-based guide RNA design tool for CRISPR/Cas9-mediated genome editing in wheat. BMC Plant Biol, 2019,19(1):474.
[2] Heigwer F, Kerr G, Boutros M. E-CRISP: fast CRISPR target site identification. Nat Methods, 2014,11(2):122-123.
[3] Naito Y, Hino K, Bono H, et al. CRISPRdirect: software for designing CRISPR/Cas guide RNA with reduced off-target sites. Bioinformatics, 2015,31(7):1120-1123.
[4] He C, Liu H, Chen D, et al. CRISPR-Cereal: a guide RNA design tool integrating regulome and genomic variation for wheat, maize and rice. Plant Biotechnol J, 2021,19(11):2141-2143. 作者簡介:賀超,女,2019年于江西農(nóng)業(yè)大學作物生理生態(tài)與遺傳育種教育部重點實驗室獲得博士學位后,加入到華中農(nóng)業(yè)大學小麥改良創(chuàng)新團隊從事博士后研究,現(xiàn)依托小麥產(chǎn)量遺傳改良課題組,開展小麥調控組學等研究工作。
|