RNA-seq這十年（3萬字長文綜述）

祥強(qiáng)6csdm0n3vs 2019-08-06

展開全文

相信生信技能樹的粉絲對(duì)我在2019上半年舉行的十余場《我的生信五周年》演講應(yīng)該是不陌生了，我入場生物信息學(xué)領(lǐng)域時(shí)轉(zhuǎn)錄組約人民幣2萬一個(gè)樣本，目前均價(jià)不到1000。我差不多算是見證了時(shí)代的變遷，還僅僅是5年的跨度。相信你一定會(huì)感興趣RNA-seq這10年的變化。

寫在前面

我們在生信菜鳥團(tuán)公眾號(hào)舉辦的每周文獻(xiàn)精選活動(dòng)，菜鳥團(tuán)一周文獻(xiàn)推薦（No.20）廣受好評(píng)的是大神級(jí)的RNA-Seq綜述，題目：RNA sequencing: the teenage years ，所以在我們生信技能樹VIP交流群也得到了關(guān)注。

當(dāng)時(shí)就號(hào)召過群友翻譯，五天過去了，讀研筆記公眾號(hào)率先完成全部翻譯文稿，特發(fā)布給所有粉絲，如果是生信技能樹鐵粉應(yīng)該是對(duì)讀研筆記不陌生，他在我們2018的statquest學(xué)習(xí)交流群脫穎而出。

另外強(qiáng)推他的StatQuest系列筆記，匯總目錄：https://mp.weixin.qq.com/s/cvA40tLtpIzb_z2xtLD3ig

文獻(xiàn)信息

本文是2019年7月份發(fā)表在《Nature Reviews Genetics》上的有關(guān)RNA-seq的綜述文章。
文獻(xiàn)信息如下所示：
Stark, R., et al. (2019). 'RNA sequencing: the teenage years.' Nature Reviews Genetics.

摘要

在過去的十年中，RNA測序(RNA-seq)已經(jīng)成為在全轉(zhuǎn)錄組范圍內(nèi)分析差異基因表達(dá)和mRNAs差異剪接的重要工具。然而，隨著下一代測序技術(shù)的發(fā)展，RNA-seq技術(shù)也在不斷發(fā)展?，F(xiàn)在，RNA-seq用于研究RNA生物學(xué)的許多方面，其中包括單細(xì)胞基因表達(dá)、翻譯（翻譯組,translatome）和RNA結(jié)構(gòu)（結(jié)構(gòu)組，structurome）。RNA-seq的其它應(yīng)用也在開發(fā)中，例如空間轉(zhuǎn)錄學(xué)(spatialomics)。加上新的長讀長（long-read，注：在本文中，RNA-seq測序生成的read統(tǒng)一譯為“讀長“）和直接RNA-seq(direct RNA-seq)技術(shù)以及用于數(shù)據(jù)分析的更好的計(jì)算工具的整合，RNA-seq技術(shù)的創(chuàng)新有助于人們更全面地理解RNA生物學(xué)，例如從何時(shí)何地轉(zhuǎn)錄發(fā)生到控制RNA功能的折疊和分子間相互作用等問題。

前言

RNA-seq技術(shù)出現(xiàn)于十年之前，自其誕生之日起，RNA-seq就成了研究分子生物學(xué)的普遍工具，這項(xiàng)技術(shù)幾乎構(gòu)成了我們對(duì)基因組功能的認(rèn)知基礎(chǔ) 。RNA-seq中最常用的分析方法就是找出差異基因表達(dá)(Differential gene expression, DGE)。從最早的出版期刊開始，DGE分析的基本階段就未發(fā)生實(shí)質(zhì)性的改變。

在實(shí)驗(yàn)室中，其標(biāo)準(zhǔn)流程就分為三步：

第一步是構(gòu)建測序文庫，這一步驟包括提取RNA，富集mRNA或清除核糖體RNA，合成 cDNA，加上接頭。

第二步，在高通量平臺(tái)（通常是Illumina平臺(tái)）上對(duì)文庫進(jìn)行測序，每個(gè)樣本的測序深度為10-30M讀長數(shù)（讀長這里就是前面說的reads）。

第三步是數(shù)據(jù)分析，具體的工作是：對(duì)測序得到的讀長進(jìn)行比對(duì)(aligning)和/或組裝到轉(zhuǎn)錄組上，對(duì)這些覆蓋了轉(zhuǎn)錄組的讀長進(jìn)行過濾，歸一化(Normalization)，根據(jù)統(tǒng)計(jì)模型找出那些在不同樣本之間有差異的轉(zhuǎn)錄本。早期的RNA-seq從大量的實(shí)驗(yàn)樣本中產(chǎn)生了DGE數(shù)據(jù)，這充分說明了RNA-seq在廣泛的生物體以及系統(tǒng)中的使用，這些生物體包括玉米(Zea mays), 擬南芥(Arabiodopsis thaliana), 釀酒酵母（Saccharomyces cerevisae），小鼠(Mus musculus)以及人類。雖然RNA-seq這個(gè)術(shù)語經(jīng)常被用于那些完全不同的方法學(xué)方法和/或生物學(xué)，但是DGE分析仍然是RNA-seq（補(bǔ)充材料中的表1）的主要應(yīng)用，并被視為常規(guī)研究工具。

RNA-seq的更廣泛應(yīng)用已經(jīng)促進(jìn)了我們對(duì)生物學(xué)多方面的理解，例如通過提示mRNA剪接和非編碼RNAs和增強(qiáng)子RNAs對(duì)基因表達(dá)的調(diào)控。RNA-seq的應(yīng)用和進(jìn)步是由技術(shù)發(fā)展（濕實(shí)驗(yàn)室和計(jì)算生物學(xué)）驅(qū)動(dòng)的，相對(duì)于以前的基因芯片，RNA-seq這種方法對(duì)RNA生物學(xué)和轉(zhuǎn)錄組產(chǎn)生更豐富并且偏見更小的信息。到目前為止，從標(biāo)準(zhǔn)的RNA-seq方法衍生而來的各種RNA-seq方法幾乎有100種。Illumina的短讀長(short-read)測序平臺(tái)能對(duì)這些由大部分不同方法的RNA-seq構(gòu)建的文庫進(jìn)行測序，但是最近長讀長(long-read)RNA-seq的與直接RNA-seq測序(direct RNA sequencing, dRNA-seq)的進(jìn)步已經(jīng)能夠解決以前研究人員使用短序列手段無法解決的一些問題。

在這篇綜述中，我們首先會(huì)介紹一些最基本的短讀長RNA-seq中的DGE方法，再將這種基礎(chǔ)方法與最近新興的長讀長RNA-seq和dRNA-seq進(jìn)行比較。我們會(huì)介紹短讀長測序方法在文庫制備方面的進(jìn)展，以及實(shí)驗(yàn)設(shè)計(jì)和DGE的數(shù)據(jù)分析方法。隨后我們會(huì)拓展這些常規(guī)的RNA-seq方法，介紹一些單細(xì)胞測序和空間轉(zhuǎn)錄組學(xué)的分析。我們會(huì)提供一些案例，介紹RNA-seq在RNA生物學(xué)方面的關(guān)鍵應(yīng)用，包括轉(zhuǎn)錄組分析，翻譯動(dòng)力學(xué)，RNA結(jié)構(gòu)，RNA-RNA之間相互作用和RNA-蛋白質(zhì)的相互作用。最后，我們會(huì)簡單描述一下RNA-seq的未來，以及單細(xì)胞和空間RNA-seq方法是否會(huì)像DGE分析一樣成為常規(guī)工具，長讀長測序方法是否會(huì)取代短讀長測序方法。由于篇幅限制，我們無法介紹所有的RNA-seq方法，在這些方法中，值得注意的是非編碼轉(zhuǎn)錄組學(xué)，原核轉(zhuǎn)錄組學(xué)(prokaryotic transcriptomes)和表觀轉(zhuǎn)錄組學(xué)(epitranscriptome)。

RNA-seq技術(shù)的發(fā)展歷史

Illumina的短序列讀長測序技術(shù)生成了SRA(Short Read Archive)中95%已表達(dá)的數(shù)據(jù)（附件表2）。由于cDNA的短序列讀長測序方法幾乎是一種常規(guī)的方法，因此我們認(rèn)為這是一種最基礎(chǔ)的 RNA-seq技術(shù)，我們先來討論這種測序主要流程與局限。不過，長讀長cDNA測序與dRNA-seq已經(jīng)興起，隨著研究人員對(duì)能提供更豐富轉(zhuǎn)錄本水平方面(isoform-level)數(shù)據(jù)需求增大，這兩種新的測序方法有望對(duì)常規(guī)的短讀長測序方法提出挑戰(zhàn)(FIG1, TABLE1)。

Table1-短讀長與長讀長RNA-seq平臺(tái)

Figure 1-短讀長，長讀長和直接RNA-seq技術(shù)與工作流程

Figure 1-短讀長，長讀長和直接RNA-seq技術(shù)與工作流程。

(a)不同RNA-se方法的文庫制備，這些方法可以分為3種，分別是短讀長測序（黑色），長讀長測序（綠色），或長讀長直接RNA-seq（藍(lán)色）。根據(jù)使用的文庫制備方法不同，文庫制備會(huì)表現(xiàn)出相應(yīng)的復(fù)雜性和偏倚。短讀長與長讀長cDNA文庫在制備時(shí)有一些步驟是相同的，不過所有的方法都需要一個(gè)接頭連接步驟，并且它們都受到樣本質(zhì)量和文庫上下游計(jì)算問題的影響。

(b)三種主流的RNA-seq測序方法。

Illumina的工作流程（左邊）：文庫制備好后，每個(gè)cDNA就會(huì)在一個(gè)泳道(flowcell)上通過合成來聚集成簇，其中合成的過程使用3'阻斷的熒光標(biāo)記的核苷酸。在每一輪測序的過程中，新合成的DNA鏈就會(huì)被成像，從而檢測出參與合成的是哪種核苷酸，這種測序方法產(chǎn)生的讀長是50-500bp。

Pacific Biosciences工作流程（中間）：文庫制備好后，每個(gè)分子被加載到一個(gè)測序芯片上，在芯片上這些分子與固定到納米孔(nanowell)底部的聚合酶進(jìn)行結(jié)合。隨著每一個(gè)熒光標(biāo)記的核苷酸被整合到新合成的鏈上，這些核苷酸發(fā)出的熒光就會(huì)被檢測到，這種方法產(chǎn)生的讀長為50kb。

Oxford納米孔工作流程（右邊）：文庫制備好后，每個(gè)分子被加載到流動(dòng)室(flowccell)中，流式室中含有馬達(dá)蛋白，馬達(dá)蛋白固定在流動(dòng)室中，它可以與文庫的接頭結(jié)合。馬達(dá)蛋白控制RNA鏈通過納米孔，從而造成納米孔中電流的改變，這種技術(shù)產(chǎn)生的讀長為1-10kb。

(c) 短讀長、長讀長與直接RNA-seq分析的比較。超過90%的人類基因(gene n)存在可變剪接，它們會(huì)形成兩個(gè)或更多的可表達(dá)異構(gòu)體（轉(zhuǎn)錄本x與y）。短讀長cDNA測序中就增加了捕獲信息的復(fù)雜性，短讀長對(duì)異構(gòu)體的檢測會(huì)受到其讀長的限制，在這種技術(shù)里，短讀長無法精確地回貼（注：測序分析方法中的術(shù)語“map“在本文中都譯為”回貼“）到轉(zhuǎn)錄組上，而長讀長測序方法則能直接鑒定異構(gòu)體。在短讀長cDNA測序中，有很大比例的讀長會(huì)不明確地回貼到不同異構(gòu)相同的外顯子上；而那些跨越了外顯子-外顯子連接處的讀長可以提高對(duì)異構(gòu)體的分析效果，但是當(dāng)不同的異構(gòu)體都含有這個(gè)連接處時(shí)，這種操作意義不大。這些問題都加劇了數(shù)據(jù)分析的復(fù)雜性，以及無法對(duì)結(jié)果進(jìn)行明確地解釋。長讀長cDNA方法能夠產(chǎn)生全長的異構(gòu)體讀長，從而去除或大幅度降低這些不精確的結(jié)果，并改進(jìn)差異異構(gòu)表達(dá)的分析結(jié)果。然而這些方法依賴于cDNA的轉(zhuǎn)換，它去除了RNA堿基的修飾信息，并且只能粗略地估計(jì)多聚腺苷酸(poly(A))尾巴長度。直接RNA-seq可以進(jìn)行全長導(dǎo)構(gòu)體分析，堿基修飾檢測（例如N6-甲基腺苷(M6A)）和poly(A)尾巴長度估計(jì)。

短讀長cDNA測序

短讀長已經(jīng)成了在整個(gè)轉(zhuǎn)錄組范圍內(nèi)對(duì)基因進(jìn)行檢測和定量的事實(shí)方法(de facto method)，部分原因是這種方法比芯片成本更低，操作更方便，但是其主要原因還是因?yàn)檫@種方法能生成更全面，更高質(zhì)量的數(shù)據(jù)，這種方法能夠對(duì)整個(gè)轉(zhuǎn)錄組中的基因表達(dá)水平進(jìn)行定量。使用Illumina短讀長測序平臺(tái)進(jìn)行DGE分析的核心步驟包括：RNA提取、cDNA合成、接頭連接、PCR擴(kuò)增、測序和數(shù)據(jù)分析(FIG1)。在這個(gè)過程中，存在打斷片段，片段長度選擇和基于磁珠的文庫純化這些操作，因此這種方法產(chǎn)生的cDNA片段通常都是在200bp以下。RNA-seq文庫的測序讀長分配到每個(gè)樣本上的話，每個(gè)樣本會(huì)測到平均20-30 million條讀長(reads)（也就是常說的20-30M條讀長），數(shù)據(jù)經(jīng)過處理后，使用這些讀長對(duì)每個(gè)基因或轉(zhuǎn)錄本進(jìn)行定量，最后再用統(tǒng)計(jì)學(xué)方法來統(tǒng)計(jì)基因的差異。短讀長RNA-seq方法很穩(wěn)健，并且通過對(duì)短讀長測序技術(shù)的大范圍比較發(fā)現(xiàn)，這種技術(shù)在平臺(tái)內(nèi)和平臺(tái)間的相關(guān)性很好。但是，在樣本制備和數(shù)據(jù)分析這兩個(gè)階段會(huì)引入一些干擾和偏倚。這種局限可能會(huì)影響通過實(shí)驗(yàn)來解決特定生物學(xué)問題的能力，例如準(zhǔn)確識(shí)別和量化多個(gè)異構(gòu)體中的哪個(gè)來源于一個(gè)基因。對(duì)于研究那些非常長，高度可變的轉(zhuǎn)錄本異構(gòu)的人來說，這種局限表現(xiàn)得尤為明顯，例如在人類轉(zhuǎn)錄組研究中；人類轉(zhuǎn)錄本的長度范圍是109bp到186kb，其中50%轉(zhuǎn)錄本長度大于2500bp。盡管短讀長RNA-seq可以對(duì)最長的轉(zhuǎn)錄本進(jìn)行詳細(xì)的分析，但是涉及的實(shí)驗(yàn)方法不能擴(kuò)展到全轉(zhuǎn)錄組分析。其他的偏倚與局限來源于那些大量的計(jì)算方法，這些方法包括例如如何處理模糊或多個(gè)回貼的讀長(multi-mapped reads)?，F(xiàn)在出現(xiàn)了一種合成長讀長(synthetic long reads)的新方法，這種方法可以實(shí)現(xiàn)全長的mRNA測序，并試圖解決其中的一些局限。這種方法使用了唯一分子標(biāo)識(shí)符(unique molecular identifiers,UMI)來標(biāo)記全長的cDNA，在制備短讀長RNA文庫之前，加入的UMI會(huì)隨著單個(gè)cDNA分子而進(jìn)行復(fù)制。轉(zhuǎn)錄本異構(gòu)體可以在高達(dá)4kd的contigs中重建，用于發(fā)現(xiàn)異構(gòu)體和表達(dá)分析。但是，對(duì)于從根本上解決短讀長cDNA測序固有局限的最可能解決方案則是長讀長cDNA測序和dRNA-seq測序。

長讀長cDNA測序

雖然Illumina測序目前是占主導(dǎo)地位的RNA-seq平臺(tái)，但PacBio和Oxford Nanopore(ONT)公司都提供了可供選擇的長讀長技術(shù)，能夠?qū)ν暾膯蝹€(gè)RNA分子進(jìn)行單分子水平級(jí)的測序。通過消除短RNA-seq測序數(shù)據(jù)的組裝這一步，這些新方法克服了短讀長測序方法相關(guān)的一些問題。例如，減少了測序讀長回貼過程中的歧義，并且可以識(shí)別更長的轉(zhuǎn)錄本，這樣就能獲取更完整的異構(gòu)體多樣性信息。這些方法還能降低許多短讀長RNA-seq計(jì)算工具中關(guān)于剪接連接的假陽性。

PacBio的Iso-Seq技術(shù)可以讀取最高可達(dá)15kb的轉(zhuǎn)錄本的全長cDNA，這就有利于發(fā)現(xiàn)大量以前未注釋的轉(zhuǎn)錄本，并通過檢測物種的全長同源序列證實(shí)了早期的基因預(yù)測。在標(biāo)準(zhǔn)的Iso-Seq操作流程中，高質(zhì)量的RNA被一個(gè)模板切換凝聚力轉(zhuǎn)錄酶(a template-switching reverse transcriptase)反轉(zhuǎn)錄為全長的cDNA。生成的cDNAs再經(jīng)過PCR擴(kuò)增，加入到PacBio的單分子實(shí)時(shí)(single-molecule, real-time)文庫制備系統(tǒng)中。制備好的短轉(zhuǎn)錄本序列可以很快地?cái)U(kuò)散到測序芯片的活性表面，但由于短轉(zhuǎn)錄本的測序存在偏倚，因此在對(duì)轉(zhuǎn)錄本進(jìn)行測序時(shí)，建議選擇片段的長度是1到4kb，這樣就能在此范圍對(duì)長轉(zhuǎn)錄本和短轉(zhuǎn)錄本進(jìn)行更加均勻地采樣。由于PacBio測序方法需要大量的模板，因此需要進(jìn)行多輪PCR，不過這一操作還需要進(jìn)行優(yōu)化，從而降低擴(kuò)增導(dǎo)致的偏倚。經(jīng)過PCR的末端修復(fù)和PacBio SMRT接頭連接后，就可以進(jìn)行長讀長測序了；通過修改測序芯片的上樣條件，就可以在這一步驟進(jìn)一步控制測序片段長度。

ONT cDNA測序方法也能產(chǎn)生全長的轉(zhuǎn)錄本讀長，甚至還能在單細(xì)胞水平上產(chǎn)生該讀長。模板轉(zhuǎn)錄逆轉(zhuǎn)錄酶也在這種方法中用于制備全長cDNA，制備好的cDNA可以選擇使用PCR來進(jìn)行擴(kuò)增，隨后在產(chǎn)物上加上接頭，形成測序文庫。直接cDNA測序會(huì)消除PCR偏倚，從而形成高質(zhì)量的測序結(jié)果；但是，如果使用PCR來制備測序文庫的話，需要的RNA數(shù)量更少。ONT cDNA測序法尚未報(bào)道過在PacBio測序儀上觀察到的片段長度偏倚。

這兩種長讀長cDNA方法都受到標(biāo)準(zhǔn)模板切換逆轉(zhuǎn)錄酶使用的限制，這種逆轉(zhuǎn)錄酶能用全長RNA以及截短的RNA來生成cDNA。逆轉(zhuǎn)錄酶可以將那些只含5?帽子結(jié)構(gòu)的mRNA置換為cDNA，這樣的話，那些由于RNA降解，RNA剪接或不完全cDNA合成而生成的短轉(zhuǎn)錄本就不會(huì)被反轉(zhuǎn)錄為cDNA，從而提高數(shù)據(jù)質(zhì)量。但是，有報(bào)道指出，逆轉(zhuǎn)錄酶會(huì)對(duì)ONT平臺(tái)的讀長產(chǎn)生不良影響。

長讀長直接RNA測序

前面我們提到了長讀長測序方法，這種測序方法與短讀長測序平臺(tái)一樣，它們都依賴于將mRNA轉(zhuǎn)換為cDNA。而最近Oxford Nanopore指出，他們的納米孔測序技術(shù)可以直接對(duì)RNA進(jìn)行測序，也就是說，這種測序手段不需要常規(guī)測建庫過程中的的cDNA的合成和/或PCR擴(kuò)增操作。這種方法稱為dRNA-seq，這種方法就消除了常規(guī)建庫過程中的偏倚，并且能夠保留表觀遺傳學(xué)信息。這種方法可以從RNA直接進(jìn)行兩個(gè)接頭的連接來制備文庫。首先，帶有一個(gè)oligo(dT)懸臂的雙鏈核酸接頭退火并連接到RNA的多聚腺苷酸(PolyA)尾部，隨后就是可選（但不推薦的）的逆轉(zhuǎn)錄操作，這一步用于提高測序的通量。第二個(gè)連接操作就是添加測序接頭，這個(gè)測序接頭上已經(jīng)提前安裝有驅(qū)動(dòng)測序的馬達(dá)蛋白。文庫隨后進(jìn)行MinION測序，其中RNA直接從3?poly(A)尾部向5?cap端進(jìn)行測序。最初的研究表明，dRNA-seq的測序長度過超過1000bp，最大測序長度過超過10kb。與短讀長測序相比，這種長讀長測序的幾個(gè)優(yōu)勢在于：長讀長測序可以提高對(duì)異構(gòu)體的檢測，并且它們還可以用于下方代碼poly(A)尾巴的長度，這對(duì)于可變poly(A)分析（ alternative poly(A) analysis）來說非常重要。Nanopolish-polya這個(gè)工具可以對(duì)那些用納米孔測序得到的數(shù)據(jù)進(jìn)行分析，計(jì)算出poly(A)尾的長度，這就包括基因之間的長度，也包括轉(zhuǎn)錄亞型之間的長度。這種分析證實(shí)了，保留內(nèi)含子的轉(zhuǎn)錄本比完全剪接的轉(zhuǎn)錄本具有略長的poly(A)尾巴。雖然dRNA-seq還處于起步階段，但是它具有檢測RNA堿基修飾的潛力，因此它的應(yīng)用潛力巨大，尤其是能夠?qū)Ρ碛^遺傳學(xué)轉(zhuǎn)錄進(jìn)行新的分析。

長讀長與短讀長技術(shù)的比較

雖然長讀長技術(shù)在評(píng)估轉(zhuǎn)錄本方面比短讀長技術(shù)有一些明顯的優(yōu)勢，但是長讀長技術(shù)也有一些明顯的局限。尤其是與短讀長技術(shù)相比，長讀長技術(shù)的測序通量更低，錯(cuò)誤率更多。但長讀長技術(shù)的主要優(yōu)勢在于，它們能夠捕獲更多的單個(gè)轉(zhuǎn)錄本，不過這依賴于高質(zhì)量的RNA文庫。總體來說，這些局限影響了那些完全依賴于長讀長測序?qū)嶒?yàn)的靈敏性(sensitivity)與特異性(specificity)。

長讀長測序方法的主要局限就是當(dāng)前的通量。在Illumina平臺(tái)上，運(yùn)行單次的RNA-seq可以生成10E9-10E10條短讀長，但是在PacBio和ONT平臺(tái)上，一次RNA-seq則只能產(chǎn)生10E6-10E7條讀長。這種低通量限制了應(yīng)用長讀長測序技術(shù)進(jìn)行實(shí)驗(yàn)的規(guī)模，并降低了對(duì)差異基因表達(dá)檢測的靈敏性。然而，并非所有的實(shí)驗(yàn)都需要高深度測序。對(duì)于那些主要研究異構(gòu)體的發(fā)現(xiàn)以及其特征的研究者們來說，測序長度比測序深度更重要。例如1百萬個(gè)PacBio環(huán)形一致性測序(circular consensus-sequencing, CCS)的讀長幾乎就可以保證產(chǎn)生那些大于1kb的高表達(dá)基因的檢測，ONT測序技術(shù)也是如此。因此，對(duì)于那些低到中等水平表達(dá)的基因來說，測序深度確實(shí)是一個(gè)主要問題。當(dāng)進(jìn)行同期功能基因組學(xué)分析(contemporary functional genomics analysis)大規(guī)模的DGE實(shí)驗(yàn)時(shí)，這種低通量測序技術(shù)的局限就會(huì)表現(xiàn)得明顯。在這些研究中，必須對(duì)多個(gè)樣本組進(jìn)行分析，每組就是由多個(gè)生物學(xué)重復(fù)構(gòu)成的，這樣就能夠?qū)崿F(xiàn)充分的統(tǒng)計(jì)功效來有確認(rèn)那些在整個(gè)轉(zhuǎn)錄組水平上發(fā)生的精確變化。對(duì)于這種需求，長讀長技術(shù)不太可能取代短讀長技術(shù)，除非長讀長的測序讀長的生成量能提高2個(gè)數(shù)量級(jí)。隨著全長RNA-seq讀長數(shù)目的增加，轉(zhuǎn)錄本檢測的靈敏度將會(huì)增加到類似于Illumina平臺(tái)上的這種水平，并同時(shí)具有更高的特異性。與此同時(shí)，通過將Illumina 的短讀長RNA-Seq與PacBio的長讀長Iso-Seq結(jié)合(并且可能還與ONT方法結(jié)合)，可以增加全長RefSeq注釋的異構(gòu)體檢測的數(shù)量、靈敏性和特異性，同時(shí)保留轉(zhuǎn)錄本量化的質(zhì)量。雖然長讀長RNA-seq方法目前的實(shí)驗(yàn)成本較高，但它們可以檢測到短讀長方法遺漏的異構(gòu)體，尤其是那些難以測序但與臨床相關(guān)的區(qū)域，例如高度多態(tài)的人類MHC或雄激素受體。

長讀長測序平臺(tái)的第二個(gè)主要局限就是其更高的錯(cuò)誤率，它比成熟的Illumina測序儀要高出一到兩個(gè)數(shù)量級(jí)。長讀長測序平臺(tái)上生成的數(shù)據(jù)還包含更多的插入-刪除錯(cuò)誤。雖然這些錯(cuò)誤與識(shí)別變化(variant calling)有關(guān)，但在RNA-seq中，每個(gè)堿基都被正確識(shí)別并非那么重要而長讀長測序的目標(biāo)是要闡明轉(zhuǎn)錄本和異構(gòu)體（While these error rates are of concern for variant calling, in RNA- seq it is less crucial that every base be called correctly, as the goal is only to disambiguate transcripts and isoforms）。這種錯(cuò)誤率對(duì)于其應(yīng)用來說確實(shí)是一個(gè)值得觀注的問題，現(xiàn)在正在解決這一問題。PacBio SMRT測序平臺(tái)上出現(xiàn)的隨機(jī)錯(cuò)誤通常可以通過使用CCS增加測序深度來進(jìn)行解決，在這種技術(shù)里，cDNA經(jīng)過長度選擇和接頭進(jìn)行環(huán)化后，每個(gè)分子就可以被多次測序，從而產(chǎn)生長度范圍是10-60kb的連續(xù)長讀長，并且包含許多原始cDNA的拷貝。這些長讀長經(jīng)過數(shù)據(jù)分析后就被處理為單個(gè)cDNA子子讀長(subreads)，這些子讀長被組合后就可以產(chǎn)生一致的序列。分子測序的次數(shù)越多，產(chǎn)生的錯(cuò)誤率就越低；CCS已經(jīng)被證明可以將錯(cuò)誤率降低到與短讀長相當(dāng)?shù)乃?，甚至更低。但是，將更多的這個(gè)平臺(tái)的測序能力用于重新讀取相同的分子，就又加劇了其測序通量的問題，因?yàn)榭梢宰x取的唯一轉(zhuǎn)錄本變得更少了。

長讀長RNA-seq方法的靈敏度還受到其他幾個(gè)因素的限制。首先，它們依賴于長RNA分子以全長轉(zhuǎn)錄本的形式進(jìn)行測序，但是要達(dá)到這種情況并非總能實(shí)現(xiàn)，因?yàn)樵跇悠诽幚砗蚏NA提取過程中RNA會(huì)發(fā)生降解或剪接。這種情況在短讀長RNA-seq中也存在（3?端的偏倚），但這種問題在短讀長中是可控的，對(duì)于全長轉(zhuǎn)錄組分析進(jìn)行研究的研究者們來說，即使是低水平的RNA降解，也能限制長讀長的RNA-seq效果。因此，對(duì)于那些即將使用長讀長進(jìn)行測序的研究者來說，需要仔細(xì)地對(duì)提取的RNA進(jìn)行質(zhì)控。其次，中位數(shù)的讀長長度會(huì)進(jìn)一步受到文庫制備中的技術(shù)問題與偏倚的限制，例如有些cDNA合成的截?cái)嗷蚰承ヽDNA是由降解的mRNA合成的，最近開發(fā)的高效逆轉(zhuǎn)錄酶對(duì)此有所改進(jìn)，這些酶有著更高的鏈特異性，甚至能夠產(chǎn)生更多的3?-5?轉(zhuǎn)錄本的覆蓋。雖然這些酶還未被廣泛使用，但是這些高效逆轉(zhuǎn)錄酶也提高了結(jié)構(gòu)穩(wěn)定的RNAs，例如tRNAs的覆蓋率，在oligo-dT和全轉(zhuǎn)錄組分析(WTA)方法中使用的逆轉(zhuǎn)錄酶很難處理這些結(jié)構(gòu)穩(wěn)定的RNAs。第三，長讀長測序平臺(tái)固有的偏倚（例如長文庫分子在測序芯片表面上的低擴(kuò)散）會(huì)降低更長轉(zhuǎn)錄本的覆蓋率。

長讀長方法(使用cDNA或dRNA-seq)解決了用于異構(gòu)體分析的短讀長測序方法中的一個(gè)基本問題，即它們的讀長長度。長讀長方法可以生成從Poly(A)尾部到5?cap的跨異構(gòu)體的全長轉(zhuǎn)錄本讀長。因此，這些方法使得分析轉(zhuǎn)錄本及其異構(gòu)體成為可能，從而無需從短的讀長中重構(gòu)它們或推斷它們的存在；每個(gè)測序的讀長僅僅代表了它的起始RNA分子。全長cDNA測序或dRNA-seq用于分析DGE的未來應(yīng)用將依賴于PacBio和ONT技術(shù)的更高通量。長讀長RNA-seq分析正被研究者們迅速采用，并與深度短讀長RNA-seq數(shù)據(jù)結(jié)合起來，用于更全面的分析，這非常類似于基因組組裝所采取的混合方法。隨著時(shí)間的推移，長讀長和dRNA-seq方法可能會(huì)用于證明已經(jīng)鑒定的基因和轉(zhuǎn)錄本的列表，即使在研究很透的生物中，對(duì)于基因和轉(zhuǎn)錄本的研究也還遠(yuǎn)遠(yuǎn)不夠。隨著方法的成熟，以及測序通量的增加，差異轉(zhuǎn)錄本分析將會(huì)成為常規(guī)方法。合成長讀長RNA-seq或其它技術(shù)的發(fā)展將對(duì)這個(gè)領(lǐng)域產(chǎn)生什么樣的影響，還有待觀察。然而從目前來看，Illumina短讀長RNA-seq依然占據(jù)了主導(dǎo)地位，在這篇綜述的剩下部分中我們將會(huì)集中討論短讀長測序。

改良RNA-seq建庫方法

RNA-seq最初用于分析多聚腺苷酸化的轉(zhuǎn)錄本，使用的方法源于早期的表達(dá)序列標(biāo)簽(expressed-sequence tag)和芯片研究。然而，下一代測序的使用指出了這些方法的局限性，而這些局限性在芯片數(shù)據(jù)中并不明顯。因此，在RNA-seq首次報(bào)道后不久，就有研究報(bào)道了文庫制備方法的一些重大進(jìn)展。例如，在cDNA合成之前，對(duì)RNA進(jìn)行片段化可以產(chǎn)生3?:5?偏倚，鏈特異性文庫制備方法能夠更好的區(qū)分正義鏈與反義鏈，這些改進(jìn)都能夠?qū)D(zhuǎn)錄本豐度進(jìn)行更準(zhǔn)確的估計(jì)。RNA片段化和鏈特異性文的制備很快就成了RNA-seq文庫制備試劑盒中的標(biāo)準(zhǔn)方法。這里我們簡要描述了其它RNA-seq方法的改良，使用這些改進(jìn)方法的可以讓研究者們根據(jù)他們的生物學(xué)問題以及特定樣本進(jìn)行選擇。這些改進(jìn)的方法包括在選擇RNA進(jìn)行測序時(shí)，取代dligo-dT富集的替代方法，或者是那些專門選擇轉(zhuǎn)錄本的3?或5?末端的方法，或者是使用UMIs進(jìn)行區(qū)分技術(shù)重復(fù)和生物重復(fù)的方法，以及針對(duì)RNA易降解特性改良的文庫制備方法。這些方法的組合可以使研究者們闡明由可變poly(A)(alternative poly(A),APA)，或替代啟動(dòng)子(alternative promoter)使用和可變剪接(alternative splicing)生成的復(fù)雜轉(zhuǎn)錄本。

Poly(A)富集的替代方法

大多數(shù)發(fā)表的RNA-seq數(shù)據(jù)都是基于oligo-dT富集的mRNA方法，這種方法會(huì)選擇包含poly(A)尾的轉(zhuǎn)錄本，并將集中測序測序那些在轉(zhuǎn)錄組的蛋白質(zhì)編碼區(qū)上。不過這種方法除了產(chǎn)生3?偏倚外，RNA中還有許多非編碼RNA，例如miRNA和增強(qiáng)子RNA，這些RNA不含有poly(A)，因此不能使用這種方法進(jìn)行研究。如果不進(jìn)行poly(A)富集也無法達(dá)到目的，因?yàn)檫@會(huì)導(dǎo)致高達(dá)95%的讀長來源于rRNA。因此，研究者們可以選擇使用oligo-dT用于mRNA-seq，或者是剔除rRNA后進(jìn)行WTA。短的非編碼RNAs無法被oligo-dT方法捕獲，使用WTA也很難對(duì)其進(jìn)行研究，因此在研究非編碼短RNA時(shí)需要特定的小RNA方法，這些方法主要是通過順序RNA連接(sequential RNA ligation)實(shí)現(xiàn)的（通常小RNA建庫試劑盒中就有相應(yīng)的說明）。

WTA生成的RNA-seq數(shù)據(jù)來源于編碼和一些非編碼RNA。RNA的部分降解也能使用這種方法進(jìn)行測序，RNA的降解會(huì)導(dǎo)致一些poly(A)從轉(zhuǎn)錄的末端分離。rRNA的去除有兩種方法，一種是將rRNAs從其它RNA中剔除掉（所謂的pull-out法），另一種就是使用RNAse H酶來對(duì)rRNA進(jìn)行降解。這兩種方法都是使用序列特異性和物種特異性寡核苷酸探索來實(shí)現(xiàn)的，這些探針能與細(xì)胞質(zhì)rRNA(5S rRNA，5.8S rRNA，18S rRNA和28S rRNA)和線粒體rRNA(12S rRNA和16S rRNA)互補(bǔ)。為了簡化人類，大鼠，小鼠或細(xì)菌(16S和23S rRNA)樣本的處理，通常將預(yù)先混合的寡核苷酸添加到RNA中，然后讓它們與rRNA進(jìn)行雜交，以便進(jìn)行下一步的清除。其它高豐度的轉(zhuǎn)錄本，例如珠蛋白(globin)或線粒體RNA也可以按照類似的方法去除。pull-out方法結(jié)合了生物素化的探針和鏈霉素包裹的磁珠，它們可以用于除去寡聚的rRNA復(fù)合物，留下剩余的RNA用于建庫例如Ribo-Zero(Illumina，USA)和RiboMinus(Thermo Fisher，USA)。RNase H酶降解法可以降低那些生成的loigo-DNA:RNA復(fù)合物，例如，NEBNext RNA depletion(NEB，USA)和RiboErase(Kapa Biossystems，USA)。最近對(duì)這些方法的比較說明，在高質(zhì)量的RNA中，這兩種方法都可以將rRNA降低至后續(xù)RNA-seq讀長的20%以下。但是，作者說明了，RNase H方法比pull-out法的穩(wěn)定性要強(qiáng)，并且比較不同試劑盒時(shí)，最后得到的DGE長度的偏倚比較明顯。作者還描述了另外一種類似于RNase H的方法，這種方法表現(xiàn)不錯(cuò)，并且以前沒有報(bào)道過。ZapR方法是Takara Bio的一項(xiàng)專有技術(shù)，它使用一種酶來降解RNA-seq文中的rRNA片段。rRNA剔除方法的一個(gè)局限是，相比對(duì)oligo-dT RNA測序方法，rRNA剔除方法需要更高的測序深度，主要是因?yàn)槔锩孢€會(huì)存有一定的rRNA。

Oligo-dT和rRNA剔除法都可以用于后續(xù)實(shí)驗(yàn)的DGE分析，研究者們可能會(huì)默認(rèn)使用以前在他們的實(shí)驗(yàn)室中使用的方法或最容易使用的方法。然而，對(duì)于這些方法的使用應(yīng)該考慮一些因素，尤其是那些易降解的樣本，另外，WTA方法會(huì)檢測到更多的轉(zhuǎn)錄本，但是其實(shí)驗(yàn)成本要高于oligo-dT方法。

富集的RNA 3?末端用于Tag RNA-seq以及可變多聚腺苷酸分析(Enriching RNA 3?ends for Tag RNA- seq and alternative polyadenylation analysis.)

標(biāo)準(zhǔn)的短讀長Illumina方法需要對(duì)每個(gè)樣本生成1000萬到3000萬條（10M到30M條）讀長用于高質(zhì)量的DGE分析。對(duì)于那些專注于基因水平表達(dá)，并從事大型或高度重復(fù)實(shí)驗(yàn)的研究者們，或資源受限的研究者來說，可以選擇使用3?tag計(jì)數(shù)。由于測序集中在轉(zhuǎn)錄本的3?末端，因此需要的讀長(reads)更少，這就降低了成本，并且一次測序的樣本數(shù)目也可以更多。富集的3?末端也可以用于確定單個(gè)轉(zhuǎn)錄本的poly(A)位點(diǎn)，而由于mRNA前體上存在的APA，其3‘末端可能會(huì)發(fā)生變化。（群主批注：目前單細(xì)胞轉(zhuǎn)錄組商業(yè)王者10X就是采用這種方法，僅僅是對(duì)3?末端測序）

3? mRNA-seq方法會(huì)產(chǎn)生每個(gè)轉(zhuǎn)錄本的單個(gè)標(biāo)簽讀長(tag read)，這些讀長來源于3?末端，這個(gè)標(biāo)簽(tag)豐度與轉(zhuǎn)錄本的豐度是成正比的。標(biāo)簽測序法(tag-sequencing protocols)，例如QuantSeq(Lexogen, Austria)通常比標(biāo)準(zhǔn)RNA-seq法流程更為簡單。標(biāo)簽測序法已經(jīng)進(jìn)行了優(yōu)化，這種方法使隨機(jī)引物或錨定的oligo-dT-primed來進(jìn)行cDNA合成，從而并不需要poly(A)富集這一步驟，并在cDNA合成后立即進(jìn)行PCR，從而取代了接頭連接步驟。這種方法可以在低測序深度上實(shí)現(xiàn)與標(biāo)準(zhǔn)RNA-seq類似的靈敏度水平，因此，這種方法可以使用多路復(fù)用的形式實(shí)現(xiàn)多個(gè)文庫的同步測序。這種建庫方法的數(shù)據(jù)分析也進(jìn)行了簡化，因?yàn)椴恍枰怙@子連接檢測和基因長度測序讀長的歸一化。但是，3? mRNA-seq方法可能會(huì)被受到轉(zhuǎn)錄本同聚區(qū)(homopolymeric regions0的影響，這會(huì)導(dǎo)致錯(cuò)誤標(biāo)簽；這種方法只能提供非常有限的異構(gòu)體分析，這就會(huì)抵消它們較低測序深度帶來的任何成本收益，尤其是對(duì)于那些僅夠一次使用的樣本來說。

mRNAs的APA化會(huì)產(chǎn)生3? UTR長度不等的異構(gòu)體。對(duì)于一個(gè)特定的基因來說，它不僅產(chǎn)生了這個(gè)基因的多個(gè)亞型，而且由于3?UTR中存在著順式調(diào)控元件，這也會(huì)影響該轉(zhuǎn)錄本的調(diào)控。這種方法可以使用那些研究APA的研究者們更詳細(xì)地研究miRNA的調(diào)控作用，mRNA的穩(wěn)定和定位，以及mRNA的翻譯。APA法指在富集轉(zhuǎn)錄本的3?末端，從而提升信號(hào)與靈敏度，而前面提到的標(biāo)簽測序法非常適合此目的。其它方法多聚腺苷酸位點(diǎn)測序(polyadenylation site sequencing,PAS-seq)，這種方法可以將mRNA打斷為150bp左右的片段，并且使用oligo-dT標(biāo)記的模板轉(zhuǎn)換來生成cDNA用于測序，其中的80%讀長就來源于3?UTR。TAIL-seq方法能不使用oligo-dT，在對(duì)RNA進(jìn)行打斷之前，這種方法會(huì)剔除rRNA，并將3?-RNA接頭連到的poly(A)的尾部。當(dāng)片段化后，再加上5?-RNA接頭就完成了RNA-seq文庫的制備。在RNA-蛋白分析方法中也能評(píng)估APA，例如紫外交聯(lián)免疫沉淀(cross- linking immunoprecipitation, CLIP)測序。

富集的RNA 5?末端用于起始位點(diǎn)回貼(Enriching RNA 5?ends for transcription start- site mapping)

使用富集7-甲基鳥苷5?加帽RNA(7-methylguanosine 5?-capped RNA)也可以進(jìn)行DGE分析，這種方法可以用來鑒定啟動(dòng)子和轉(zhuǎn)錄起始位點(diǎn)(TSSs)?，F(xiàn)存有幾種方法都可以實(shí)現(xiàn)這個(gè)目的，但是這些方法很少作為常規(guī)手段來進(jìn)行使用。在對(duì)基因表達(dá)的加帽分析(CAGE, cap analysis of gene expression)，以及用于基因表達(dá)分析的啟動(dòng)子的RNA注釋和定位(RAMPAGE, RNA annotation and mapping of promoters for analysis of gene expression)分析中，當(dāng)使用隨機(jī)引物生成第一鏈cDNA后，mRNA 5?的帽子結(jié)構(gòu)就被生物素化，這就可以將5? cDNA通過鏈霉親和素進(jìn)行富集。CAGE使用II型限制性內(nèi)切酶來生成短的cDNA標(biāo)簽，這種酶會(huì)從5?端的接頭下游切割21-27p的核核苷酸。相比之下，RAMPAGE操作則使用模板轉(zhuǎn)換(template switching)來生成較長的cDNA，這個(gè)cDNAs隨后被富集起來，用于測序。單細(xì)胞標(biāo)簽?zāi)孓D(zhuǎn)錄測序技術(shù)(single-cell-tagged reverse transcription sequencing, STRT-seq)能夠在單細(xì)胞水平上實(shí)現(xiàn)TSS的回貼(mapping)。STRT-seq技術(shù)使用生物素化的模板轉(zhuǎn)換oligos來生成cDNA，被磁珠捕獲后，就在5?末端進(jìn)行片段化，產(chǎn)生短的cDNA標(biāo)簽。作為CAGE基礎(chǔ)的5?末端的加帽技術(shù)是由日本理化所(Riken)開發(fā)的，這種技術(shù)用于早期功能基因組學(xué)實(shí)驗(yàn)中，使全長cDNA克隆數(shù)量最大化。日本理化所主導(dǎo)的小鼠功能注釋(FANTOM, Functional Annotation of the Mouse)協(xié)會(huì)通過闡明了1300多個(gè)人類和小鼠原代細(xì)胞，組織和細(xì)胞系的TSS，這充分顯示了CAGE的強(qiáng)大。在最近一些方法比較中，CAGE也表示不俗。但是作者卻報(bào)道說，僅使用5?末端測序產(chǎn)生的假陽性TSS峰也是最多的，他們建議使用正交方法進(jìn)一步來確認(rèn)陽性，例如DNase I的回貼或H3K4me3染色質(zhì)免疫沉淀測序(ChIP-seq)。

使用唯一分子標(biāo)識(shí)符來檢測PCR重復(fù)

RNA-seq數(shù)據(jù)通常具有較高的重復(fù)率(duplication rates)，也就是說許多測序讀長會(huì)回貼到轉(zhuǎn)錄組的相同位置。與全基因組測序不同的是，在全基因組測序中，重復(fù)的讀長被以認(rèn)為是PCR這一步中出現(xiàn)的技術(shù)偏倚導(dǎo)致的，它會(huì)被移除，而在RNA-seq中，這些重復(fù)的讀長則被認(rèn)為是真正的生物學(xué)信號(hào)并被保留。在一個(gè)樣本中，數(shù)百萬個(gè)起始RNA分子也許代表了高表達(dá)的轉(zhuǎn)錄本，當(dāng)對(duì)cDNA進(jìn)行測序時(shí)，就會(huì)發(fā)現(xiàn)很多片段是相同的。因此，在比對(duì)(alignment)過程中，并不建議通過計(jì)算去除那些不必要的重復(fù)，因?yàn)檫@些重復(fù)中很多是真正的生物信號(hào)。當(dāng)使用單端測序(single-end sequencing)時(shí)更是如此，因?yàn)橐粚?duì)片段中只要一端相同，就可以被認(rèn)為是一個(gè)重復(fù)(duplicate)，至于雙端測序(paired-end sequencing)，兩端必須在同一位置時(shí)才能被認(rèn)為是一個(gè)重復(fù)，但這種情況很少。但是，由于PCR偏倚，在制備cDNA文庫時(shí)，還會(huì)存在著某種程度上技術(shù)重復(fù)，并且PCR復(fù)制偏倚是一種質(zhì)控問題，它有可能對(duì)RNA-seq實(shí)驗(yàn)結(jié)果造成影響時(shí)，很難區(qū)分出這些技術(shù)重復(fù)與生物重復(fù)的程度。

現(xiàn)在已經(jīng)提到將UMIs作為一種解釋擴(kuò)增偏倚的方法。在擴(kuò)增前將隨機(jī)UMIs添加到cDNA分子中，使得能夠確認(rèn)PCR重復(fù)，并且可以在后續(xù)的數(shù)據(jù)分析中將其除去，同時(shí)保護(hù)真正的生物學(xué)重復(fù)，從而改善基因表達(dá)的量化和等位基因頻率估計(jì)的效果。當(dāng)一對(duì)測序讀長被確認(rèn)為一個(gè)技術(shù)重復(fù)時(shí)，它們應(yīng)該包括相同的UMI，并且被回貼到轉(zhuǎn)錄組中相同的位置（一端或兩端，這取決于使用的是單端測序還是雙端測序）。

UMIs已經(jīng)被證明能夠降低變異和錯(cuò)誤發(fā)現(xiàn)率來提升RNA-seq中的DGE數(shù)據(jù)分析，并且這種方法在單細(xì)胞數(shù)據(jù)分析方面也有著重要作用，單細(xì)胞數(shù)據(jù)中的擴(kuò)增偏倚可能更為嚴(yán)重。當(dāng)試圖在RNA-seq數(shù)據(jù)中進(jìn)行變異檢測(variant calling)時(shí)，UMIs也非常有用。雖然高表達(dá)的轉(zhuǎn)錄本可以產(chǎn)生適合這種變異檢測的高覆蓋率，尤其是包含了了這種重復(fù)時(shí)，但UMIs可以用于去他可能導(dǎo)致第二位基因頻率錯(cuò)誤計(jì)算的擴(kuò)增假象。UMIs正在成為單細(xì)胞RNA-seq(scRNA-seq)的文庫制備試劑盒中的標(biāo)準(zhǔn)，同時(shí)它也日益頻繁地用于常規(guī)RNA-seq。

提高降解RNA的分析

RNA-seq文庫制備方法的發(fā)展也改進(jìn)了低質(zhì)量或降解RNA的分析，例如從臨床相關(guān)獲得的那些用福爾馬林固定石蠟包埋(FFPE)塊存儲(chǔ)的樣本中的RNA。低質(zhì)量的RNA會(huì)導(dǎo)致不均勻的基因覆蓋率，更高的DGE假陽性率和更高的重復(fù)率，它們與文庫的復(fù)雜性呈負(fù)相關(guān)。但是，文庫的制備方法已經(jīng)被改良，改良后的方法能降低RNA降解的影響。這些方法可能在基于RNA-seq的診斷技術(shù)的發(fā)展中顯得尤為重要，例如將來有可能出現(xiàn)的類似于OncotypeDX（目前并不是測序分析）的診斷，這種試劑盒基于21個(gè)基因RNA的標(biāo)簽來預(yù)測乳腺癌的復(fù)發(fā)。雖然現(xiàn)在有幾種方法可以使用，但是比較后發(fā)現(xiàn)兩種方法表現(xiàn)最好，即RNase H與RNA exome。我們前面提到，RNase H法使用核酸本科來降低RNA:DNA復(fù)合物中的rRNA，但是它卻能阻止mRNA的降解。RNA exome方法使用類似于外顯子測序(exome sequencing)那樣的方法，使用寡核苷酸探針來捕獲RNA-seq文庫分子。這兩種方法都能通過減少rRNA，同時(shí)不影響mRNA的手段來產(chǎn)生高質(zhì)量和高度一致的基因表達(dá)數(shù)據(jù)。3?末端標(biāo)記測序技術(shù)與擴(kuò)增子測序（在PCR擴(kuò)增中能產(chǎn)生超過2萬個(gè)外顯子擴(kuò)增子）方法也可以用于分析降低的RNA，但是這兩種方法并沒有RNase H方法使用廣泛。

設(shè)計(jì)更好的RNA-seq實(shí)驗(yàn)

仔細(xì)設(shè)計(jì)DGE RNA-seq實(shí)驗(yàn)對(duì)于獲取高質(zhì)量和生物意義數(shù)據(jù)有著非常重要的意義。尤其是要考慮到復(fù)制的層次，測序深度以及單端還是雙端測序。

重復(fù)與實(shí)驗(yàn)功效(replication and experimental power)

在一個(gè)實(shí)驗(yàn)中，足夠的生物學(xué)重復(fù)(biological replicates)能夠捕獲不同樣本之間的生物學(xué)變異；在定量分析中的置信度依賴于測序深度與讀長長度。雖然RNA-seq比芯片表現(xiàn)了更低的技術(shù)偏倚，但是生物系統(tǒng)中固有的隨機(jī)變化都要求任何RNA-seq實(shí)驗(yàn)要做生物學(xué)重復(fù)。使用額外的重復(fù)能夠確定異常樣本，在必要情況下，在進(jìn)行生物學(xué)分析之前，移除這些異常樣本或降低這些異常樣本的權(quán)重。確定生物學(xué)重復(fù)需要考慮幾個(gè)因素，包括效應(yīng)大小(effect size)，組內(nèi)變異，可接受的假陽性和假陰性閾值，以及最大樣本數(shù)目，有的時(shí)候還需要RNA-seq實(shí)驗(yàn)設(shè)計(jì)工具或功效(power)計(jì)算工具的輔助。

在一個(gè)實(shí)驗(yàn)中要想確定一個(gè)合適的生物學(xué)重復(fù)并非是一件簡單的事情。一項(xiàng)48個(gè)重復(fù)的酵母研究表明，當(dāng)使用3個(gè)生物學(xué)重復(fù)時(shí)，計(jì)算樣本用于DGE分析的工具只能檢測出20-40%的差異表達(dá)基因。研究表明，至少應(yīng)該使用6個(gè)生物學(xué)重復(fù)，這個(gè)數(shù)量要超過文獻(xiàn)中常用的3到4個(gè)生物重復(fù)的數(shù)量。最近的一項(xiàng)研究表明，4個(gè)生物學(xué)重復(fù)可能足夠的，但是研究指出，在確定合適的重復(fù)數(shù)目之前，需要做一個(gè)預(yù)實(shí)驗(yàn)來確定生物樣本的方差。對(duì)于高度多樣化的樣本，例如來自癌癥患者腫瘤的臨床組織，可能需要更多的重復(fù)，以便能以更高的置信度來確定基因的變化。

確定合適的讀取深度(Determining the optimal read depth)

一旦文制備好，就需要決定對(duì)它們進(jìn)行多深的測序。讀取深度指的是，每個(gè)樣本獲得的測序讀長的目標(biāo)數(shù)目。對(duì)于真核基因組中的常規(guī)RNA-seq DGE分析來說，一般認(rèn)為每個(gè)樣本需要100萬-300萬條讀長（也就是我們常說的10M到30M數(shù)量）。但是，在多個(gè)物種中的實(shí)驗(yàn)結(jié)果顯示當(dāng)每個(gè)樣本的測序讀長數(shù)量為1M時(shí)，那么這個(gè)數(shù)量級(jí)的測序讀長提供的轉(zhuǎn)錄本豐度信息與轉(zhuǎn)錄組中表達(dá)最高表達(dá)量的一半的轉(zhuǎn)錄本30M測序提供的豐度信息類似。如果實(shí)驗(yàn)的重點(diǎn)是關(guān)注那些最高表達(dá)相對(duì)較大變化的基因，并且如果有足夠的生物學(xué)重復(fù)，那么就可以使用較低深度的測序就能解決驅(qū)動(dòng)實(shí)驗(yàn)的假設(shè)。測序完成后，通過檢查讀長在樣本之間的分布以及檢查飽和曲線就能評(píng)估進(jìn)一步的測序能夠增加實(shí)驗(yàn)的靈敏度。隨著測序通量的增加，為了控制技術(shù)偏倚，可以將一個(gè)實(shí)驗(yàn)的所有樣本都添加一個(gè)“混合”文庫中進(jìn)行測序，這已經(jīng)成了標(biāo)準(zhǔn)做法。一次測序所需要讀長總數(shù)則是樣本數(shù)乘以讀取深度；然后根據(jù)生成所需的讀長總數(shù)來對(duì)這個(gè)混合文庫進(jìn)行多次測序。這種合并需要嚴(yán)格檢測每個(gè)樣本RNA-seq文庫的濃度，并假設(shè)每個(gè)文庫中的cDNA量相對(duì)均值（低方差），因此總的讀長數(shù)目就會(huì)平均地分布在每個(gè)樣本上。在進(jìn)行一次昂貴的，多泳道(lane)測序之前，運(yùn)行單個(gè)泳道以驗(yàn)證樣本之間的低方差通常是值得的。

選擇參數(shù)：測序長度，單端測序或雙端測序

最終的測序參數(shù)包括測序長度，單端測序還是雙端測序。在許多測序應(yīng)用中，測序讀長的長度對(duì)于數(shù)據(jù)的利用有著重要的影響，因此更長的讀長可以使測序的DNA覆蓋率更高。當(dāng)使用RNA-seq來進(jìn)行DGE分析時(shí)這種方法并不適用，其中重要的原因則是，確定每個(gè)讀長來源于轉(zhuǎn)錄組的哪個(gè)位置的能力有限。一旦一個(gè)讀長能夠明確其回貼位置，那么較長的讀長在基于量化的分析中就不會(huì)再提供太多的價(jià)值。對(duì)于那些更定性的RNA-seq分析來說，例如特定異構(gòu)體的鑒定，更長的讀長可能更有用。

單端測序與雙端測面臨的問題是類似的。在單端測序中，每個(gè)cDNA片段只有一個(gè)末端(3?端或5?端)用于產(chǎn)生測序讀長，但雙端測序則是一個(gè)片段產(chǎn)生2條讀長（一個(gè)是3?端，一個(gè)是5?端）。在那些需要盡可能高的核苷酸覆蓋率的分析實(shí)驗(yàn)中，長讀長雙端測序可能更好。然后，DGE分析不需要對(duì)轉(zhuǎn)錄本片段的每個(gè)堿基都進(jìn)行測序，在DGE分析中，研究者只需要比對(duì)后，統(tǒng)計(jì)出那些回貼到轉(zhuǎn)錄本上的讀長數(shù)目即可。例如，通過比較測序讀長發(fā)現(xiàn)，“短”的50bp單端測序與“長”的100bp雙端測序所產(chǎn)生的DGE結(jié)果沒有區(qū)別。這是因?yàn)閱味藴y序足以鑒定出大多數(shù)測序片段來源的基因。同樣的研究表明，使用短的單端測序降低了檢測出異構(gòu)體的能力，因?yàn)榭缭郊艚舆B接的讀長較少。雙端測序還有助于消除讀長回貼的歧義，并對(duì)可變外顯子量化(alternative-exon quantification)，融合轉(zhuǎn)錄本檢測和從頭開始(de novo)的轉(zhuǎn)錄本發(fā)現(xiàn)，尤其是處理那些沒有很好注釋的轉(zhuǎn)錄本來說，雙端測序更是首選。

在實(shí)際應(yīng)用中，單端測序或雙端測序之間的選擇通?；诔杀净蜓芯空邆兛捎玫臏y序技術(shù)。在Illumina NovaSeq發(fā)布之前，在多數(shù)情況下，每M讀長的單端測序的成本要低于雙端測序，因此，在相同實(shí)驗(yàn)成本的前提下，單端測序能夠?qū)崿F(xiàn)更高的復(fù)制或讀長深度。

在Illumina NovaSeq發(fā)布之前，在大多數(shù)情況下，單端測序的每百萬次讀取的成本低于成對(duì)末端測序，因此允許以相同的實(shí)驗(yàn)成本進(jìn)行更高的復(fù)制或讀取深度。當(dāng)選擇了更多的短單端測序讀長和產(chǎn)生更長的雙端測序讀長后，那么增加讀取深度將對(duì)提高DGE實(shí)驗(yàn)的靈敏度產(chǎn)生更大的影響。

RNA-seq數(shù)據(jù)分析

用于分析測序讀長以確定差異表達(dá)的計(jì)算方法的數(shù)量在過去10年里大量增加，并且即使對(duì)于最簡單的DGE分析來說，在分析實(shí)踐中，每個(gè)步驟也存在著大量的差異。然而，每個(gè)步驟都可以使用不同方法，這些方法的不同組合會(huì)對(duì)從數(shù)據(jù)中得到的生物學(xué)結(jié)論產(chǎn)生重要的影響。這些工具的最佳組織取決于正在研究的特定生物學(xué)問題，以及可用的計(jì)算機(jī)資源。雖然有著盡可能多的排列組合，但是我們的重點(diǎn)在于研究，每個(gè)世界大在樣本之間的差異表達(dá)的可能性的工具和技術(shù)。針對(duì)這個(gè)目標(biāo)，我們可以將分析過程劃分為4個(gè)階段（FIG 2；TABLE 2）。

第1階段是將一個(gè)測序平臺(tái)產(chǎn)生的原始測序讀長導(dǎo)入工具，并將這些讀長回貼到轉(zhuǎn)錄組上。

第2階段，是對(duì)每個(gè)基因或轉(zhuǎn)錄本相關(guān)的讀長數(shù)目進(jìn)行定量（表達(dá)矩陣）。這一過程涉及一個(gè)或多個(gè)不同的比對(duì)(alignment)，組裝(assembly)與定量(quantification)亞過程，或者是可以在單個(gè)步驟中從讀長計(jì)數(shù)中，整體地生成表達(dá)矩陣。

第3階段是通過過濾低表達(dá)特征來改變表達(dá)矩陣，這一步的關(guān)鍵步驟是對(duì)原始讀長計(jì)數(shù)進(jìn)行歸一化，用于解釋樣本之間的技術(shù)差異。

第4階段是樣本組之間的統(tǒng)計(jì)建模與協(xié)變量(covariates)，以及計(jì)算與差異表達(dá)相關(guān)的置信統(tǒng)計(jì)量。

Figure2-差異基因表達(dá)的RNA-seq數(shù)據(jù)分析流程

Figure 2-差異基因表達(dá)的RNA-seq數(shù)據(jù)分析流程。差異基因表達(dá)(DGE)分析的第一步是原始RNA測序讀長的FASTQ格式的數(shù)據(jù)，DGE的分析有多種方式。主流的分析流程有三種（用實(shí)線劃的三個(gè)方框，分別用A，B和C表示），并且圖上還列出了許多替代工具（用虛線表示）。

在A分析流程中，比對(duì)工具例如TopHat，STAR或HISAT2使用一個(gè)參考基因組來將讀長回貼到基因組的位置上，然后使用一些定量工具，例如HTSeq和featureCounts，來將讀長比對(duì)于基因的特征上。在歸一化后（通常歸一化的方式都內(nèi)嵌到了一些分析工具，例如TMM），基因表達(dá)就通過一些計(jì)建模工具，例如edgeR，DESeq2和limma+voom進(jìn)行計(jì)算，計(jì)算結(jié)果是一些差異表達(dá)基因或轉(zhuǎn)錄本的列表，這數(shù)據(jù)用于下一步的可視化和生物學(xué)解釋。

在B分析流程中，使用一些較新的免比對(duì)工具，例如Kallisto與Salmon，這些工具會(huì)在一步操作中組裝轉(zhuǎn)錄組并對(duì)相應(yīng)的轉(zhuǎn)錄本進(jìn)行定量。這些工具的輸出結(jié)果通常是轉(zhuǎn)錄本定量的一些估計(jì)值（例如tximport，TXI），然后通過與A分析流程中相同的歸一化和統(tǒng)計(jì)建模，產(chǎn)生出差異基因或轉(zhuǎn)錄本列表。

在C分析流程中，第一步是比對(duì)讀長（這一步的工具通常是TopHat，雖然有些分析方法也會(huì)用STAR與HISAT），接頭使用CuffLinks來處理原始讀長，再然后是使用CuffDiff2包來輸出轉(zhuǎn)錄本豐度的估計(jì)值，以及一個(gè)差異表達(dá)基因或轉(zhuǎn)錄本的列表。

其它常用的工具還包括StringTie，這個(gè)工具使用TopHat（或類似工具）的輸出結(jié)果來組裝一個(gè)轉(zhuǎn)錄本模型，然后將結(jié)果輸出到RSEM或MMSEQ中，用于估計(jì)轉(zhuǎn)錄本的豐度值，最后將轉(zhuǎn)錄本的豐度值輸出給Ballgown來計(jì)算差異表達(dá)基因或轉(zhuǎn)錄本。而SOAPdenovo-trans這個(gè)工具則能同時(shí)對(duì)讀長進(jìn)行比和組裝，其結(jié)果用于輸入給RSEM或MMSEQ。

TABLE2-RNA-seq數(shù)據(jù)分析工具

第1階段-測序讀長的比對(duì)(alignment)與組裝(assembly)

測序完成后，分析的起點(diǎn)就是數(shù)據(jù)文件，這個(gè)數(shù)據(jù)文件包含了測序計(jì)數(shù)的堿基，這些數(shù)據(jù)文件通常是以FASTQ文件的格式存在。處理這些FASTQ文件最常見的第一步操作就是將測序讀長回貼到已知的轉(zhuǎn)錄組上（或已經(jīng)注釋的基因組上），將每個(gè)測序讀長轉(zhuǎn)換為一個(gè)或多個(gè)基因組坐標(biāo)。這一過程可以使用多個(gè)不同的比對(duì)工具，例如TopHat，STAR或HISAT，它們都依賴于一個(gè)參考基因組。由于測序的cDNA都源于RNA，而RNA有可能跨外顯子邊界，因此當(dāng)與參考基因組（含有內(nèi)含子與外顯子）進(jìn)行比對(duì)時(shí)，這些工具進(jìn)行一個(gè)剪接比對(duì)后，測序讀長之間會(huì)出現(xiàn)一些間隙。

如果測序的物種沒有一個(gè)可用的高質(zhì)量基因組注釋（含有已經(jīng)知的外顯子邊界），或者說如果希望將測序讀長與轉(zhuǎn)錄本（而不是基因）關(guān)聯(lián)起來，那么可以使用比對(duì)的讀長進(jìn)行轉(zhuǎn)錄組的組裝。一些組裝工具，例如StringTie，SOAPdenovo-Trans使用利用那些已經(jīng)比對(duì)好的結(jié)果中的空隙來推測其外顯子邊界，以及可能的剪接位點(diǎn)。當(dāng)參考基因組注釋沒有或者是不完整時(shí)，或者是你感興趣的組織（例如在腫瘤組織）中轉(zhuǎn)錄本異常的情況下，這些從頭組裝轉(zhuǎn)錄本的工具尤其好用。當(dāng)使用的是雙端測序和/或更長的測序技術(shù)時(shí)，這種轉(zhuǎn)錄組組裝方法效果更好，因?yàn)檫@些測序技術(shù)有更大的可能性跨越了剪接位點(diǎn)。但是，從RNA-seq數(shù)據(jù)中進(jìn)行轉(zhuǎn)錄本的完整組裝對(duì)于計(jì)算DGE來說，并不是一個(gè)必需的步驟。

最近，已經(jīng)開發(fā)出了計(jì)算高效的“免比對(duì)”(alignment-free)工具，例如Sailfish，Kallisto與Salmon，這些工具可以直接將測序讀長與轉(zhuǎn)錄本進(jìn)行關(guān)聯(lián)，從而無需單獨(dú)的定量步驟（參考后面的第2階段部分）。這些工具在那些表征更高豐度（以及更長的）轉(zhuǎn)錄本方面表現(xiàn)得非常良好；然后它們在那些定量低豐度或短轉(zhuǎn)錄本方面表現(xiàn)不佳。

用于將測序讀長回貼到轉(zhuǎn)錄本的不同的工具在它們?nèi)绾螌?duì)測序的子集進(jìn)行分配方面有著顯著的差異，這會(huì)影響最終的表達(dá)估計(jì)值。當(dāng)有來自一個(gè)不同基因，偽基因或轉(zhuǎn)錄本的多個(gè)讀長時(shí)，這種效果尤為明顯。一項(xiàng)比對(duì)12個(gè)基因表達(dá)估計(jì)方法的比較顯示，一些比對(duì)方法低估了許多與臨床相關(guān)的基因的表達(dá)，這主要是由于其并不精確的回貼讀長所導(dǎo)致的。在RNA-seq數(shù)據(jù)的計(jì)算分析中，如何將多個(gè)回貼的讀長合理進(jìn)行分析仍然是一個(gè)值得研究的方向。通常的做法是將這些讀長排除在下一步的分析之外，但這可能會(huì)使結(jié)果產(chǎn)生偏（參考階段2-轉(zhuǎn)錄本豐度的量化）。其它的估計(jì)包括生成“合并“表達(dá)特征，這些特征包含了那些共同回貼后的讀長的重疊區(qū)域，以及要在隨后的置信度計(jì)算中，對(duì)每個(gè)估計(jì)的基因的回貼的不確定性進(jìn)行估計(jì)。

第2階段-轉(zhuǎn)錄本豐度的量化

一旦讀長被回貼到基因組的位置或轉(zhuǎn)錄組的位置，接下來的步驟就是將這些讀長分配到基因或轉(zhuǎn)錄本上，以確定它們的豐度。不同的比較研究表明，在量化步驟中采用的不同的方法對(duì)最終的結(jié)果影響最大，這種影響甚至超過了第1步中比對(duì)工具的選擇。對(duì)每個(gè)基因(即該基因所有轉(zhuǎn)錄本的亞型)測序讀長豐度的量化依賴于轉(zhuǎn)錄組注釋來對(duì)那些重疊到已知基因上的測序讀長進(jìn)行量化。但是，使用短讀長對(duì)測序讀長進(jìn)行特定異構(gòu)體分配來說還需要一個(gè)估計(jì)步驟，因?yàn)樵S多讀長并不能跨越剪接位點(diǎn)，因此它們無法精確地分配給特定的異構(gòu)體。當(dāng)一個(gè)基因的主要表達(dá)形式是在不同長度的轉(zhuǎn)錄本之間進(jìn)行轉(zhuǎn)換時(shí)，那么即使在僅研究基因?qū)用娴牟町惐磉_(dá)分析的前提下，對(duì)這些轉(zhuǎn)錄本進(jìn)行定量則會(huì)產(chǎn)生一個(gè)更加精確的結(jié)果。例如，在一個(gè)樣本中，一個(gè)主要的轉(zhuǎn)錄本也許只有另外一個(gè)樣本中同樣轉(zhuǎn)錄本的一半長度，但是前者的表達(dá)量是后者的2倍，那么單純地基因基因定量的工具無法區(qū)分這個(gè)轉(zhuǎn)錄本的差異表達(dá)。

常用的量化工具包括RSEM，CuffLinks，MMSeq與HTSeq以及前面提到的那些免比對(duì)工具。一些基于讀長計(jì)算的工具，例如HTSeq（或者是R equivalent，featureCounts）通常會(huì)丟棄許多比對(duì)好的讀長，包括那些回貼到多個(gè)位置的讀長，或者是重疊多個(gè)表達(dá)特征的讀長。其結(jié)果就是，在隨后的分析中清除了那些同源和重疊的轉(zhuǎn)錄本。RSEM會(huì)使用期望最大化的方法來分配那些比對(duì)不明的讀長，Kallisto這個(gè)無參比對(duì)工具會(huì)將比對(duì)不明的讀長包括在它們相應(yīng)的轉(zhuǎn)錄本計(jì)數(shù)中，從而導(dǎo)致結(jié)果偏倚。使用tximport包可以將轉(zhuǎn)錄本豐度估計(jì)轉(zhuǎn)化為讀長計(jì)數(shù)值(read count equivalents)。量化步驟中產(chǎn)生的結(jié)果通常會(huì)合并為一個(gè)表達(dá)矩陣，在這個(gè)矩陣中，每一行是表達(dá)特征（基因或轉(zhuǎn)錄本），每一列是樣本名，表達(dá)矩陣中的值要和是實(shí)際的讀長值，要么是一種估計(jì)豐度。

第3階段-過濾和歸一化

通常來說，定量后的基因或轉(zhuǎn)錄本計(jì)數(shù)結(jié)果還需要過濾和歸一化，從而用于解釋讀長深度，表達(dá)模式以及技術(shù)偏倚。過濾用于去除那些不均一的低讀長豐度特征的值，從而提高對(duì)那些真正差異表達(dá)值的檢測能力。而對(duì)表達(dá)矩陣進(jìn)行歸一化則更加復(fù)雜。直接轉(zhuǎn)換可以調(diào)整豐度值，以便能更加說明GC含量的差異以及讀長深度。早期用于歸一化的方法就是RPKM，但這種方法現(xiàn)在已經(jīng)淘汰，它已經(jīng)被那些能夠校正樣本之間更細(xì)微差異的方法所取代，例如四分位數(shù)法或中位數(shù)歸一法。

廣泛的研究表明，歸一化方法的選擇會(huì)對(duì)最終的結(jié)果以及生物學(xué)結(jié)論產(chǎn)生重要的影響。大多數(shù)進(jìn)行歸一化的算法依賴于兩個(gè)重要的假設(shè)：第一，大多數(shù)基因的表達(dá)水平在重復(fù)的樣本組之間保持不變；第二，不同的樣本組在總體的mRNA水平上不表現(xiàn)出顯著差異。當(dāng)這些基礎(chǔ)假設(shè)不成立時(shí)，那么就需要慎重考慮是否進(jìn)行歸一化，以及如何進(jìn)行歸一化。例如，如果一些基因在一個(gè)樣本中高表達(dá)，同時(shí)相同的基因，以及另外的一些基因在同一組中的另外一個(gè)樣本里正常表達(dá)，如果對(duì)讀長深度進(jìn)行簡單的歸一化則明顯不夠，因?yàn)橄嗤瑪?shù)目的測序讀長會(huì)分配到第二個(gè)樣本里更多的基因上面。歸一化過程，例如截?cái)嗑祷疢值(The Trimmed Mean of M-values,TMM)方法（它已經(jīng)整合到的edgeR包中）就能解決這個(gè)問題。選擇一個(gè)合適的歸一化方法或許很困難；一種做法就是深度使用多種方法進(jìn)行分析，然后比較它們結(jié)果的一致性。如果結(jié)果對(duì)于歸一化方法高度敏度，則應(yīng)該對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的探索，以確定差異來源。但是，比較不同的歸一化方法時(shí)，要謹(jǐn)慎確保這種歸一化方法的比較不是為了選擇與原始假設(shè)最兼容的歸一化方法。

處理這些問題的一種方法的spike-in control RNAs，這種方法會(huì)引入一些外源已知的RNA序列，這些外源已知的RNA序列已知，濃度已知，在建庫的過程中，將它們添加到樣本中。RNA-seq中的Spike-ins方法包括外部RNA控制協(xié)會(huì)混合物(External RNA Controls Consortium mix, ERCCs)，spike-in RNA突變物(spike-in RNA variants, SIRVs)與測序spike-ins(sequencing spike-ins, Sequins)。由于預(yù)先知道spike-in的濃度，這些濃度直接與生成的讀長數(shù)相關(guān)，因?yàn)榫涂梢詫?duì)這些來自樣本轉(zhuǎn)錄的表達(dá)水平進(jìn)行校正。也有人指出，如果不進(jìn)行spike-in控制時(shí)，那么就不能對(duì)那些有強(qiáng)烈倍數(shù)變化基因的實(shí)驗(yàn)進(jìn)行分析。然后在實(shí)踐中，很難在預(yù)設(shè)水平上一致地整合spike-ins，并且它們在基因水平上對(duì)測序讀長數(shù)目進(jìn)行歸一化比轉(zhuǎn)錄本更加可靠，因?yàn)樵谝粋€(gè)樣本中，每個(gè)異構(gòu)體的表達(dá)水平不同。目前，spike-in控制法并沒有在發(fā)表RNA-seq DGE實(shí)驗(yàn)中得到廣泛使用，如果這種方法被進(jìn)一步改進(jìn)，提高其一致性的話，則這種方法會(huì)得到廣泛使用，但現(xiàn)在很多研究者們在他們的單細(xì)胞實(shí)驗(yàn)（這種實(shí)驗(yàn)里會(huì)更加廣泛地使用spike-in）使用了這種方法。

第4階段-差異表達(dá)的統(tǒng)計(jì)建模

一旦測序讀長被處理為表達(dá)矩陣，那么就可以對(duì)實(shí)驗(yàn)進(jìn)行統(tǒng)計(jì)建模，從而確定哪些轉(zhuǎn)錄本發(fā)生了改變。一些工具可以達(dá)到這些目的；其中一些工具會(huì)對(duì)基因水平的讀長數(shù)目進(jìn)行統(tǒng)計(jì)建模，而一些則依賴于轉(zhuǎn)錄本水平的估計(jì)?；蛩降墓ぞ咄ǔＲ蕾囉诒葘?duì)好的讀長數(shù)目，使用廣義線性模型(Generalized Linear Models)處理這些數(shù)據(jù)，從而能夠評(píng)估復(fù)雜的實(shí)驗(yàn)設(shè)計(jì)。這些工具包括edgeR，DESeq2以及l(fā)imma+voom，這些工具能夠進(jìn)行有效地計(jì)算，并提供比較結(jié)果。對(duì)差異異構(gòu)體表達(dá)進(jìn)行統(tǒng)計(jì)建模的工具包括CuffDiff，MMSEQ與Ballgown，這些工具通常需要更多的算力(computational power)，并且不同工具的結(jié)果中的信息量更大。但是，在進(jìn)行選擇差異表達(dá)工具之前做的那些工作，例如比對(duì)，定量或過濾以及歸一化這些操作對(duì)最終結(jié)果的總體方差會(huì)產(chǎn)生更大的影響。

常規(guī)的RNA-seq分析流程，相信關(guān)注我們生信技能樹的粉絲早就跟著一遍又一遍的學(xué)習(xí)了，這里就不再贅述，直接上視頻，需要掌握下面3個(gè)視頻課程的知識(shí)點(diǎn)，見：https://space.bilibili.com/338686099/#/

常規(guī)RNA-seq進(jìn)階

源于整塊組織和/或大量細(xì)胞的RNA-seq數(shù)據(jù)已經(jīng)徹底改變了我們對(duì)生物學(xué)的理解，但是這種常規(guī)的RNA-seq無法輕易地分辨出特定的細(xì)胞類型，也無法保存空間信息，而這兩個(gè)信息都是理解生物系統(tǒng)復(fù)雜性的關(guān)鍵因素。促進(jìn)研究者們從常規(guī)的RNA-seq走出去的情形與常規(guī)RNA-seq當(dāng)初出現(xiàn)的理由類似，但這種進(jìn)階能夠能夠解決很多不同的問題。單細(xì)胞測序讓人們發(fā)現(xiàn)了，即使在被認(rèn)為研究透徹的疾病背后，還存在著一些未知細(xì)胞類型，例如發(fā)現(xiàn)了離子細(xì)胞(ionocyte cell)，這類細(xì)胞可能與囊性纖維化疾病有關(guān)。空間分辨RNA-seq則提示了在實(shí)體組織中細(xì)胞與細(xì)胞之間的相互作用，例如發(fā)現(xiàn)了成年心臟組織中一小群胎兒標(biāo)記基因表達(dá)的細(xì)胞。雖然在可預(yù)見的未來，常規(guī)RNA-seq仍然是一個(gè)占據(jù)主導(dǎo)地位的工具。但是，單細(xì)胞測序與分析方法正在快速地被研究者利用，并且隨著空間RNA-seq方法的成熟，它們有可能成為常規(guī)RNA-seq分析中的一部分。這兩種方法都將提高我們對(duì)多細(xì)胞生物體復(fù)雜性的理解，它們都有可能與常規(guī)RNA-seq方法結(jié)合使用。在這里我們簡單描述一下主要的單細(xì)胞測序以及空間RNA-seq方法，以及它們與常規(guī)RNA-seq的不同之處，以及新的研究者們?nèi)绾沃帧?/p>

單細(xì)胞分析

scRNA-seq于2009年首次報(bào)道，當(dāng)時(shí)的研究者在含有裂解緩沖液的EP管中分離了單個(gè)卵母細(xì)胞。單細(xì)胞測序?qū)ι飳W(xué)新問題的解釋，以及現(xiàn)有的實(shí)驗(yàn)室和計(jì)算方法以極快的速度發(fā)展，甚至最近幾年綜述都已經(jīng)過時(shí)了。每種scRNA-seq方法都需要將實(shí)體組織進(jìn)行分離，分離出單個(gè)細(xì)胞（使用不同的方法），以及標(biāo)記上每個(gè)細(xì)胞的RNA，對(duì)RAN擴(kuò)增后進(jìn)行測序，所有的這些方法都來源于早期常規(guī)RNA-seq的方法。

機(jī)械裂解和膠原酶加DNAase的酶解會(huì)生成單細(xì)胞懸液，從而產(chǎn)生大量可用的細(xì)胞，但是這種產(chǎn)生是高度組織特異性的，比較依賴于經(jīng)驗(yàn)，其過程也需要非常小心。一旦制備好了單細(xì)胞懸液，就可以通過各種方法分離單細(xì)胞（FIG 3a）；大多數(shù)的實(shí)驗(yàn)都是使用流式細(xì)胞儀來進(jìn)行單細(xì)胞分選，這種方法是最容易，它可以將單個(gè)細(xì)胞直接分選到含有裂解液的微孔板中。對(duì)于更高通量的實(shí)驗(yàn)，現(xiàn)存有大量分離單細(xì)胞的專門儀器，這些儀器需要自己構(gòu)建或購買。單個(gè)細(xì)胞可以通過物理手段被捕獲到微流控芯片中，或者是通過Poisson分布的原理被分配到加載到含有納米孔(nanowell)的芯片中，隨后這些單細(xì)胞被分離后就被液滴微流分離技術(shù)合并到含有試劑的液滴中（例如Drop-Seq與InDrop），或者是單細(xì)胞被原位標(biāo)記上標(biāo)簽（例如單細(xì)胞混合索引RNA測序技術(shù), single-cell combinatorial indexing RNA sequencing, sci-RNA-seq以及分離-混合-連接轉(zhuǎn)錄組測序技術(shù)，split- pool ligation- based transcriptome sequencing,SPLiT-seq）。單細(xì)胞分離后，它們就被裂解，將RNA釋放到溶解中用于cDNA合成，并將cDNA用于RNA-seq文庫制備。在文庫制備過程中，來源于每個(gè)細(xì)胞的RNA會(huì)通過PCR進(jìn)行擴(kuò)增。這種擴(kuò)增就引入了PCR偏倚，但是UMIs可以用于校正這種偏倚。由于Poisson采樣，一個(gè)細(xì)胞中只有10-20%的轉(zhuǎn)錄本會(huì)被逆轉(zhuǎn)錄，這就限制了轉(zhuǎn)錄本檢測的靈敏度，以及各種方法產(chǎn)生的可用數(shù)據(jù)。在濕實(shí)驗(yàn)之外，計(jì)算方法也在迅速發(fā)展，最近已經(jīng)出現(xiàn)了關(guān)于scRNA-seq的實(shí)驗(yàn)設(shè)計(jì)指南。方法學(xué)的快速發(fā)展意味著scRNA-seq方法的技術(shù)已經(jīng)快速過時(shí)了。然而Ziegenhain等人提供了scRNA-seq方法的詳細(xì)概述，他著重強(qiáng)調(diào)了UMIs的在數(shù)據(jù)分析方面的重要性，并報(bào)道了提到了的6種方法中哪一種最為靈敏。然而他們的研究范圍并不包括現(xiàn)在被廣泛使用的10X Geneomics方法。

Figure3-單細(xì)胞RNA-seq與空間RNA-seq的概念

Figure 3-單細(xì)胞RNA-seq與空間RNA-seq的概念。(a)單細(xì)胞RNA-seq(scRNA-seq)工作流程概述。scRNA-seq的第一步就是從樣本中分離單個(gè)細(xì)胞（例如從解離的皮膚組織），分離單細(xì)胞的方式有多種，其中包括微移液管將細(xì)胞轉(zhuǎn)移到單獨(dú)的微管中，或者是使用流式細(xì)胞儀將單細(xì)胞分選到含有裂解液的96孔板或384孔板中，或者是將細(xì)胞捕獲到微流控芯片中，或者是將細(xì)胞分布到納米孔(nanowells)中，或者是使用含有試劑的液滴分離系統(tǒng)，或者是使用原位條形碼技術(shù)。細(xì)胞進(jìn)行逆轉(zhuǎn)錄以產(chǎn)生cDNA（通常使用UMIs來對(duì)這些cDNA進(jìn)行標(biāo)記），用于制備RNA-seq文庫和測序。質(zhì)控(QC)，差異基因表達(dá)(DGE)與2D可視化(t-distributed stochastic neighbour embedding, tSNE)以及無監(jiān)督聚類在和網(wǎng)絡(luò)分析來對(duì)scRNA-seq的數(shù)據(jù)進(jìn)行分析，用于區(qū)分不同的細(xì)胞種群。這些技術(shù)通常會(huì)標(biāo)明細(xì)胞數(shù)據(jù)，以及與RNA-seq的策略一樣，還會(huì)標(biāo)明測序技術(shù)是3'末端還是5'末端還是全長cDNA。(b)空間轉(zhuǎn)錄組學(xué)工作流程概述?？臻g編碼需要將冷凍組織切片加到含有寡聚核苷酸微陣列的載玻片上，或者是加載到密集包裝的被寡核苷酸包被的pucks上。mRNA擴(kuò)散到載玻片表面，然后與oligo-dT合成引物雜交，這些引物中含有UMIs與空間編碼序列。隨后mRNA逆轉(zhuǎn)錄成cDNA，cDNA匯集起來用于文庫制備和測序?？臻g轉(zhuǎn)錄本組學(xué)的計(jì)算方法以能夠?qū)y序讀長回貼到它們的空間坐標(biāo)上，隨后是DGE分析與差異空間表達(dá)分析的可視化。scRNA-seq與空間RNA-seq數(shù)據(jù)通常是用短讀長測序儀進(jìn)行測序的。上述圖片(a)源于Springer Nature Limited。

當(dāng)研究者們在選擇scRNA-seq方法，需要考慮的主要因素包括：他們是否需要全長轉(zhuǎn)錄本的讀長，在分析更多細(xì)胞表達(dá)譜（寬度, breadth）或每個(gè)細(xì)胞更多轉(zhuǎn)錄本（深度，depth）之間進(jìn)行權(quán)衡，以及總體實(shí)驗(yàn)成本。

希望下面3個(gè)小時(shí)的單細(xì)胞轉(zhuǎn)錄組課程能幫助你理解

https://www.bilibili.com/video/av38741055

全長scRNA-seq系統(tǒng)的通量比較低，因此每個(gè)細(xì)胞需要單獨(dú)地處理，直到最終生成scRNA-seq文庫。但是，此系統(tǒng)可以讓研究者們研究可變剪接與等位基因特異性表達(dá)。非全長系統(tǒng)則會(huì)從轉(zhuǎn)錄本的3’或5’末端生成序列，但這就限制了異構(gòu)體表達(dá)的分析，但是當(dāng)細(xì)胞cDNA合成被混合后，細(xì)胞所加工的數(shù)量會(huì)比前一種高出2到3個(gè)數(shù)量級(jí)。單細(xì)胞測序?qū)挾扰c細(xì)胞，組織或樣本的數(shù)量有關(guān)，而深度則是與測序讀長數(shù)目固定下，要分析的轉(zhuǎn)錄組有關(guān)。雖然實(shí)驗(yàn)中測序的細(xì)胞數(shù)量是由選擇的方法決定的，但是這也允許一些靈活性，不過隨著分析的細(xì)胞數(shù)目的增多，測序成本的增加，往往限制了轉(zhuǎn)錄組分析的深度。因此，可以使用寬度和深度兩個(gè)維度來評(píng)估不同的scRNA-seq系統(tǒng)。單細(xì)胞測序典型的做法是基于孔板或微流控方法來捕獲盡量少的細(xì)胞，但同時(shí)對(duì)每個(gè)細(xì)胞檢測出更多的基因，而基于液滴的系統(tǒng)可以用于分析最大數(shù)目的細(xì)胞，它已經(jīng)能從超過一百萬個(gè)細(xì)胞中產(chǎn)生單獨(dú)的數(shù)據(jù)集。

scRNA-seq的力量正在推動(dòng)著大規(guī)模的細(xì)胞圖譜項(xiàng)目，這些項(xiàng)目指在確定生物體或組織中完整的細(xì)胞類型。人類細(xì)胞地圖集(Human Cell Atlas)與NIH大腦計(jì)劃(NIH Brain Initiative)項(xiàng)目分別是為了對(duì)人體以及大腦中的所有細(xì)胞類型進(jìn)行測序。人類細(xì)胞地圖集的第1階段目標(biāo)是對(duì)3000萬到1億個(gè)細(xì)胞進(jìn)行測序，并將隨著技術(shù)的發(fā)展在廣度和深度上進(jìn)行增加。這個(gè)項(xiàng)目的最新成本包括發(fā)現(xiàn)了離子細(xì)胞，以及發(fā)現(xiàn)腎癌是在兒童和成年人中是由不同的細(xì)胞類型發(fā)展而來的。不過，scRNA-seq的研究者們應(yīng)該意識(shí)到，這些技術(shù)可以用于幾乎所有的生物。最近，對(duì)A. thaliana根細(xì)胞原生質(zhì)的分析表明，即使是植物的堅(jiān)韌細(xì)胞壁這種障礙也能被解決，能產(chǎn)生用于測序的單細(xì)胞。scRNA-seq正在迅速成為生物學(xué)家們工具包的標(biāo)準(zhǔn)配置，并有可能在10年后被廣泛使用，就像今天的常規(guī)RNA-seq一樣。

空間分辨RNA-seq法

當(dāng)前的常規(guī)RNA-seq和scRNA-seq方法為研究者們提供了關(guān)于組織或細(xì)胞群體的高度詳細(xì)的數(shù)據(jù)，但是沒有捕獲空間信息，就是會(huì)降低細(xì)胞環(huán)境與基因表達(dá)之間關(guān)系的分析能力。空間轉(zhuǎn)錄組學(xué)(spatialomics)的兩種方法是空間編碼(spatial encoding)與原位轉(zhuǎn)錄組學(xué)(in situ transcriptomics)。在RNA-seq文庫制備過重中，空間編碼方法能夠記錄其空間信息，或者是通過分離空間受限的細(xì)胞（例如，通過激光捕獲顯微解剖， laser-capture micro-dissection, LCM），或者是通過分離前的位置對(duì)RNA加上條形碼（通過從組織切片中直接捕獲mRNA）(FIG. 3b)。原位轉(zhuǎn)錄組學(xué)能夠在組織切片中，通過對(duì)細(xì)胞中的RNA進(jìn)行測序或成像來生成數(shù)據(jù)。我們建議感興趣的讀者是閱讀最近的深度評(píng)論，從而對(duì)這一領(lǐng)域進(jìn)行更全面的理解。

LCM已經(jīng)成功地用于從組織切片中的特定區(qū)域分離和分析單個(gè)細(xì)胞用于RNA-seq。雖然LCM需要專門的設(shè)備，但是許多機(jī)構(gòu)已經(jīng)廣泛使用了這種技術(shù)。但是，雖然這種技術(shù)可能實(shí)現(xiàn)高度空間分辨率，但是它消耗人力，并且難以批量使用。使用空間轉(zhuǎn)錄學(xué) (Spatial Transcriptomics，10X Genomics)與Slide-seq方法可以直接從冰凍組織切片中直接捕獲mRNAs，然后將這些mRNAs直接加載到寡核苷酸微陣列玻片(oligo- arrayed microarray slides)或嚴(yán)密包裝寡核苷酸的pucks上。寡核苷酸包括空間條形碼、UMI和oligo-dT引物，它們能唯一地識(shí)別每個(gè)轉(zhuǎn)錄本及其位置。測序讀長被回貼到玻片的坐標(biāo)上，用于生成空間基因表達(dá)信息?？臻g轉(zhuǎn)錄學(xué)方法已經(jīng)被證明能夠在一系列物種的組織中能發(fā)揮作用，其中就包括小鼠大腦和人類乳腺癌組織，人類心臟組織和擬南芥(A. thaliana)花序組織。Slide-seq是最近開發(fā)的一種技術(shù)，它已經(jīng)被證明能夠?qū)π∈蟠竽X的冰凍切片進(jìn)行測序。這些直接 mRNA捕獲方法并不需要特殊的設(shè)備，且有相對(duì)簡單的分析方法，并有可能大規(guī)模地應(yīng)用于許多組織。然而，還有兩個(gè)局限需要解決。首先，該技術(shù)只能應(yīng)用于新鮮的冷凍組織。其次，分辨率受到到陣列大小和捕獲寡核苷酸點(diǎn)和珠子的間距的限制；目前的分析只能使用6.5x7 mm和3x3mm這兩種規(guī)格，這就限制了組織切片的尺寸?？臻g轉(zhuǎn)錄組學(xué)斑點(diǎn)的直徑為100μm，間距為100μm，這意味著它們不夠小或不夠密集，無法實(shí)現(xiàn)單細(xì)胞級(jí)分辨率。Slide- seq珠子則要小的多，直徑只有10μm，而且非常密集，比相對(duì)前者具有十倍的空間分辨率，并且測序中的大約一半的珠子似乎是從單個(gè)細(xì)胞層面產(chǎn)生的數(shù)據(jù)。從分解的組織和空間編碼的數(shù)據(jù)與scRNA-seq混合起來的計(jì)算方法可以改善分辨率，但是需要基礎(chǔ)技術(shù)的進(jìn)一步發(fā)展，以使其成為更常規(guī)的RNA-seq工具。

上述空間分辨RNA-seq方法的替代方案包括原位測序和使用單分子熒光原位雜交的基于成像的方法。這些方法能夠產(chǎn)生比RNA-seq方法更窄的轉(zhuǎn)錄組信息，但它們能直接檢測RNA，并且能夠?qū)Φ拓S度的轉(zhuǎn)錄本進(jìn)行分析。同時(shí)，它們還能提供組組織結(jié)構(gòu)和微環(huán)境的信息，并能產(chǎn)生亞細(xì)胞數(shù)據(jù)。這種方法目前正取得了巨大進(jìn)步，但是成像方法的一個(gè)主要局限就是需要高分辨率或超分辨率顯微鏡與自動(dòng)流體技術(shù)結(jié)合，并且這種技術(shù)的成像時(shí)間可能要花上數(shù)小時(shí)，甚至是幾天。測序成本的下降比摩爾定律預(yù)測的速度更快，與測序成本相比，高通量成規(guī)模的成像系統(tǒng)的機(jī)會(huì)似乎更有限。

上述提到的空間轉(zhuǎn)錄組學(xué)都受到無法產(chǎn)生深度轉(zhuǎn)錄組學(xué)數(shù)據(jù)的限制，以及受到細(xì)胞分辨率和/或高成本（時(shí)間和/或資金）的限制，但是這些方法正在迅速改進(jìn)，并且已經(jīng)應(yīng)用于臨床樣本。空間轉(zhuǎn)錄組學(xué)的具體計(jì)算方法開始出現(xiàn)。此外，原位RNA測序和成像方法的進(jìn)步已經(jīng)使得10E3到10E5個(gè)細(xì)胞生成的轉(zhuǎn)錄組數(shù)據(jù)成為可能，這與基于液滴的單細(xì)胞方法獲得的數(shù)據(jù)量相近。未來的發(fā)展有可能使得空間轉(zhuǎn)錄組學(xué)讓更普通的研究者們使用。然而，大多數(shù)的研究們者并不太可能需要真正的單細(xì)胞或亞細(xì)胞級(jí)分辨率。因此，轉(zhuǎn)錄組表達(dá)譜的寬度和對(duì)廣泛的組織或樣本的應(yīng)用性可能會(huì)推動(dòng)這些技術(shù)在特定小眾領(lǐng)域被采用。如果空間轉(zhuǎn)錄組學(xué)的這些技術(shù)限制能夠被解決，那么它才有可能被廣泛使用。

動(dòng)態(tài)RNA-seq分析(Beyond steady-state RNA analysis)

DGE分析是使用RNA-seq來檢測穩(wěn)態(tài)下的mRNA表達(dá)水平，這一表達(dá)水平是通過mRNA的轉(zhuǎn)錄，加工和降解速度來決定的。但是，RNA-seq也可以用于研究涉及轉(zhuǎn)錄，翻譯所涉及的過程與動(dòng)力學(xué)特征，這些研究為基因表達(dá)提供了新的思路。

使用新生RNA(nascent RNA)方法來研究活性轉(zhuǎn)錄

基因表達(dá)是一個(gè)內(nèi)在的動(dòng)態(tài)過程，但是在檢測復(fù)雜轉(zhuǎn)錄應(yīng)答的細(xì)微以及快速變化或確定不穩(wěn)定的非編碼RNAs，例如增強(qiáng)子RNAs方面，常規(guī)的DGE分析方法就比較受限。RNA-seq可以用于繪制TSSs以及定量新合成的新生RNA，這就可以用來研究RNA動(dòng)力學(xué)。但是，與DGE分析相比，nascent RNA的分析則比較難，因?yàn)樗鼈儼胨テ诙?，豐度低。因此，為了研究這些動(dòng)態(tài)的重要性，研究者們就開發(fā)了多種方法來分析nascent RNA；這些方法揭示了在啟動(dòng)子處的差異轉(zhuǎn)錄程度，表明RNA聚合酶II(Pol II)在啟動(dòng)子附近的暫停是基因表達(dá)的關(guān)鍵調(diào)節(jié)步驟，證明了nascent RNA有直接調(diào)節(jié)轉(zhuǎn)錄的作用，并表明其序列和結(jié)構(gòu)影響轉(zhuǎn)錄的延伸，暫停和停頓，以及發(fā)揮染色體修飾結(jié)合和增強(qiáng)了子的作用。nascent RNA- seq方法旨在區(qū)分新近轉(zhuǎn)錄的RNA和其它RNAs，這些方法可以分為3類：run-on方法，Pol II免疫沉淀法，代謝標(biāo)記法(FIG. 4)。

Figure4-nascent RNA與翻譯組分析的關(guān)鍵概念

Figure 4- nascent RNA與翻譯組分析的關(guān)鍵概念。nascent RNA分析方法是將那些在一個(gè)細(xì)胞中新轉(zhuǎn)錄的RNAs從其它的RNAs中富集出來，并將它們與未富集的RNA（成熟的RNA）進(jìn)行比較，富集nascent RNAs的方法主要有三種。(a)Run-on方法是利用一個(gè)限時(shí)脈沖的方法將修飾過的核糖核酸添加到細(xì)胞培養(yǎng)基中，對(duì)細(xì)胞的RNA進(jìn)行標(biāo)記；這一過程可以用使用各種修飾的核苷酸，但是，圖中的GRO-seq使用的是Bru修飾的核苷酸。當(dāng)修飾過的核苷酸整合到RNA后，利用抗BrU的抗體，通過IP的手段將nascent-RNA鏈富集起來，并用于文庫制備以及測序分析。(b)RNA聚合酶II(Pol II)的IP方法則是利用了微球菌核酸酶(micrococcal nuclease)消化了染色質(zhì)后，使用相應(yīng)的抗體拉下了與Pol II結(jié)合的RNA。在染色質(zhì)消化過程中，nascent RNA通過其Pol II足跡保護(hù)而不受核酸酶活性的影響，并不會(huì)被降解。(c)代謝標(biāo)記方法標(biāo)記RNA的方法類似于Run-on方法，但前者使用的是核苷酸類似物4 sU。提取RNA后，烷基化4 sU，在逆轉(zhuǎn)錄過重中，就會(huì)產(chǎn)生G核苷酸的錯(cuò)配，從而通過在堿基對(duì)級(jí)分辨率的突變分析中直接確定4 sU的整合位點(diǎn)。制備3'末端RNA文庫會(huì)通過降低未標(biāo)記的RNA數(shù)量來增加測序過程中的信號(hào)強(qiáng)度。圖片參考文獻(xiàn)為214。

Run-on法是將核酸類似物添加到樣品中，從而使nascent RNA能夠從總的RNA混合物中進(jìn)行富集，并能夠檢測瞬時(shí)RNA的轉(zhuǎn)錄(FIG. 4a)。全局run-on測序(Global run-on sequencing, GRO-seq)與精確核酸run-on測序(Precision nuclear run-on sequencing, PRO-seq)是分別將Bru或生物素修飾的核酸在RNA的轉(zhuǎn)錄期整合到nascent RNA中來實(shí)現(xiàn)的。其過程大致為，分離細(xì)胞核，并通過洗滌除去內(nèi)源性核苷酸，再添加外源生物素標(biāo)記的核苷酸，隨后恢復(fù)轉(zhuǎn)錄。通過免疫沉淀或親和純化的方法，對(duì)富集的新轉(zhuǎn)錄RNA進(jìn)行測序，從而檢測參與轉(zhuǎn)錄的RNA聚合酶的位置和活性。由于run-on過程中標(biāo)記的核苷酸的數(shù)據(jù)，GRO-seq只能測到10-50bp的長度，這就降低的TSS檢測的精度。PRO-seq能夠?qū)崿F(xiàn)單個(gè)堿基級(jí)的分辨率，因?yàn)樯锼貥?biāo)記的核苷酸摻入后轉(zhuǎn)錄就停止，可以識(shí)別出轉(zhuǎn)錄位點(diǎn)。Run-on方法理解起來很簡單，就是RNA分子整合了修飾的核苷酸，并對(duì)其進(jìn)行富集，用于測序，但是在實(shí)踐中，背景中存在有non-nascent RNA，這就需要增加讀長深度。利用這些方法，提示了啟動(dòng)子處，啟動(dòng)子處差異或雙向轉(zhuǎn)錄本起始的程度，確定了增強(qiáng)子RNA在調(diào)節(jié)基因表達(dá)方面的作用。通過特定富集5’加帽的RNAs，GRO-cap，PRO-cap或small 5’capped RNA測序(small 5?-capped RNA sequencing, START-seq)增加了檢測轉(zhuǎn)錄起始和捕獲RNAs的靈敏度和特異性，這種處理還會(huì)降低源于轉(zhuǎn)錄后加帽的RNAs的背景信號(hào)。

Pol II的免疫共沉淀方法包括，天然延長轉(zhuǎn)錄測序(native elongating transcription sequencing, NET-seq)和哺乳動(dòng)物染色質(zhì)天然轉(zhuǎn)錄測序法(native elongating transcript sequencing for mammalian chromatin, mNET-seq)，使用抗FLAG（用FLAG標(biāo)記的Pol II）抗體進(jìn)行沉淀的方法，或各種針對(duì)Pol II C末端結(jié)構(gòu)域(CTD)的沉淀方法(FIG. 4b)。與這些染色質(zhì)復(fù)合物結(jié)合的nascent RNA的RNA-seq方法用于檢測TSSs，雖然non-nascent Pol II結(jié)合的RNA與背景mRNA會(huì)對(duì)讀長濃度產(chǎn)生負(fù)面影響，影響分析。NET-seq缺乏特異性，因?yàn)槿魏闻cPol II強(qiáng)烈結(jié)合的RNA都會(huì)污染nascent RNA的富集效果，例如在NET-seq數(shù)據(jù)中就存在有tRNA和small nucleolar RNA。在mNRET-seq中使用多個(gè)CTD抗體提示了VTD修飾是如何影響轉(zhuǎn)錄的，檢測到了RNA加工的中間體，并能能夠?qū)⑻囟ǖ腜ol II nascent RNAs定位于TSSs。然而，這些檢測能力是以更復(fù)雜的實(shí)驗(yàn)，更多的細(xì)胞數(shù)量和更高的測序成本為代價(jià)的。

使用核苷酸類似物硫代吡啶(4-thiouridine, 4 sU)進(jìn)行代謝脈沖標(biāo)記(Metabolic pulse- labelling)的方法可以識(shí)別nascent RNA(FIG. 4c)。但是，在那些需要長標(biāo)記時(shí)間的方法中，大多數(shù)的轉(zhuǎn)錄本都會(huì)被標(biāo)記，這就限制了這種方法的靈敏度。通過專門針對(duì)RNAs的3’末端（僅最近拉RNA聚合酶的新轉(zhuǎn)錄的RNA）的方法，瞬時(shí)轉(zhuǎn)錄組測序(transient transcriptome sequence, TT-seq)與硫醇(SH, thiol)連接的烷基化RNA代謝測序(thiol(SH)-linked alkylation for metabolic sequencing of RNA， SLAM-seq)能夠降低來源于5’RNA的信號(hào)。TT-seq將標(biāo)記時(shí)間限制在5分鐘，因此只標(biāo)記新轉(zhuǎn)錄本的3’末端，它在進(jìn)行生物素親和純化前，有一個(gè)RNA片段化操作，用于富集標(biāo)記的RNA。SLAM-seq整合了3’mRNA-seq文庫制備方法（雖然它也用于其它的文庫制備，例如miRNA），它僅針對(duì)標(biāo)記的新轉(zhuǎn)錄的RNA進(jìn)行測序，而非整個(gè)轉(zhuǎn)錄本進(jìn)行測序。此外，在SLAM-seq中，提取RNA后，還要加入碘乙酰胺(iodoacetamide)，用于烷基化已經(jīng)插入到新生成的nascent RNA鏈中的4 sU殘基。這種修飾會(huì)誘導(dǎo)反轉(zhuǎn)錄式依賴的胞腺嘧啶到胞嘧啶的轉(zhuǎn)換(T > C)，這在測序分析中會(huì)被檢測為“突變”，從而直接識(shí)別為4 su整合位點(diǎn)。然而，低摻入率意味著只有少量的4 sU位點(diǎn)可以被轉(zhuǎn)換為胞嘧啶，這就限制了靈敏性。有兩種方法，即TUC-seq與TimeLapse-seq也使用T>C這種突變分析方法，但是它們并不富集3’末端。這兩種方法用于研究細(xì)胞干擾后的轉(zhuǎn)錄應(yīng)答和RNA的半衰期。

Nascent RNA分析方法還未進(jìn)行過直接比較。Nascent RNA方法都受到非特異性背景和/或降解的RNA的負(fù)面影響，這會(huì)影響讀取深度。通過僅測序3’末端，那么non-nascent RNA的效應(yīng)就會(huì)在PRO-seq，TT-seq和SLAM-seq中降低，但是幾乎沒有證據(jù)表明是否有其他方法更優(yōu)。親和純化方法費(fèi)時(shí)費(fèi)力，與代謝標(biāo)記法相比，前者需要更多的起始材料，但是，確定脈沖標(biāo)記的時(shí)間比較復(fù)雜，并且短脈沖產(chǎn)生用于分析的RNA很少，這限制了靈敏度。最近開發(fā)的，組織特異性RNA標(biāo)記方法以及親折突變分析計(jì)算方法或許能夠促進(jìn)研究者轉(zhuǎn)向使用生化（基于生物素）富集的手段來研究富含生物學(xué)意義的nascent RNA和其它RNA。Nascent RNA方法以及它們與其它方法的隧和，例如空間轉(zhuǎn)錄組學(xué)或RNA-RNA與RNA-蛋白質(zhì)相互作用的方法，將會(huì)提高我們對(duì)轉(zhuǎn)錄過程的理解。

使用核糖體分析方法檢測活躍的翻譯

RNA-seq的主要用途在于研究樣本中的mRNA的種類與數(shù)量，但是mRNAs的存在與否并不直接關(guān)系到蛋白質(zhì)的合成?，F(xiàn)在有兩種方法可以研究轉(zhuǎn)錄以外的翻譯情況，可以讓研究者們更好的理解翻譯組(translatome)：一種是多核糖體表達(dá)譜(polysomal profiling)，一個(gè)是核糖體足跡RNA-seq(Ribo-seq)。核糖體對(duì)mRNAs的翻譯具有高度的調(diào)節(jié)作用，蛋白質(zhì)水平主要由翻譯活性決定。多核糖體表達(dá)譜與Ribo-seq可以讓研究者探索一個(gè)轉(zhuǎn)錄本占用多少個(gè)核糖體以及核糖體在轉(zhuǎn)錄本上的分布(FIG. 5)。這種方法可以讓研究者推斷在特定時(shí)間或細(xì)胞狀態(tài)下哪些轉(zhuǎn)錄本正在被活躍地翻譯。這兩種方法都假設(shè)mRNA 核糖體的密度與蛋白質(zhì)合成的水平相關(guān)。在不同樣本之間進(jìn)行比較，就能提示治療條件下，時(shí)間推移以及疾病發(fā)展過程中，核糖體的動(dòng)力學(xué)特征，上述的這些情況都與翻譯的異常調(diào)控有關(guān)，例如纖維化，朊病毒或癌癥。

Figure 5-翻譯組的關(guān)鍵概念。翻譯組方法是從那些與核糖體結(jié)合的RNA中生成RNA-seq數(shù)據(jù)，這種方法假設(shè)mRNA上的核糖體的密度與蛋白質(zhì)的合成水平相關(guān)。(a)多核糖體表達(dá)譜的方法是通過離心將RNA分子分成多核糖組分，然后通過RNA-seq的方法進(jìn)行比較。在多核糖體組分中表達(dá)較高的RNA被認(rèn)為是更活躍的轉(zhuǎn)錄。(b)核糖體足跡(Ribo-seq)法使用RNase來降解暴露的RNA，同時(shí)保留那些被核糖體保護(hù)的未被降解的RNA。通過對(duì)這些保護(hù)的RNA進(jìn)行測序，就可以揭示出核糖體的密度與位置。通過修改變標(biāo)準(zhǔn)Ribo-seq方法，定量翻譯起始測序(QTI-seq)或翻譯復(fù)雜表達(dá)譜測序(TCP-seq)可以專門富集起始核糖體或其亞基，同時(shí)剔除延長的核糖體，因此可以對(duì)翻譯的動(dòng)態(tài)過程進(jìn)行更詳細(xì)的分析。對(duì)翻譯組RNA-seq數(shù)據(jù)的過計(jì)算分析可能確定每個(gè)mRAN的相對(duì)翻譯程度，可以研究翻譯的起始，延長與終止的動(dòng)力學(xué)過程。

在多核糖體表達(dá)譜實(shí)驗(yàn)中，使用蔗糖梯度超離心將與多個(gè)核糖體(多核糖體組分)結(jié)合的mRNA和與單個(gè)核糖體結(jié)合的mRNA（單核糖體組分）分離開來，前者用于RNA seq文庫制備(FIG. 5a)。與單核糖體組分中檢測到的mRNA相比，在多核糖體組織中檢測到的高豐度mRNAs可以被認(rèn)為翻譯得更頻繁。這種方法也可以用于推測單個(gè)mRNAs的翻譯狀態(tài)，也可以用于生成高分辨率的核糖體占有信息與密度（盡管它無法確定核糖體的位置）。這類方法的原始方法已經(jīng)進(jìn)行了幾項(xiàng)改進(jìn)。例如，使用非線性蔗糖梯度改善了多核糖體收集，使多核糖體在不同濃度蔗糖溶液界面的收集過程更為簡單，使用Smart-seq文庫構(gòu)建技術(shù)可以讓研究者們分析僅10ng級(jí)的多核糖體mRNA，使用更高分辨率的蔗糖梯度和深度測序可以檢測了轉(zhuǎn)錄本異構(gòu)體的特異性翻譯。然而，多核糖體表達(dá)譜實(shí)驗(yàn)生成的翻譯組信息分辨率相對(duì)低，這一過程還比較費(fèi)力，需要特殊的儀器，這就限制了其應(yīng)用范圍。

Ribo-seq是基于RNA足跡的方法，它最初用于酵母研究。這種方法用環(huán)己胺(cyclohexamide)來抑制翻譯延伸，并誘導(dǎo)核糖體在mRNAs上停滯。用RNase I消化mRNA會(huì)留下20-30個(gè)核苷酸，這20-30個(gè)核苷酸就是受核糖體保護(hù)的足跡，這些足跡被處理后用于制備RNA-seq文庫(FIG. 5b)。Ribo-seq能生成高分辨率的翻譯譜，描繪核糖體豐度和單個(gè)轉(zhuǎn)錄本的位置。而多核糖體分析中無法提供核糖體的位置信息時(shí)，這說明有可能檢測到了翻譯的暫停，這些檢查可以調(diào)節(jié)蛋白質(zhì)的表達(dá)。當(dāng)方法修改了緩沖液和對(duì)酶進(jìn)行了優(yōu)化后，就能更清楚地揭示Ribo-seq數(shù)據(jù)中3-bp的周期性，以及條形碼和UMIs（檢測單個(gè)分子的事件）。標(biāo)準(zhǔn)的RNA-seq工具可以用于Ribo-seq的計(jì)算分析，但最近已經(jīng)出現(xiàn)了特定的工具用于尋找開放閱讀框，用于差異或異構(gòu)體水平的翻譯分析，以及用于研究密碼子偏倚。Ribo-seq的主要限制就是超速離心，以及由于核酸酶不同批次間的變化，以需要經(jīng)驗(yàn)來確定RNase I的消化條件。

這些方法檢測的是來自翻譯起始、延伸和終止的信號(hào)的平均強(qiáng)度，但是對(duì)Ribo-seq的修改可使得其能夠研究翻譯動(dòng)力學(xué)。定量翻譯起始測序(Quantitative translation initiation sequencing, QTI-seq)通過化學(xué)“冷凍”和富集起始核糖體，同時(shí)從結(jié)合的mRNA中去除延長的核糖體來定位轉(zhuǎn)錄起始位點(diǎn)。翻譯復(fù)雜譜測序(Translation complex profile sequencing, TCP-seq)也通過在組裝成熟核糖體之前富集與40S核糖體小亞基結(jié)合的RNA來檢測起始位點(diǎn)。然而，由于這種方法中保留了核糖體的完整性，也可以分析和比較80S核糖體組分，從而更全面檢測翻譯動(dòng)力學(xué)(FIG. 5b)。

所有的翻譯組方法在概念上都是相似的；它們假設(shè)mRNA核糖體的密度與蛋白質(zhì)的合成水平相關(guān)。雖然它們的樣本制備方案不同，但都需要大量的起始細(xì)胞數(shù)。最終，翻譯組與RNA-seq結(jié)合起來研究基因的表達(dá)水平，并與蛋白質(zhì)組學(xué)一道來研究蛋白水平，這可能就需要對(duì)mRNA的翻譯進(jìn)行一個(gè)廣泛地理解。如果想要了解翻譯組的更詳細(xì)信息，可以閱讀最近的綜述。(比如我們生信技能樹前面的推文)

Ribo-seq分析必看文獻(xiàn)知識(shí)（四）：核糖體與蛋白質(zhì)合成相關(guān)生物知識(shí)

RNA結(jié)構(gòu)與相互作用分析(Beyond analysis of gene expression)

RNAs在調(diào)節(jié)其它生物分子和生物過程（例如剪接和翻譯）中發(fā)揮著重要作用，它們涉及RNA與各種蛋白質(zhì)和/或其它RNA分子的相互作用。RNA-seq可以用于研究分子內(nèi)和分子間RNA-RNA的相互作用(RNA-RNA interactions, RRIs)，這可能讓研究者更好地理解結(jié)構(gòu)組(structurome)，或者是研究RNA與蛋白質(zhì)之間的相互作用，這樣就可以深入理解轉(zhuǎn)錄與翻譯(FIG. 6)。針對(duì)相互作用組(interactome)分析而開發(fā)的各種方法都有一個(gè)共同的主題：在RNA中富集出那些與其它RNA有相互作用的RNA。一些方法利用的是天然生物學(xué)相互作用，而其它的方法則是在目標(biāo)分子之間計(jì)算瞬時(shí)作用力或共價(jià)鍵；大多數(shù)方法使用的是抗體pull-dwon、親和純化或探針雜交的手段來富集RNA進(jìn)行測序。在這里我們簡要描述一下主要的基于RNA-seq的方法來研究結(jié)構(gòu)組和相互作用體的內(nèi)容。

Figure6--RNA結(jié)構(gòu)和RNA-蛋白質(zhì)相互作用分析的關(guān)鍵概念

Figure 6-RNA結(jié)構(gòu)和RNA-蛋白質(zhì)相互作用分析的關(guān)鍵概念。(a)結(jié)構(gòu)組分析使用核酸酶或化學(xué)標(biāo)記試劑在全轉(zhuǎn)錄組范圍內(nèi)來研究結(jié)構(gòu)化RNA（例如雙鏈RNA，dsRNA）或非結(jié)構(gòu)化RNA（單鏈RNA，ssRNA）。在大多數(shù)實(shí)驗(yàn)中，在單獨(dú)的反應(yīng)中對(duì)ssRNA和dsRNA進(jìn)行檢測，其結(jié)果聯(lián)合反應(yīng)性分析法來確定其結(jié)構(gòu)特征。核酸酶消化方法使用針對(duì)dsRNA和/或ssRNA的一個(gè)或多個(gè)核酸酶來研究RNA的結(jié)構(gòu)。例如，在對(duì)RNA結(jié)構(gòu)要的并行分析(PARS)中，在體外使用RNase V1（一種dsRNA特異性核酸酶）或S1核酸酶（一種ssRNA特異性核酸酶）來酶切并行樣本。酶解后剩余的RNA被轉(zhuǎn)化為cDNA，然后進(jìn)行測序，測序的讀長深度與比對(duì)區(qū)域的反應(yīng)性成正比。RNA-seq數(shù)據(jù)的覆蓋和比較結(jié)果就能推斷RNA的結(jié)構(gòu)?；瘜W(xué)分析法(Chemical-mapping methods)，例如使用引物延伸的選擇性2?-羥基酰化分析法(SHAPE-seq)或突變表達(dá)譜分析法(SHAPE-Map)，這些方法通過結(jié)構(gòu)依賴形式在體外或體內(nèi)對(duì)雙鏈或單鏈區(qū)域的核糖核苷酸進(jìn)行修飾。標(biāo)記物可以阻斷逆轉(zhuǎn)錄，導(dǎo)致cDNAs的截短，或者是導(dǎo)致修飾位置錯(cuò)誤地?fù)饺胪蛔?。RNA被轉(zhuǎn)化為cDNA后進(jìn)行測序，讀長深度或突變率與比對(duì)區(qū)域的反應(yīng)性成正比，從而推斷RNA的結(jié)構(gòu)。(b)RNA-RNA的相互作用分析方法，例如SPLASH，這種方法的第一步是將有相互作用的RNA分子通過生物素化的補(bǔ)骨脂進(jìn)行交聯(lián)，然后以通過鏈霉親和素對(duì)其進(jìn)行富集，第二步是在鄰近位置加入相互作用RNA的自由端加入鄰近連接與及片段化。第三步是進(jìn)行RNA接頭的連接以及環(huán)化，制備RNA-seq文庫用于測序，從而揭示出分子內(nèi)（也就是結(jié)構(gòu)）的RNA相互作用以及分子間的相互作用位點(diǎn)。(c)RNA-蛋白質(zhì)相互作用方法，例如RNA交聯(lián)免疫沉淀后測序(CLIP-seq)，這種方法使用UV輻射在相互作用的RNA和蛋白質(zhì)之間產(chǎn)生共價(jià)交聯(lián)。目的蛋白被抗體富集后，與此蛋白結(jié)合的RNA也就被富集了下來，這些RNA加上3'接頭后，提取出來用于cDNA的合成。從結(jié)合了接頭的RNA生成的cDNA用于文庫制備，測序。

通過研究RNA分子內(nèi)的相互作用來研究RNA的結(jié)構(gòu)

核糖體RNA和tRNA構(gòu)成細(xì)胞的大部分RNA。它們與其他結(jié)構(gòu)非編碼RNA一起在細(xì)胞中發(fā)揮各種作用，例如從基因調(diào)節(jié)到翻譯。現(xiàn)存主要有兩種研究RNA結(jié)構(gòu)的方法：基于核酸酶的方法和化學(xué)探針方法。核糖核酸酶消化于1965年首次用于研究RAN(tRNA(Ala))的結(jié)構(gòu)。在接下來的40年中發(fā)展了化學(xué)方法，例如，通過引物延伸的選擇性2?-羥基?；?selective 2?-hydroxyl acylation analysed by primer extension, SHAPE)，此種方法用于在單堿基分率水平上檢測tRNA(Asp)的結(jié)構(gòu)。但是，只有將各種核酸酶法和化學(xué)方法與RNA-seq相結(jié)合，才能使方法從單一RNA轉(zhuǎn)移到全轉(zhuǎn)錄分析，這正在改變我們對(duì)結(jié)構(gòu)復(fù)雜性和重要性的理解。在這里，我們集中討論核酸酶和化學(xué)分析方法之間的主要區(qū)別(圖·6a)，如果想對(duì)這方面有進(jìn)一步的理解，可以看Strobel在這方面的綜述。

核酸酶方法，例如RNA結(jié)構(gòu)的平行分析法(Parallel Analysis of RNA Structure，PARS)和片段測序法(fragmentation sequencing, FRAG-seq)，這兩種方法使用能消化單鏈RNA(ssRNA)或雙鏈RNA(dsRNA)的酶。核酸酶消化后剩余的RNA用作RNA-seq的文庫構(gòu)建。隨后通過對(duì)產(chǎn)生的RNA序列數(shù)據(jù)進(jìn)行計(jì)算分析來識(shí)別結(jié)構(gòu)化(雙鏈)和非結(jié)構(gòu)化(單鏈)區(qū)域。核酸酶易于使用，可以用于研究ssRNA和dsRNA，但是由于核酸酶消化法的隨機(jī)特性，它們與化學(xué)分析法相比，分辨率比較低。此外，由于核酸酶尺寸比較大，這就限制了這些核酸酶進(jìn)入細(xì)胞，這就使得它們不適合體內(nèi)研究。

化學(xué)分析法使用與RNA分子反應(yīng)的化學(xué)探針，來標(biāo)記結(jié)構(gòu)化或非結(jié)構(gòu)化核苷酸。這些標(biāo)記要么阻斷逆轉(zhuǎn)錄，要么導(dǎo)致cDNA的錯(cuò)配，從而可以定位并分析RNA-seq讀長，用于揭示結(jié)構(gòu)組。SHAPE之后進(jìn)行測序，這種技術(shù)方法能夠RNA骨架上的核糖2’-羥基反應(yīng)來標(biāo)記未配對(duì)的ssRNA，雖然發(fā)夾環(huán)中的堿基折疊會(huì)降低其效率。Structure-seq與硫酸二甲酯測序(dimethyl sulfate sequencing, DMS-seq)能使用DMS來標(biāo)記腺嘌呤和胞嘧啶殘基，阻斷逆轉(zhuǎn)錄，最終從生成的截短cDNAs分析中推斷出RNA結(jié)構(gòu)。SHAPE和突變表達(dá)譜(SHAPE and utational profiling, SHAPE-Map)和DMS突變表達(dá)譜測序(DMS-MaPseq)都修改了實(shí)驗(yàn)條件，從而提高了逆轉(zhuǎn)錄酶的加工能力，并防止cDNA截短。相反，化學(xué)標(biāo)記會(huì)導(dǎo)致錯(cuò)配事件，在RNA-seq數(shù)據(jù)的分析中，能夠檢測出這些“突變”，從而揭示RNA結(jié)構(gòu)?；瘜W(xué)探針是小分子化合物，盡管由于細(xì)胞內(nèi)的環(huán)境處于動(dòng)態(tài)變化中，數(shù)據(jù)有可能更加多變，但是化學(xué)探針還是能夠用于研究活體內(nèi)的有生物學(xué)意義的結(jié)構(gòu)。化學(xué)探針還可以用于nascent RNAs的結(jié)構(gòu)分析，并揭示共轉(zhuǎn)錄RAN折疊的順序。

核酸酶和反轉(zhuǎn)錄阻斷方法通常產(chǎn)生短RNA片段，并且只報(bào)告單個(gè)酶切位點(diǎn)或化學(xué)標(biāo)記，而錯(cuò)誤結(jié)合和突變檢測方法可以報(bào)告每個(gè)讀長的多個(gè)化學(xué)標(biāo)記。沒有方法不存在偏倚；逆轉(zhuǎn)錄阻斷永遠(yuǎn)不會(huì)100%有效，本應(yīng)誘導(dǎo)突變的化學(xué)標(biāo)記可以阻斷cDNA合成，這兩個(gè)因素都可以影響數(shù)據(jù)的解讀。Spike-in控制有可能改善結(jié)構(gòu)組分析的質(zhì)量，但尚未得到廣泛使用。SHAPE方法的比較揭示了僅在體內(nèi)實(shí)驗(yàn)中才會(huì)出現(xiàn)效率差異，因此這就突顯出比較類似復(fù)雜方法時(shí)所需要謹(jǐn)慎。

這些方法正在產(chǎn)生關(guān)于RNA結(jié)構(gòu)如何在基因和蛋白質(zhì)調(diào)控中發(fā)揮作用的新理解。例如，DMS分析說明了，RNA結(jié)構(gòu)有可能調(diào)控APA，或許會(huì)減慢催化活性區(qū)域的翻譯，使得更多的時(shí)間用于蛋白質(zhì)的折疊，從而減少錯(cuò)誤折疊事件。結(jié)構(gòu)RNA-seq方法的結(jié)合有可能產(chǎn)生所有的完整結(jié)構(gòu)組信息。隨著該領(lǐng)域的擴(kuò)展，我們可能會(huì)發(fā)現(xiàn)，RNA的結(jié)構(gòu)與疾病的進(jìn)展和或疾病的狀態(tài)有關(guān)；最近的結(jié)果表明，異常RNA結(jié)構(gòu)在重復(fù)擴(kuò)張性疾病方面可能發(fā)揮作用。最終，結(jié)構(gòu)組分析也許會(huì)促進(jìn)那些靶向作用于研究透徹的RNA結(jié)構(gòu)的小分子的開發(fā)，從而開辟治療開發(fā)的新領(lǐng)域。

研究分子間RNA-RNA相互作用

分子間的RRIs在轉(zhuǎn)錄后調(diào)控中發(fā)揮著重要作用，例如miRNA與靶基因的3’UTR結(jié)合?，F(xiàn)在已經(jīng)開發(fā)了用于研究分子間RRI的工具，它們用于靶向分析和轉(zhuǎn)錄組分析。這些分析方法含有一個(gè)共同的工作流程，即RNA在打斷與鄰位連接之前，通過交聯(lián)來保護(hù)其相互作用(FIG. 6b)。大多數(shù)并非全部，由不同方法嵌合生成的嵌合cDNA來源于穩(wěn)定堿基配對(duì)（即相互作用）RRNA分子的連接。靶向方法，例如交聯(lián)，連接和雜交物測序(Crosslinking, ligation and sequencing of hybrids, CLASH)， RNA相互作用組分析和測序(RNA interactome analysis and sequencing, RIA-seq)和RNA反義純化方法測序(RNA antisense purification followed by RNA sequencing, RAP-RNA)能產(chǎn)生一個(gè)RNA或RNA家族的高深度相互作用圖譜。CLASH豐富了使用IP來進(jìn)行特定蛋白復(fù)合物介導(dǎo)的RRI分析方法，而RIA-seq使用反應(yīng)寡核苷酸來回收那些與靶基因有相互作用的RNAs；這兩種方法都無法區(qū)分直接和間接的RRIs，這就導(dǎo)致其生物學(xué)解釋變得復(fù)雜。為了提高RRI分析的分辨率，RAP-RNA使用補(bǔ)骨脂素(psoralen)和其他交聯(lián)劑，然后用反義寡核苷酸捕獲RNA，以及使用高通量RNA-seq來檢測直接和間接RRI。雖然該方法可以進(jìn)行更具體的分析，它需要制備多個(gè)文庫（每個(gè)交聯(lián)劑一個(gè)文庫）。

轉(zhuǎn)錄組方法從根本上類似于靶向方法：相互作用的RNA在體外被交聯(lián)后并被富集。通過減少進(jìn)入連接反應(yīng)的非相互作用RNA的量來提高富集的特異性，并且可以通過2D凝膠純化(如在RNA相互作用和結(jié)構(gòu)的補(bǔ)骨脂素分析(psoralen analysis of RNA interactions and structures, PARIS)或交聯(lián)RNA的生物素親和純化(如在補(bǔ)骨脂素交聯(lián)，連接和選擇的雜交測序， sequencing of psoralen crosslinked, ligated and selected hybrids,SPLASH)來實(shí)現(xiàn)，或者通過RNase R酶的消化來清除非交聯(lián)RNA(如在相互作用的RNA連接之后的RNA-seq, ligation of interacting RNA followed by RNA- seq， LIGR-seq)。連接后，在進(jìn)行RNA-seq文庫制備前，去除交聯(lián)，然后進(jìn)行測序。PARIS能夠生成所有方法中最高數(shù)目的相互作用次數(shù)，但是每個(gè)樣本需要75M的讀長，這些任何其他的RRI方法都多，并且所需要的DGE實(shí)驗(yàn)平均讀長深度是其他實(shí)驗(yàn)的2倍。

對(duì)整理好的RNA相互作用數(shù)據(jù)的分析可以對(duì)多個(gè)相互作用進(jìn)行可視化，并些這種分析方法已經(jīng)提示了RNA各類的RRI分布的變化?？傊?，90%的RRIs涉及mRNAs。近一半涉及miRNA或長鏈非編碼RNA，對(duì)于這些RNA，大多數(shù)相互作用都與mRNA靶基因相關(guān)。對(duì)這些整理數(shù)據(jù)的比較揭示了不同方法對(duì)特定RNA物種的偏倚，這導(dǎo)致這些方法之間幾乎沒有重疊。因此，繪制RRI的完整圖譜可能需要使用不止一種方法。然而，RRI方法有幾個(gè)局限性。也許最具挑戰(zhàn)性的就是RRI是動(dòng)態(tài)的，并受結(jié)構(gòu)構(gòu)象和其他分子間相互作用的影響，這使得在沒有重復(fù)的情況下，很難對(duì)其進(jìn)行解釋。分子內(nèi)的相互作用為分子間的RRI分析增加了干擾，這就需要過濾并除去那些高度結(jié)構(gòu)化的RNAs，例如rRNAs。其它的問題還包括RNA提取過程中相互相互作用的打斷，這就需要穩(wěn)定的交聯(lián)方法，但最常用的RRI交聯(lián)劑是補(bǔ)骨脂素和4’-氨基-甲基三氧沙林(4?-amino- methyltrioxsalen, AMT)，這些交聯(lián)劑只交聯(lián)嘧啶，其效率比較低，會(huì)降低靈敏度。此外，鄰近連接步驟低效，并且這會(huì)連接相互作用和非相互作用RNA，進(jìn)一步降低靈敏度。

研究RNA-蛋白質(zhì)相互作用

ChIP-seq已經(jīng)成了繪制和研究DNA-蛋白質(zhì)相互作用不可或缺的工具；類似的IP方法也用于研究RNA-蛋白質(zhì)的相互作用。RNA-蛋白質(zhì)相互作用方法依賴于IP，利用針對(duì)感興趣的RNA結(jié)合蛋白的抗體來捕獲其結(jié)合的RNA進(jìn)行分析（第一次報(bào)道時(shí)是用芯片進(jìn)行分析的）(FIG. 6c)。各種RNA-蛋白質(zhì)相互作用方法之間最明顯的區(qū)別在于相互作用的RNA和蛋白質(zhì)是否交聯(lián)以及如何交聯(lián)：一些方法避免交聯(lián)(天然IP， native IP)，其他方法使用甲醛進(jìn)行交聯(lián)，一些方法使用紫外線(UV)光進(jìn)行交聯(lián)。最簡單的方法就是RNA免疫沉淀測序(RNA immunoprecipitation and sequencing, RIP-seq)，時(shí)常，但并非所有情況下都使用天然IP法，以及并非總進(jìn)行RNA打斷。這種簡便性使用該方法易于被采用。這種方法能產(chǎn)生有用的生物學(xué)信息，但是它有兩個(gè)重要的缺陷。第一，用于保存RNA-蛋白質(zhì)相互作用的前提是需要進(jìn)行溫和地洗滌，這就意味著富集的片段中有相對(duì)高的非特異性結(jié)合片段。第二，沒有進(jìn)行RNA打斷就降低了結(jié)合位點(diǎn)的分析。因此，RIP-seq具有高度靈活性，并依賴于RNA-蛋白質(zhì)結(jié)合的自然穩(wěn)定性。使用甲醛交聯(lián)在RNA與其相互作用的蛋白質(zhì)之間產(chǎn)生可逆的共價(jià)鍵提高了穩(wěn)定性，并減少了非特異性RNA的回收，但甲醛也會(huì)導(dǎo)致蛋白質(zhì)-蛋白質(zhì)的交聯(lián)。這種影響可以通過使用0.1%的甲醛（比ChIP-seq研究使用的甲醛低10倍）進(jìn)行溫和的交聯(lián)來降低，這能在多個(gè)蛋白質(zhì)靶點(diǎn)上產(chǎn)生高質(zhì)量的結(jié)果。

在CLIP中使用254nm的UV來進(jìn)行聯(lián)系是一項(xiàng)關(guān)鍵的技術(shù)，它提高了RNA-蛋白質(zhì)相互作用分析方法的特異性和位置分辨率。UV交聯(lián)在蛋白質(zhì)和RNA的相互作用位點(diǎn)產(chǎn)生共價(jià)鍵，但最重要的是，它不對(duì)蛋白質(zhì)-蛋白質(zhì)相互交聯(lián)。這就穩(wěn)定了RNA-蛋白質(zhì)的結(jié)合，允許嚴(yán)格的富集，破壞了天然RNA-蛋白質(zhì)的相互作用，減少了背景信號(hào)。CLIP的實(shí)驗(yàn)方法隨后就構(gòu)成了許多方法發(fā)展的基礎(chǔ)。單個(gè)核苷酸分辨率的CLIP(iCLIP)將UMIs整合到文庫中，用于移除PCR復(fù)制。它還利用了cDNA合成在交聯(lián)核苷酸處常見的過早截短，通過對(duì)截短的cDNA進(jìn)行擴(kuò)增來獲得交聯(lián)位點(diǎn)的定量，核苷酸級(jí)分辨率圖譜。光激活核糖核苷增強(qiáng)片段(Photoactivatable- ribonucleotide-enhanced CLIP,PAR-CLIP)通過使用4 sU和356nM的UV來進(jìn)行交聯(lián)。在細(xì)胞培養(yǎng)過程中，4 sU被整合到內(nèi)源RNAs中，356nm的UV輻射會(huì)在4 sU整合位點(diǎn)處產(chǎn)生交聯(lián)（產(chǎn)生高度的特異性）。在產(chǎn)生的測序數(shù)據(jù)中檢測反轉(zhuǎn)錄誘導(dǎo)的T>C替換就會(huì)能夠?qū)崿F(xiàn)堿基對(duì)級(jí)的分辨率，并且能夠區(qū)分交聯(lián)片段和非交聯(lián)片段，進(jìn)一步降低背景信號(hào)。最近對(duì)CLIP的改進(jìn)提高了它的效應(yīng)和靈敏度。紅外CLIP(infrared CLIP, irCLIP)用紅外凝膠成像技術(shù)來代替放射性同位素檢驗(yàn)，它是基于珠子的純化技術(shù)。與常規(guī)的iCLIP使用的1百萬到2百萬細(xì)胞相比，這些技術(shù)的改進(jìn)可分析只有2萬個(gè)細(xì)胞的RNA-蛋白質(zhì)相互作用。增強(qiáng)型CLIP(enhanced CLIP, eCLIP)拋棄了RNA-蛋白質(zhì)復(fù)合物的質(zhì)控和可視化操作，而是在RNA接頭中添加了條形碼，這種改進(jìn)可能讓所有的樣本混合到一起，并用珠子來代替了凝膠。這些改進(jìn)旨在簡化實(shí)驗(yàn)操作，eCLIP實(shí)驗(yàn)已經(jīng)研究了近200個(gè)蛋白，它已經(jīng)成了ENCODE項(xiàng)目的一部分。但是，irCLIP與eCLIP目前都沒有被廣泛采用，部分原因是eCLIP和irCLIP的靈敏性增加的原因是由于其特異性降低導(dǎo)致的，比如利用兩個(gè)方法所鑒定的PTBP1結(jié)合位點(diǎn)上結(jié)合或有序和調(diào)節(jié)外顯子的富集減少。隨著公共數(shù)據(jù)庫中可用的大量數(shù)據(jù)為計(jì)算分析提供了新的機(jī)會(huì)，因此謹(jǐn)慎考慮CLIP數(shù)據(jù)的質(zhì)控，過濾，以及峰值調(diào)用(peak calling)和歸一化方法就變得非常重要，這些會(huì)影響數(shù)據(jù)的生物學(xué)解釋。為了更全面地討論 RNA-蛋白質(zhì)的相互作用的CLIP實(shí)驗(yàn)方法，我們建議讀者可以閱讀最近關(guān)于這個(gè)主題的綜述。

一些RRI以及所有的RNA-蛋白質(zhì)結(jié)合方法對(duì)IP的依賴限制了其對(duì)有良好特征抗體蛋白質(zhì)的研究，而非特異抗體的結(jié)合仍然是一個(gè)問題（雖然這一問題并非局限于這個(gè)領(lǐng)域）。RNA結(jié)構(gòu)也會(huì)影響RNA-蛋白質(zhì)之間的相互作用；一些蛋白質(zhì)能識(shí)別特異的RNA二級(jí)結(jié)構(gòu)或與這些結(jié)構(gòu)競爭結(jié)合RNA，這使得體外的發(fā)現(xiàn)轉(zhuǎn)向體內(nèi)就變得復(fù)雜了。此外，結(jié)構(gòu)和RNA-蛋白質(zhì)相互作用方法通常報(bào)告一個(gè)特定轉(zhuǎn)錄本或位置的平均值。在實(shí)驗(yàn)室方法中，在計(jì)算方法和單分子測序方面的未來發(fā)展或許有助于破譯一些這些生物變異。

結(jié)論

Wang，Gerstein和Snyder關(guān)于RNA-seq將“革命性地[如何]分析真核轉(zhuǎn)錄體”的預(yù)測肯定是正確的。但是，即使是他們，也有可能對(duì)這種轉(zhuǎn)型的規(guī)模感到驚訝?，F(xiàn)在我們可以分析RNA生物學(xué)的許多方面，這對(duì)于基因組功能、研究開發(fā)和確定導(dǎo)致癌癥和其他疾病的分子調(diào)控異常方面來說是必不可少的。雖然生物學(xué)發(fā)現(xiàn)階段還遠(yuǎn)未結(jié)束，但是已經(jīng)在臨床中使用了RNA-seq方法。單細(xì)胞測序正在成為許多實(shí)驗(yàn)的標(biāo)準(zhǔn)配置，空間轉(zhuǎn)錄組學(xué)的分析可能會(huì)遵循類似的路徑，使其能夠在與開發(fā)當(dāng)前方法的實(shí)驗(yàn)室范圍之外使用。長讀長測序方法也有可能取代當(dāng)前相當(dāng)大比例的研究者們默認(rèn)選擇的Illumina的短讀長RNA-seq。對(duì)于這種情況的出現(xiàn)，長讀長測序技術(shù)還需要在增加通量和降低錯(cuò)誤率方面做出極大的改進(jìn)。然而，長讀長mRNA異構(gòu)體測序的優(yōu)點(diǎn)是，如果它變得像現(xiàn)在短讀長測序一樣便宜和可靠，那么對(duì)于那些除了易降解材料外，長讀長測序就可能是首選?？紤]到這些因素，那么任何關(guān)于RNA-seq在未來十年可能如何發(fā)展的預(yù)測都有可能過于保守。

后記

如果你看到這里，應(yīng)該是真的對(duì)學(xué)習(xí)有追求，那么發(fā)郵件（jmzeng1314@163.com）給我，需要你簡單的自我介紹，誠心一點(diǎn)哦，就可以拿到本綜述的markdown翻譯文件，該綜述的PDF，以及一套精心編輯好的轉(zhuǎn)錄組流程視頻演練，希望你能像看綜述這樣的認(rèn)真學(xué)習(xí)本流程，等你哦！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：祥強(qiáng)6csdm0n3vs > 《生信類》

舉報(bào)/認(rèn)領(lǐng)