RNA

菌心說 2022-01-27

展開全文

本文是由比利時列日大學Marc HANIKEN課程整理。陸陸續(xù)續(xù)交付NE大學??1個月完成，根據(jù)需要做的內容分為四個部分。
第一部分：將RNA-seq數(shù)據(jù)提交到組基因
上第第二部分：將把-seq基因數(shù)據(jù)表達到分析組推薦上，用于生成基因表達分析組，
第三部分使用DESeq包不同差異，
第四部分：對第三部分的表達GO和KEGG評論

1 目標

RNA-Seq的目標是說明如何處理和分析RNA-Seq的數(shù)據(jù)以識別差異基因（DGE）。
練習中使用真實的數(shù)據(jù)集，來自于加州的Illumina的表達基因RNA。
需要做：
1。在參考基因組）（每組參考工具組）（每組工具組）（工具組）上閱讀計數(shù)，作為替代帽子和排列的策略
；DESeq（R語言）2不同的基因（DGEs）
3）。簡單進行數(shù)據(jù)挖掘（GO和KEGG解釋）。

2 數(shù)據(jù)介紹

擬植物南芥的基因型（wt 組織模式和多種體型）在（c）和處理（t）條件下處于下。本樣品獨立株植物實驗） 3 3 次 NextSeq 0 儀器以 4 次重復使用Illumina。集群基因組和芯片組在整個組件中運行，使用中和兩個 bp 的 5 個端快速介紹。。

3 分析數(shù)據(jù)

3.1 查看數(shù)據(jù)

head <your_sample>.fastq
查看每個文件數(shù)據(jù)的讀數(shù)：

圖像.png

將所有的樣本名稱攔截一個文件
，這樣方便進行處理。

for f in *.fastq; do echo `basename $f .fastq`; done > samples.ids

3.2 RNA-Seq 數(shù)據(jù)分析中讀取映射的一般考慮

在分析Seq -Seq 時，有通用策略在計數(shù)之前讀取數(shù)據(jù)時。當這種方法時，雖然看似有某種相似的檢測能力，但通常很可能會被認為沒有檢測到，因為它確實沒有什么合適的本機或本類型。（基因
ii）也可以使用組播組上合適的組播。幾乎適用于所有這些。然而，有多種方法可以證明本和本的表達方式不同。

第一部分：3.3 讀取映射到參考基因組

3.3.1 工具介紹

1. 頂帽軟件

我們將使用流行的帽子，這是將 RNA-Seq 外接閱讀與基因組外顯子以識別子程序-顯式程序的短連接的。更多
點擊查看：Tophat鏈接。

TopHat 如何找到連接點的原理：

TopHat 可以通過注釋的情況下將 RNA-Seq 讀取到沒有參考基因。這個映射信息，TopHat建立一個可能的剪接連接的數(shù)據(jù)庫，然后將讀取映射到這些連接以確認它們。

這一段讀到這個標題的機子可能有1個00個遺漏或短問題的外顯，但會在最初的象征中將比所有的內容都被更多地漏掉。獨立映射這些。

TopHat 兩個約定生成可能的剪接點數(shù)據(jù)庫。這種情況，“GTAG”、“GC-AG”和“AT-AG”和“AT-AG”和“AT-AG” AC“通常在其中含有不同品種的標題尋找。第二個來源是“封面年齡的島嶼”的開始，是最終中部的中部地區(qū)尋找到的。將這些內含子連接起來的方法。我們只建議第二個選項（--coverage-search）用于將短讀取（<45bp）和用戶讀?。?lt;=1000萬）。后一個選項對“GT-AG”內含子之間的比。

Tophat可以使用FASTA,FASTQ(推薦)格式的讀取。

想要使用這個軟件，首先需要使用一下命令：

圖像.png

Bowtie2用于熱門組上的閱讀。

蝶領結擅長使用一種超高配的技術，用于與組合工具和排列組合。 Bowtie 2 保持珠寶形狀使用組合（基于Browtie 2 對BWT 進行），通常其占用或占用的內存大小。 Bowtie 2 的結構需要占用多少個內存。雙端模式。同時可以使用多個處理器來更高的關注度。

Bowtie 2 以SAM 格式輸出的其他方式，以SAM格式輸出的其他方式，使用授權文件和大量使用同樣的工具（SAMtools、GATK 的許可互操作）。Bowtie 2GPLv3 在和下分發(fā)，Mac OS X Linux BSD 和它在Windows 下的運行。

Bowtie 2和Bowtie 2和Bowtie BS （這里也叫“集成1 ” sowtie 2和Bowtie BS）通常是比較多種其他學組的，包括變異、RNA-seq、Ch IPeq。工具中，這里有其中一些。

要與 Tophat 的連接點，您首先需要為 RNA-Seq 中的生物體安裝蝴蝶結指數(shù)。使用 bowtie2-build 很容易自己制造一個。

圖像.png

Bowtie2 從 bowtie 索引中提取信息，允許確定它是什么索引以及使用什么序列來制造它。

2. GFF/GTF 格式文件

通過基因特征（例如外含子/內含子描述格式組的基因組）提供的基因組注釋文件，可以幫助通過頂帽在基因組上進行讀取映射。注釋文件以 GFF/GTF 提供。

Tophat 使用的基因組注釋文件就是 GFF/GTF
格式。

圖像.png

GTF(general transfer format)是GFF第二個版本，

3 htseq-count軟件

給定一個具有組合范圍的基因的文件，htseq-count 會計算出有多少讀取的特征映射到某個特征列表。 - 在每個情況下，特征通常是每個基因被結合的，其中所有外顯子的地方也可以顯示子的一個特征，例如，為了檢查。對于比較 ChIP-Seq，特征可能是列表中的結合區(qū)域。

htseq-count 腳本允許在不同模式之間進行選擇。 hts-count 的位置重疊模式的工作原理如下：定義一個集合 S(i) 的位置為我重疊的特征的集合。然后，考慮集合 S，它是（我遍歷或讀取對中的所有位置）

并集，取所有模式集合 S(i) 的并集。對于大多數(shù)使用示例，建議使用此模式。
交集，嚴格的所有模式集合 S(i) 的交集。
如果S(i) 的交集，S(i) 的所有非空集。
如果交集包含一個特征，則該特征計算可讀取（或讀取對）。它包含多個特征，則可讀取（或非模式）讀取對）計為不明確的特征（不計入任何特征，如果S為，則讀?。ɑ驅Γ┯嫗閚o_feature。
看圖更清晰的理解：

圖像.png

3.3.2 下載擬南芥參考

網(wǎng)址：https://www./（需要注冊）
也可以使用以下命令：

curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
TAIR10_genome_release/assembly/TAIR10_Chr.all.fasta.gz
curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
Araport11_latest/annotation/Araport11_GFF3_genes_transposons.201606.gff.gz
curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
Araport11_latest/annotation/Araport11_GFF3_genes_transposons.201606.gtf.gz

3.3.3 給基因參考建索引

使用bowtie2-build。

為擬南芥編制索引，花費2分鐘

bowtie2-build Arabidopsis.fasta At_ref

檢查指數(shù)，幾秒鐘

bowtie2-inspect -n At-ref

3.3.4 讀取映射

內容為存在以逗號隔FA打開的FASTQ或STA格式文件

使用tophat完成

一般使用命令：

圖像.png

更多的選擇閱讀文檔

其中： --num-threads 4 ##可以多線程
--output-dir <string> ## tophat輸出結果的文目錄
--min-intron-length <int> ##內含運行子的長度：默認700
--intron-length <intmax的長度>：
TopHat <GTF/0000000000000000-G--GTF <GTF3文件> #默認為模型50--提供基因組內和/或已知作為 GFF3 的最佳主題，該格式的主題圖 2 將按順序排列。在一張組上進行映射的地圖將被轉換為組圖（并描繪出新的描繪需要）中的映射和連接點與頂層。

請注意，所提供的 GTF/GFF 文件的第一個索引（指示特征所在的染色體相列或重疊群的列）的必須與 TopH 的 Bowtie-中的參考值。您可以使用序列匹配檢查進行
。蝴蝶結指數(shù)，以便將與預期的本圖顯示。和相關的這些數(shù)據(jù)（如果 GFF 文件最初可以在此使用選項的多個 TopHat 中運行，因此文件僅針對給定的本計劃數(shù)據(jù)的第一次使用創(chuàng)建。該頂帽子，則應首先使用 -G/---G 腳本的位置以及指向目錄和名稱標題的標題，然后將標題顯示的主題目錄和標題目錄的選項運行的選項將顯示在頂部的主題目錄中。 -- 將運行的中轉腳本-將使用頂部的運行腳本-創(chuàng)建使用直接在第一次運行選項組的數(shù)據(jù)（第一次選項后需要的組數(shù)據(jù)）。

開始操作

軟參考鏈接組基因的FASTA：

ln -s Arabidopsis.fasta At_ref.fa

創(chuàng)建簡單的索引。立即創(chuàng)建，方便使用所有樣本，簡單組圖 5 分鐘

tophat -G Arabidopsis.gtf --transcriptome-index=transcriptome_data/At_ref At_ref

會在transcriptome_data/下產生10個文件

映射閱讀，先創(chuàng)建一個模板

tophat -o output_[% basename %] --read-mismatches 2 --min-intron-length 40 --max-intron-length 2000 --num-threads 2 --report-secondary-alignments --no-novel-juncs --transcriptome-index=transcriptome_data/At_ref At_ref [% basename %].fastq

樣品創(chuàng)建一個灰

for f in `cat samples.ids`
do tpage --define queue=smallnodes --define basename=$f tophat.tt > tophat_$f.sh
done

提交任務：

for f in `cat samples.ids`
do qsub -pe snode 2 tophat_$f.sh
done

此步驟費用大約 1 小時
查看任務

qstat -f

對所有的樣本進行總結查看

for f in `cat samples.ids`
do head output_$f/align_summary.txt
done

3.3.5 讀計數(shù)

使用htseq-count

圖像.png

指定輸出任務的一個表，包含功能（這里是由于計算）的計數(shù)，然后是特定測點的特殊點，用于未針對特定原因進行的讀取。于過濾。情況是：

圖像.png

提示：如果你有特定于鏈的特定數(shù)據(jù)，否則請確保你設置的 RNA-Seq 數(shù)據(jù)不是特定鏈的協(xié)議。-strand=no！
htseq-count 有很多選項，請查看鏈接文檔
的一些選項：
-f < sam or bam># 輸入文件，sam 或 bam 格式

-s <yes/no/reverse>
數(shù)據(jù)是否來自特定鏈的檢測（默認：yes）。上雙淺=no，無論是映射到特征還是相同的鏈，都讀取與特征值重疊。 strand=reverse，這些規(guī)則是相反的。

讀計數(shù)模板

htseq-count -f bam -s reverse output_[% basename %]/accepted_hits.bam Arabidopsis.gtf

運行花費半個小時。

搜索征集統(tǒng)計信息

貝殼命令

for f in <your_name>_htseqcount_*.o*; do tail -n 5 $f; done

.組件計算矩陣

基因的名字

cut -f1 <your_name>_htseqcount_<your_sample>.o<job_number> > gene_lists

識數(shù)

for f in `cat samples.ids`
do cut -f2 <your_name>_htseqcount_$f.o* > $f.count
done

組件列表和計數(shù)

paste gene_lists *.count > <your_name>_htseqcount.matrix

得到這個結果文件，將用于 GE 的統(tǒng)計分析，

第二部分： 4閱讀到參考組。

3.4.1 工具介紹

trinity耶路撒冷大學開發(fā)的一種新方法，由新地軟件從
三個三角形研究所和模塊組成。以蝴蝶全長的基因圖譜，將高清圖片序列。剪剪接體像這樣的節(jié)目，并用系同源的節(jié)目本，是同源工作的：

尺蠖——長短的本序列，通常能夠以同樣的方式組裝成不同類型的本子，通常為類型生成全長RNA本，但只要報告播種接本本的獨特部分。
這些蛹的連續(xù)性將菊花的排列組合成簇，并為各個簇集組成。de Bruijs 在簇代表基因（或隨后的排列順序的組圖）的完整不相交交性。間劃分完整的閱讀集。
蝴蝶源處理本本圖，跟蹤圖片閱讀和閱讀，最終報告出同種類型的全長接續(xù)本，并播出基因于旁系同種的劇情。

2組組您需要分析
完成后，可以進行分析，以便根據(jù)預測和輸入的 RNA-S-A 數(shù)據(jù)探索體模型的相關參數(shù)。

其他分析先決條件，例如用不同的表達方式舉例說明的本。
如果你的樣本和產品的基因數(shù)據(jù)重復存在并進一步檢查相關關系。如果檢查或復制或檢查異常值的組合因素，例如異常值的組合結果，你將在任何混雜的情況下發(fā)現(xiàn)你的樣本和生物。數(shù)據(jù)探索中考慮到他們。
進行差異表達分析。Trinity 直接支持阿德萊德分析方法，包括 edgeR、DESeq2、Limma/Voom 和 ROTS。
提取使用的編碼區(qū)TransDecoder和功能注釋使用的成績單Trinotate。
如果您的身體擁有組件的基因，請考慮使用 Trinity 組合組合討論使用PASA進行結構。

分析使用每一個腳本：使用對齊的工具進行統(tǒng)計分析。因此，我們將使用對齊的工具來展示
代碼。使用SEM的一個例子，其應用程序的一個問題是如何處理數(shù)據(jù)的不同類型的。 RSEM雙端數(shù)據(jù)分別采用不同類型的RNA-Seq，分別從不同頭型和類型端進行衡量基因組。

請注意，Trinity 提供了一個密切關注和高清晰的收視率統(tǒng)計方案。

3
必須提供數(shù)據(jù)標準的日歷統(tǒng)計方法（如指數(shù)或數(shù)字各種統(tǒng)計。）的預告統(tǒng)計片提供，另外還提供了預告到本刊的預告，該預告片還應報道長短片、發(fā)布到每個千月的預告圖，以及發(fā)布任何本期的預告。本千報告為本本長的圖片（FPKM）或每本本（TPM）的長展示。

3.4 擬擬南芥參考組2。

來自Araport，需要登錄進行免費注冊。再使用以下代碼獲取。

curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
Araport11_Release_201606/annotation/Araport11_genes.201606.cds.fasta.gz

3.4.索引擬南芥參考組3

使用ltrinity的perl命令：align_and_estimate_abundance.pl，可以對所有樣本一次完成。

圖像.png

索引的操作命令

perl /media/vol1/apps/trinityrnaseq-2.2.0/util/align_and_estimate_abundance.pl --transcripts Arabidopsis_transcripts.fasta --est_method RSEM --aln_method bowtie2 --prep_reference --output_dir ref_transcriptome_index

這個過程花費大約5分鐘，會生成14個文件，包含.bowtie2 .和.RSEM

3.4.4 對排列和計數(shù)

使用 ltrinity 的 perl 命令：align_and_estimate_abundance.pl，并使用 RSEM 估計方法

圖像.png

2建立gene_trans_地圖
需要快速編排的文件，并且需要我們安排一個由安排快速編排的文件，以一個中的指揮安排名稱的方式
的文件、外殼的意思

grep \> Arabidopsis_transcripts.fasta | cut -f2 -d '>' | cut -f1 -d '|' > transcripts.ids
# Let's paste twice this list in the same file
$ paste transcripts.ids transcripts.ids > double_transcripts.ids
$ head double_transcripts.ids
# And apply the following perl one liner to remove the transcript number
# from 1st column
$ perl -nle 's/^(AT\w+)\.\d+/$1/g; print' double_transcripts.ids > gene_trans_map.txt

3、進行地圖和計數(shù)

align_and_estimate_abundance.pl 命令

使用模板：

perl /media/vol1/apps/trinityrnaseq-2.2.0/util/align_and_estimate_abundance.pl --transcripts Arabidopsis_transcripts.fasta --seqType fq --single [% basename %].fastq --est_method RSEM --aln_method bowtie2 --SS_lib_type R --thread_count [% thread %] --gene_trans_map gene_trans_map.txt --output_prefix [% basename %] --output_dir trinity_[% basename %]

創(chuàng)建多個樣本的sh文件：

for f in `cat samples.ids`
do tpage --define queue=smallnodes --define basename=$f --define thread=2 trinity_align_estimate.tt > align_estimate_$f.sh
done

提交任務：

for f in `cat samples.ids`
do qsub -pe snode 2 align_estimate_$f.sh
done

這大概要花90分鐘
再看看你的結果：

圖像.png

3.4.5 生成表達矩陣

使用：trinity下的abundance_estimates_to_matrix.pl命令將
非常簡單地創(chuàng)建一個矩陣，將所有樣本的腳本數(shù)據(jù)組合。

perl /media/vol1/apps/trinityrnaseq-2.2.0/util/abundance_estimates_to_matrix.pl --est_method RSEM trinity_*/*.genes.results --out_prefix <your_name>

大概需要2分鐘

該腳本輸出多個文件
。（未跨樣本歸一化）和TMM歸一表達值矩陣（應用了跨樣本歸一化）。有關此查看更多詳細信息：https://github.com/trinityrnaseq/trinityrnaseq/wiki/Trinity -成績單-量化

第三部分： 3.5 差異表達的基因

使用R包DESeq2。

3.5.1 包介紹

詳細文檔介紹：https:///packages/release/bioc/html/DESeq2.html。
允許估計來自高均等模型和 GLM 的分析值（基于 2 個基于使用負二的分布）。

圖像.png

DESeq2將首先對數(shù)據(jù)進行建模的例子。
這里可以從設置的系數(shù)開始，
就
可以確定。的子函數(shù)，用于第一次存儲計算和差異表達式分析的結果、數(shù)據(jù)集在“計數(shù)”矩陣中強制輸入的非任務值，作為分析列表中的一個元素存儲。實驗設計的表達式。
使用：DESeqSetFromMatrix(countData, colData, DESeqSetFromMatrix(countData, colData, 公式
設計：設計一個來每個基因的排列方式) 是公式中的公式。 colData 中的表達式公式，包括具有多個變量的設計元素，例如：輸入組組基因，以及為各種結果+結果的設計，例如類型+治療基因型：治療基因型。查看設計的
選擇矩陣
。
2 DESeq DESeq
數(shù)據(jù)基于負二項格式進行差異分析。它通過以下步驟執(zhí)行默認分析：
· 估計大?。篹stimateSizeFactors
· 估計色散：estimateDisions
· 二項式 GLM 負測試和 Wald 統(tǒng)計：統(tǒng)計

有關每個步驟的詳細信息，請參閱相應手冊頁。調整值的信息，請參見結果手冊頁。

使用DESeq(object)，是一個DESeqDataSet的對象。如：DESeqDataSetFromMatrix。

3
DESeq 中抽取結果表，樣本的基本均值2 對數(shù)變化、標準結果分析結果和檢驗結果的倍數(shù)、檢驗統(tǒng)計量、p 后的p 調整。

結果名稱返回模型的估計模型（因子）的名稱
。

results(object, contrast, lfcThreshold = 0, alpha = 0.1)
resultsNames(object)

參數(shù)是DESeqDataSet已經在其上調用中以下函數(shù)： DESeq 、bino值對比WaldTest或nbinomLRT之一，對比值比較變化
從生成結果表。
lfcThres
0 是一個負值，指定log2非倍數(shù)的母值參數(shù)公式，值為 0，log2 倍數(shù)的名稱是最常用的值。 log2 倍數(shù)的默認值變化的測試。

alpha 優(yōu)化的顯著性結束值（默認為 0.）。如果調整的 p 最終值 (FDR) 為 1，則 alpha 應設置為該值。
plotCounts
plotCounts 允許在對數(shù)字上為 0.1 使用：plotCounts
( dds, gene, in = 'condition')
dds 是 DESeqDataSet.，gene 是一個特殊的基因，intgroup:在colData(x)中，進行分組的名稱。

3.5.2 下載DESeq2

library(BiocManager)
BiocManager::install('openssl')
BiocManager::install('RCurl')
BiocManager::install(c('DESeq2','limma','gplots'), force = T)

3.5.3 特征基因表達差異（成對比較）

我們將在下面發(fā)現(xiàn)的基因需要允許需要的 R 腳本。您在里面按順序添加每個新步驟。然后，根據(jù) DGE 的治療類型（Ctrl vs Treat），最后治療對各個種的類型。基因中必須考慮到這一點。

Step 1. 加載數(shù)據(jù)并描述數(shù)據(jù)集

#Load data
countData=read.table('tophat_root.matrix',header=TRUE,row.names=1,sep='\t')
head(countData)
#Describe the dataset for each variable
genot=rep(c('WT','mut'),each=6)
treat=(rep(rep(c('Ctrl','Treat'),each=3),2))
g_t=rep(c('WT-Ctrl', 'WT-Treat', 'mut-Ctrl', 'mut-Treat'),each=3)
#Load dataset description in a data frame
colData=data.frame(g_t,genot,treat,row.names=names(countData))
colData

步驟 2. 建立基因型響應分析模型

#Genotype effect
#####
#Load data using the DESeqDataSetFromMatrix command
genotDesign=DESeqDataSetFromMatrix(countData = countData,colData = colData,
                                   design = ~ genot)
#Build model using the DESeq command
genot_DESeq <- DESeq(genotDesign)
#Observe parameters of the model
resultsNames(genot_DESeq)

步驟 3. 使用 PCA 對數(shù)據(jù)進行匯總統(tǒng)計

rld<-rlog(genot_DESeq)
#tiff(filename = 'PCA_genot.tiff', width = 1500, height = 1500, units = 'px', res = 150)
plotPCA(rld, intgroup=c('g_t'))
dev.off()

Step 4. 建立樣本距離的熱圖

#Build sample distance
sampleDist <- dist(t(assay(rld)))
#Build heatmap
sampleDistMatrix<-as.matrix(sampleDist)
rownames(sampleDistMatrix)<-paste(rld$g_t)
colnames(sampleDistMatrix)<-NULL
colours=colorRampPalette(rev(brewer.pal(9, 'Blues')))(300)
tiff(filename = 'heatmap_sampledist_Treat_root.tiff', width = 1500, 
     height = 1500, units = 'px', res = 150)
heatmap.2(sampleDistMatrix, dendrogram = 'both', trace = 'none', col = colours,
           main = 'Treat Root Sample Distance', margin=c(6, 8))
dev.off()

步驟 5. 識別基因型主動的 DGE

#Extract results (contrast WT and mutant) with set lfc and pvalue
res_genot=results(genot_DESeq, contrast = c('genot', 'mut', 'WT'), 
                  lfcThreshold = 1, alpha = 0.05)
#Observe the summary of the analysis
summary(res_genot)
#Look at the results
head(res_genot,2)
#Export data into a table
write.table(res_genot,'pairwise_root_WT_vs_mut.txt',sep='\t')
#Filter data to extract up-regulated genes with a certain lfc and pvalue
fc_genotM<- res_genot[which(res_genot$log2FoldChange > 1 & res_genot$padj<0.05),]
#Filter data to extract down-regulated genes with a certain lfc and pvalue
fc_genotL<- res_genot[which(res_genot$log2FoldChange < -1 & res_genot$padj<0.05),]
#Export data into tables
write.table(fc_genotM,'root_higher_mut_vs_WT.txt',sep='\t')
write.table(fc_genotL,'root_lower_mut_vs_WT.txt',sep='\t')

步驟 6。

plotCounts(genot_DESeq, 'AT2G19110', intgroup = 'genot')

第四部分：3.6數(shù)據(jù)挖掘

我們非常容易和我們一起使用 GE 數(shù)據(jù)集進行的數(shù)據(jù)接口。 Thalemine 非常容易獲得相關數(shù)據(jù)集的功能。
https://bar./thalemine/

為了使用這個，我們首先需要從DESeq中
生成2個提取DESeq的文件（8個生成對.txt，8個工具對.txt和8個過濾低解析）。列表的數(shù)據(jù)我們只生成一個對high.txt和lower.*txt文件部分。
使用外殼對文件信息提取，并進行合并：

mkdir full_DGE_data
mv pairwise*.txt full_DGE_data
ls
# have a look at one of the files
 head higher_root_Ctrl_mut_vs_WT.txt
cut -f2 -d ''' higher_root_Ctrl_mut_vs_WT.txt | head
cut -f2 -d ''' higher_root_Ctrl_mut_vs_WT.txt | sed '1d' | head
# Let's do that for all files
for f in *root*.txt; do cut -f2 -d ''' $f | sed '1d' > $f.gene.list; done
 ls