本文是由比利時列日大學Marc HANIKEN課程整理。陸陸續(xù)續(xù)交付NE大學??1個月完成,根據(jù)需要做的內容分為四個部分。 1 目標RNA-Seq的目標是說明如何處理和分析RNA-Seq的數(shù)據(jù)以識別差異基因(DGE)。 2 數(shù)據(jù)介紹擬植物南芥的基因型(wt 組織模式和多種體型)在(c)和處理(t)條件下處于下。本樣品獨立株植物實驗) 3 3 次 NextSeq 0 儀器以 4 次重復使用Illumina。集群基因組和芯片組在整個組件中運行,使用中和兩個 bp 的 5 個端快速介紹。 。 3 分析數(shù)據(jù)3.1 查看數(shù)據(jù)head <your_sample>.fastq ![]() 圖像.png
將所有的樣本名稱攔截一個文件 for f in *.fastq; do echo `basename $f .fastq`; done > samples.ids
3.2 RNA-Seq 數(shù)據(jù)分析中讀取映射的一般考慮
第一部分:3.3 讀取映射到參考基因組3.3.1 工具介紹1. 頂帽軟件我們將使用流行的帽子,這是將 RNA-Seq 外接閱讀與基因組外顯子以識別子程序-顯式程序的短連接的。更多 TopHat 如何找到連接點的原理: TopHat 可以通過注釋的情況下將 RNA-Seq 讀取到沒有參考基因。這個映射信息,TopHat建立一個可能的剪接連接的數(shù)據(jù)庫,然后將讀取映射到這些連接以確認它們。 這一段讀到這個標題的機子可能有1個00個遺漏或短問題的外顯,但會在最初的象征中將比所有的內容都被更多地漏掉。獨立映射這些。 TopHat 兩個約定生成可能的剪接點數(shù)據(jù)庫。這種情況,“GTAG”、“GC-AG”和“AT-AG”和“AT-AG”和“AT-AG” AC“通常在其中含有不同品種的標題尋找。第二個來源是“封面年齡的島嶼”的開始,是最終中部的中部地區(qū)尋找到的。將這些內含子連接起來的方法。我們只建議第二個選項(--coverage-search)用于將短讀取(<45bp)和用戶讀?。?lt;=1000萬)。后一個選項對“GT-AG”內含子之間的比。 Tophat可以使用FASTA,FASTQ(推薦)格式的讀取。 想要使用這個軟件,首先需要使用一下命令: ![]() 圖像.png
Bowtie2用于熱門組上的閱讀。 蝶領結擅長使用一種超高配的技術,用于與組合工具和排列組合。 Bowtie 2 保持珠寶形狀使用組合(基于Browtie 2 對BWT 進行),通常其占用或占用的內存大小。 Bowtie 2 的結構需要占用多少個內存。雙端模式。同時可以使用多個處理器來更高的關注度。 Bowtie 2 以SAM 格式輸出的其他方式,以SAM格式輸出的其他方式,使用授權文件和大量使用同樣的工具(SAMtools、GATK 的許可互操作)。Bowtie 2GPLv3 在和下分發(fā),Mac OS X Linux BSD 和它在Windows 下的運行。 Bowtie 2和Bowtie 2和Bowtie BS (這里也叫“集成1 ” sowtie 2和Bowtie BS)通常是比較多種其他學組的,包括變異、RNA-seq、Ch IPeq。工具中,這里有其中一些。 要與 Tophat 的連接點,您首先需要為 RNA-Seq 中的生物體安裝蝴蝶結指數(shù)。使用 bowtie2-build 很容易自己制造一個。 ![]() 圖像.png
Bowtie2 從 bowtie 索引中提取信息,允許確定它是什么索引以及使用什么序列來制造它。 2. GFF/GTF 格式文件通過基因特征(例如外含子/內含子描述格式組的基因組)提供的基因組注釋文件,可以幫助通過頂帽在基因組上進行讀取映射。 注釋文件以 GFF/GTF 提供。 Tophat 使用的基因組注釋文件就是 GFF/GTF ![]() 圖像.png
GTF(general transfer format)是GFF第二個版本, 3 htseq-count軟件給定一個具有組合范圍的基因的文件,htseq-count 會計算出有多少讀取的特征映射到某個特征列表。 - 在每個情況下,特征通常是每個基因被結合的,其中所有外顯子的地方也可以顯示子的一個特征,例如,為了檢查。對于比較 ChIP-Seq,特征可能是列表中的結合區(qū)域。 htseq-count 腳本允許在不同模式之間進行選擇。 hts-count 的位置重疊模式的工作原理如下:定義一個集合 S(i) 的位置為我重疊的特征的集合。然后,考慮集合 S,它是(我遍歷或讀取對中的所有位置)
3.3.2 下載擬南芥參考網(wǎng)址:https://www./(需要注冊)
3.3.3 給基因參考建索引使用bowtie2-build。為擬南芥編制索引,花費2分鐘 bowtie2-build Arabidopsis.fasta At_ref
檢查指數(shù),幾秒鐘
3.3.4 讀取映射內容為存在以逗號隔FA打開的FASTQ或STA格式文件 使用tophat完成一般使用命令: ![]() 圖像.png
更多的選擇閱讀文檔 其中: --num-threads 4 ##可以多線程 請注意,所提供的 GTF/GFF 文件的第一個索引(指示特征所在的染色體相列或重疊群的列)的必須與 TopH 的 Bowtie-中的參考值。您可以使用序列匹配檢查進行 開始操作軟參考鏈接組基因的FASTA: ln -s Arabidopsis.fasta At_ref.fa
創(chuàng)建簡單的索引。立即創(chuàng)建,方便使用所有樣本,簡單組圖 5 分鐘
會在transcriptome_data/下產生10個文件 映射閱讀,先創(chuàng)建一個模板 tophat -o output_[% basename %] --read-mismatches 2 --min-intron-length 40 --max-intron-length 2000 --num-threads 2 --report-secondary-alignments --no-novel-juncs --transcriptome-index=transcriptome_data/At_ref At_ref [% basename %].fastq
樣品創(chuàng)建一個灰
提交任務: for f in `cat samples.ids`
do qsub -pe snode 2 tophat_$f.sh
done
此步驟費用大約 1 小時
對所有的樣本進行總結查看 for f in `cat samples.ids`
do head output_$f/align_summary.txt
done
3.3.5 讀計數(shù)使用htseq-count![]() 圖像.png
指定輸出任務的一個表,包含功能(這里是由于計算)的計數(shù),然后是特定測點的特殊點,用于未針對特定原因進行的讀取。于過濾。情況是: ![]() 圖像.png
提示:如果你有特定于鏈的特定數(shù)據(jù),否則請確保你設置的 RNA-Seq 數(shù)據(jù)不是特定鏈的協(xié)議。-strand=no! htseq-count 有很多選項,請查看鏈接文檔 的 一些選項: -f < sam or bam># 輸入文件,sam 或 bam 格式 -s <yes/no/reverse> 讀計數(shù)模板
運行花費半個小時。 搜索征集統(tǒng)計信息貝殼命令 for f in <your_name>_htseqcount_*.o*; do tail -n 5 $f; done
.組件計算矩陣基因的名字
識數(shù) for f in `cat samples.ids`
do cut -f2 <your_name>_htseqcount_$f.o* > $f.count
done
組件列表和計數(shù)
得到這個結果文件,將用于 GE 的統(tǒng)計分析,第二部分: 4閱讀到參考組。3.4.1 工具介紹
2組組您需要分析
分析使用每一個腳本:使用對齊的工具進行統(tǒng)計分析。因此,我們將使用對齊的工具來展示
3 3.4 擬擬南芥參考組2。來自Araport,需要登錄進行免費注冊。再使用以下代碼獲取。 curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
Araport11_Release_201606/annotation/Araport11_genes.201606.cds.fasta.gz
3.4.索引擬南芥參考組3使用ltrinity的perl命令:align_and_estimate_abundance.pl,可以對所有樣本一次完成。 ![]() 圖像.png
索引的操作命令
這個過程花費大約5分鐘,會生成14個文件,包含.bowtie2 .和.RSEM 3.4.4 對排列和計數(shù)使用 ltrinity 的 perl 命令:align_and_estimate_abundance.pl,并使用 RSEM 估計方法 ![]() 圖像.png
![]() 圖像.png
2建立gene_trans_地圖 grep \> Arabidopsis_transcripts.fasta | cut -f2 -d '>' | cut -f1 -d '|' > transcripts.ids
# Let's paste twice this list in the same file
$ paste transcripts.ids transcripts.ids > double_transcripts.ids
$ head double_transcripts.ids
# And apply the following perl one liner to remove the transcript number
# from 1st column
$ perl -nle 's/^(AT\w+)\.\d+/$1/g; print' double_transcripts.ids > gene_trans_map.txt
3、進行地圖和計數(shù) align_and_estimate_abundance.pl 命令使用模板:
創(chuàng)建多個樣本的sh文件: for f in `cat samples.ids`
do tpage --define queue=smallnodes --define basename=$f --define thread=2 trinity_align_estimate.tt > align_estimate_$f.sh
done
提交任務:
這大概要花90分鐘 ![]() 圖像.png
![]() 圖像.png
3.4.5 生成表達矩陣使用:trinity下的abundance_estimates_to_matrix.pl命令
將 perl /media/vol1/apps/trinityrnaseq-2.2.0/util/abundance_estimates_to_matrix.pl --est_method RSEM trinity_*/*.genes.results --out_prefix <your_name>
大概需要2分鐘 該腳本輸出多個文件 第三部分: 3.5 差異表達的基因使用R包DESeq2。3.5.1 包介紹詳細文檔介紹:https:///packages/release/bioc/html/DESeq2.html。 ![]() 圖像.png
DESeq2將首先對數(shù)據(jù)進行建模的例子。 有關每個步驟的詳細信息,請參閱相應手冊頁。調整值的信息,請參見結果手冊頁。 使用DESeq(object),是一個DESeqDataSet的對象。如:DESeqDataSetFromMatrix。 3 結果名稱 返回模型的估計模型(因子)的名稱
參數(shù)是DESeqDataSet已經在其上調用中以下函數(shù): DESeq 、bino值對比WaldTest或nbinomLRT之一,對比值比較變化 alpha 優(yōu)化的顯著性結束值(默認為 0.)。如果調整的 p 最終值 (FDR) 為 1,則 alpha 應設置為該值。 3.5.2 下載DESeq2library(BiocManager)
BiocManager::install('openssl')
BiocManager::install('RCurl')
BiocManager::install(c('DESeq2','limma','gplots'), force = T)
3.5.3 特征基因表達差異(成對比較)我們將在下面發(fā)現(xiàn)的基因需要允許需要的 R 腳本。您在里面按順序添加每個新步驟。然后,根據(jù) DGE 的治療類型(Ctrl vs Treat),最后治療對各個種的類型。基因中必須考慮到這一點。 Step 1. 加載數(shù)據(jù)并描述數(shù)據(jù)集
步驟 2. 建立基因型響應分析模型 #Genotype effect
#####
#Load data using the DESeqDataSetFromMatrix command
genotDesign=DESeqDataSetFromMatrix(countData = countData,colData = colData,
design = ~ genot)
#Build model using the DESeq command
genot_DESeq <- DESeq(genotDesign)
#Observe parameters of the model
resultsNames(genot_DESeq)
步驟 3. 使用 PCA 對數(shù)據(jù)進行匯總統(tǒng)計
Step 4. 建立樣本距離的熱圖 #Build sample distance
sampleDist <- dist(t(assay(rld)))
#Build heatmap
sampleDistMatrix<-as.matrix(sampleDist)
rownames(sampleDistMatrix)<-paste(rld$g_t)
colnames(sampleDistMatrix)<-NULL
colours=colorRampPalette(rev(brewer.pal(9, 'Blues')))(300)
tiff(filename = 'heatmap_sampledist_Treat_root.tiff', width = 1500,
height = 1500, units = 'px', res = 150)
heatmap.2(sampleDistMatrix, dendrogram = 'both', trace = 'none', col = colours,
main = 'Treat Root Sample Distance', margin=c(6, 8))
dev.off()
步驟 5. 識別基因型主動的 DGE
步驟 6。 plotCounts(genot_DESeq, 'AT2G19110', intgroup = 'genot')
第四部分:3.6數(shù)據(jù)挖掘我們非常容易和我們一起使用 GE 數(shù)據(jù)集進行的數(shù)據(jù)接口。 Thalemine 非常容易獲得相關數(shù)據(jù)集的功能。 為了使用這個,我們首先需要從DESeq中
|
|