日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

BED文件以及如何正確的從UCSC下載BED文件

 健明 2021-07-14

在畫chip-seq里最基礎(chǔ)的兩張圖的時候,出現(xiàn)了報錯,報錯信息各種看不懂呀,去網(wǎng)上各種搜也沒有解決。后來請教健明老師,困擾我兩天的難題他一眼就看出來是我bed文件出現(xiàn)了問題,就是說我從UCSC下載的bed文件是不對的。我就拿這個我以為的bed文件去查看TSS附近信號強度,最后結(jié)果當然是各種報錯。犯這么蠢的錯,歸其原因是我不了解bed文件格式。

在做chipseq中下面這兩張圖的時候,用到deeptools軟件里的computeMatrix命令,需要給一個參考的注釋文件(就是我們這里介紹的bed文件),從而讓軟件查看樣本在TSS(轉(zhuǎn)錄起始位點)附近是否有富集。

chipseq中最基礎(chǔ)的兩張圖

看下到底哪一步用到了bed文件

哪里用到bed文件解釋
BED文件介紹

BED (Browser Extensible Data)格式文件就是通過規(guī)定行的內(nèi)容來展示注釋信息。
注釋文件就是基因組的說明書。告訴我們哪些序列是編碼蛋白的基因,哪些是非編碼基因,外顯子、內(nèi)含子、UTR等的位置等等。注釋文件在以下三個提供參考基因組的網(wǎng)站中都有提供,比如Ensemble、NCBI 、UCSC。之后我們介紹如何從UCSC上下載bed文件。

先簡單了解下UCSC:
UCSC是生物領(lǐng)域里常用的數(shù)據(jù)庫之一,由University of California Santa Cruz (UCSC)創(chuàng)立和維護,主要包含了人類、小鼠、果蠅等多種常見動物的基因組信息。UCSC里也包括了一系列的分析工具,幫助用戶瀏覽基因信息、查看已有基因組注釋信息和下載基因序列等。

基因組注釋(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser進行可視化比較。

Bed文件最基本的信息就是染色體或Contig的ID或編號,然后就是DNA的正負鏈信息,接著就是在染色體上的起始和終止位置數(shù)值。BED文件中起始坐標為0,結(jié)束坐標至少是1。

BED文件每行至少包括chrom,chromStart,chromEnd三列必選;另外還可以添加額外的9列可選,這些列的順序是固定的。

必選的三列:

1. chrom - 染色體的名稱(例如chr3,chrY,chr2_random)或支架(例如scaffold10671)。

2. chromStart- 染色體或支架中特征的起始位置。染色體中的第一個堿基編號為0。

3. chromEnd- 染色體或支架中特征的結(jié)束位置。所述 chromEnd堿沒有包括在特征的顯示。例如,染色體的前100個堿基定義為chromStart = 0,chromEnd = 100,并跨越編號為0-99的堿基。

特別注意:bed文件坐標為一半開半閉區(qū)間[start, end),所以如果是[10,20),實際上只提取了10,11,…19 這十個位點,對應(yīng)ucsc上的即為染色體坐標的10-19位堿基。ucsc上染色體坐標也是從0開始。

例如有一fasta格式的文件
chr1
TCGAGA

對應(yīng)bed文件的坐標應(yīng)為
chrome start end
chr1            0     5

用bedtools提取 CGAG 中間四個堿基,所需的bed輸入文件應(yīng)為[1,5)
chrome start end
chr1           1      5

9個可選的BED字段:

1. name:定義BED行的名稱。當軌道打開到完全顯示模式時,此標簽顯示在Genome瀏覽器窗口中BED行的左側(cè),或者在打包模式下直接顯示在項目的左側(cè)。

2. score:得分在0到1000之間。如果此注釋數(shù)據(jù)集的軌跡線useScore屬性設(shè)置為1,則得分值將確定顯示此要素的灰度級別(較高的數(shù)字=較深的灰色)。此表顯示 Genome Browser將BED分數(shù)值轉(zhuǎn)換為灰色陰影:

img

3. strand:定義strand。只有三種情況 “.” 、“+”或“ - ”。

4. thickStart:繪制特征的起始位置(例如,基因顯示中的起始密碼子)。當沒有厚部分時,thickStart和thickEnd通常設(shè)置為chromStart位置。

5. thickEnd:繪制特征的結(jié)束位置(例如基因顯示中的終止密碼子)。

6. itemRgb:R,G,B形式的RGB值(例如255,0,0)。如果軌道行 itemRgb屬性設(shè)置為“On”,則此RBG值將確定此BED行中包含的數(shù)據(jù)的顯示顏色。注意:建議使用此屬性的簡單顏色方案(八種顏色或更少顏色),以避免壓倒Genome瀏覽器和Internet瀏覽器的顏色資源。

7. blockCount:BED行中的塊(外顯子)數(shù)。

8. blockSizes:塊大小的逗號分隔列表。此列表中的項目數(shù)應(yīng)與blockCount相對應(yīng)。

9. blockStarts:以逗號分隔的塊開始列表。應(yīng)該相對于chromStart計算所有 blockStart位置。此列表中的項目數(shù)應(yīng)與blockCount相對應(yīng)。

官方介紹bed文件地址:http://genome./FAQ/FAQformat.html#format1

官網(wǎng)介紹
如何從UCSC正確的下載BED文件

參考jimmy老師的博客:http://www./2494.html

1. 首先進入UCSC的Table Browser:https://genome./cgi-bin/hgTables

2. 按照下圖例子進行參數(shù)設(shè)置

在Table Browser里,我們選定人的基因組,采用最新的GRCh38版本,然后再選擇Gene and Gene Predictions里的NCBI RefSeq作為想要導(dǎo)出的本地數(shù)據(jù)庫。

注意: 將output format改選為“BED-browser extensible data”, output file一定要填寫,如果空著的話即使選擇了output format為BED格式也是輸出網(wǎng)頁形式; file type returned選擇gzip compressed的話,下載會相對快一些。

UCSC Table Browser提取hg38的BED文件舉例

hg19的BED文件舉例

看看我是怎么出錯的

錯誤實例

點擊Get output之后會給我們一個選擇輸出形式的對話框,在Create one BED record per下面有一些選項,比如這里默認是Whole Gene,當然我們也可以選擇啟動子區(qū)域、外顯子加周邊區(qū)域、5' UTR區(qū)域、3' UTR區(qū)域等生成我們想要的BED文件。

到這里我們需要的bed文件就下載好了。

UCSC除了可以提供種類繁多的單一數(shù)據(jù)庫下載外,還可以下載交叉數(shù)據(jù)庫。

比如我們要在此次人類參考基因組下載的基礎(chǔ)上,下載一個人類參考基因組和lincRNA數(shù)據(jù)庫交叉的數(shù)據(jù)庫,如圖,點擊intersection的create進入。

我們同樣需要在Gene and Gene Predictions里找到lincRNA RNA-Seq數(shù)據(jù)庫,最后點擊submit。

后續(xù)的事情和下載單一數(shù)據(jù)庫一樣,到這里我們就成功下載兩種數(shù)據(jù)庫的交叉數(shù)據(jù)庫了。

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多