在做chipseq中下面這兩張圖的時候,用到 看下到底哪一步用到了bed文件 BED (Browser Extensible Data)格式文件就是通過規(guī)定行的內(nèi)容來展示注釋信息。
基因組注釋(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser進行可視化比較。 Bed文件最基本的信息就是染色體或Contig的ID或編號,然后就是DNA的正負鏈信息,接著就是在染色體上的起始和終止位置數(shù)值。BED文件中起始坐標為0,結(jié)束坐標至少是1。 BED文件每行至少包括chrom,chromStart,chromEnd三列必選;另外還可以添加額外的9列可選,這些列的順序是固定的。 必選的三列: 1. chrom - 染色體的名稱(例如chr3,chrY,chr2_random)或支架(例如scaffold10671)。 2. chromStart- 染色體或支架中特征的起始位置。染色體中的第一個堿基編號為0。 3. chromEnd- 染色體或支架中特征的結(jié)束位置。所述 chromEnd堿沒有包括在特征的顯示。例如,染色體的前100個堿基定義為chromStart = 0,chromEnd = 100,并跨越編號為0-99的堿基。 特別注意:bed文件坐標為一半開半閉區(qū)間[start, end),所以如果是[10,20),實際上只提取了10,11,…19 這十個位點,對應(yīng)ucsc上的即為染色體坐標的10-19位堿基。ucsc上染色體坐標也是從0開始。 例如有一fasta格式的文件 對應(yīng)bed文件的坐標應(yīng)為 用bedtools提取 CGAG 中間四個堿基,所需的bed輸入文件應(yīng)為[1,5) 9個可選的BED字段: 1. name:定義BED行的名稱。當軌道打開到完全顯示模式時,此標簽顯示在Genome瀏覽器窗口中BED行的左側(cè),或者在打包模式下直接顯示在項目的左側(cè)。 2. score:得分在0到1000之間。如果此注釋數(shù)據(jù)集的軌跡線useScore屬性設(shè)置為1,則得分值將確定顯示此要素的灰度級別(較高的數(shù)字=較深的灰色)。此表顯示 Genome Browser將BED分數(shù)值轉(zhuǎn)換為灰色陰影: 3. strand:定義strand。只有三種情況 “.” 、“+”或“ - ”。 4. thickStart:繪制特征的起始位置(例如,基因顯示中的起始密碼子)。當沒有厚部分時,thickStart和thickEnd通常設(shè)置為chromStart位置。 5. thickEnd:繪制特征的結(jié)束位置(例如基因顯示中的終止密碼子)。 6. itemRgb:R,G,B形式的RGB值(例如255,0,0)。如果軌道行 itemRgb屬性設(shè)置為“On”,則此RBG值將確定此BED行中包含的數(shù)據(jù)的顯示顏色。注意:建議使用此屬性的簡單顏色方案(八種顏色或更少顏色),以避免壓倒Genome瀏覽器和Internet瀏覽器的顏色資源。 7. blockCount:BED行中的塊(外顯子)數(shù)。 8. blockSizes:塊大小的逗號分隔列表。此列表中的項目數(shù)應(yīng)與blockCount相對應(yīng)。 9. blockStarts:以逗號分隔的塊開始列表。應(yīng)該相對于chromStart計算所有 blockStart位置。此列表中的項目數(shù)應(yīng)與blockCount相對應(yīng)。
1. 首先進入UCSC的Table Browser:https://genome./cgi-bin/hgTables 2. 按照下圖例子進行參數(shù)設(shè)置 在Table Browser里,我們選定人的基因組,采用最新的GRCh38版本,然后再選擇Gene and Gene Predictions里的NCBI RefSeq作為想要導(dǎo)出的本地數(shù)據(jù)庫。 注意: 將output format改選為“BED-browser extensible data”, output file一定要填寫,如果空著的話即使選擇了output format為BED格式也是輸出網(wǎng)頁形式; file type returned選擇gzip compressed的話,下載會相對快一些。 看看我是怎么出錯的 點擊Get output之后會給我們一個選擇輸出形式的對話框,在Create one BED record per下面有一些選項,比如這里默認是Whole Gene,當然我們也可以選擇啟動子區(qū)域、外顯子加周邊區(qū)域、5' UTR區(qū)域、3' UTR區(qū)域等生成我們想要的BED文件。 UCSC除了可以提供種類繁多的單一數(shù)據(jù)庫下載外,還可以下載交叉數(shù)據(jù)庫。 比如我們要在此次人類參考基因組下載的基礎(chǔ)上,下載一個人類參考基因組和lincRNA數(shù)據(jù)庫交叉的數(shù)據(jù)庫,如圖,點擊intersection的create進入。 ![]() ![]() |
|