日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

基因組的坐標系統(tǒng):0

 panhoy 2015-03-19

在現(xiàn)實生活中,我們經(jīng)常會遇到從0開始計數(shù)還是從1開始計數(shù)的問題。此處先從現(xiàn)實生活中的實例說起,過渡到電腦編程,然后再詳細解釋基因組的坐標問題,最后列出一些有用的網(wǎng)址,感興趣的可以繼續(xù)閱讀、加深理解。

  • first floor的問題

In British English the floor of a building at street level is the ground floor and the floor above that is the first floor.
在英式英語中, 樓房地面與街道相平的樓層叫ground floor, ground floor上面的一層叫first floor.

In US English the street-level floor is the first floor and the one above is the second floor.
在美式英語中, 與街道相平的樓層叫first floor, 其上面的一層叫second floor.
注:以上解釋來源于《牛津英漢雙解美化版》。

  • 程序中的計數(shù)

在多數(shù)程序(此處以Perl為例)中,計數(shù)都是(此處以數(shù)組為例)從0開始的。比如,對于數(shù)組@array來說,它的第一個元素是$array[0],第二個元素是$array[1],……

正因為這種程序與現(xiàn)實的差異,導致了程序員們養(yǎng)成了從0開始數(shù)數(shù)的習慣。(參看:9條編程帶給程序員的壞習慣;

  • 基因組坐標

在生物學的基因組坐標的表示中,有兩種方法:一種是大家比較容易理解的全包含的1-based(one-based, fully-closed),如[start, end];另一種是容易引起迷惑但卻常用而且易用的半包含的0-based(zero-based, half-open),如[start, end)。下面僅根據(jù)我的理解通過一個簡單的例子來說明一下。至于這兩種方法的詳細區(qū)別以及各自的優(yōu)缺點,請參考后面給出的鏈接。

Sequence:ATGC
1-Index:1234
0-Index:0123

其中TG的坐標位置如何表示呢?

1-based:[2,3]
0-based:[1,3)

還有一種不同的(真正的?)解釋方法如下:

interbase
注意:0-based有時候也稱為以0-based開始、1-based結束(zero-based start, one-based end )。
(注意:還有一種很少使用的坐標表示法,就是全包含的0-based,如[start, end];此時TG的坐標為[1,2]。)

我們常用的數(shù)據(jù)格式及數(shù)據(jù)庫中,那些使用的1-based,那些使用的0-based?
UCSC的Tables使用的是0-based;
UCSC的Genome Browser使用的是1-based;
NCBI的dbSNP使用的是0-based;
BED、BAM格式使用的是0-based;
VCF、GFF格式使用的是1-based。

  • 擴展閱讀

Coordinate Transforms
(UCSC)Database/browser start coordinates differ by 1 base
What are the advantages/disadvantages of one-based vs. zero-based genome coordinate systems
On genome coordinate systems and transposable element annotation
dbSNP 0-based (zero based) vs. 1-based Coordinate Representation
DbSNP Track Notes

備注:如果你發(fā)現(xiàn)本文有錯誤,或者有需要修改、添加的內(nèi)容,請通知我。先行謝過!

補充(20110506)

Explanation from “The SAM Format Specification“.

  • 1-based coordinate system

A coordinate system where the first base of a sequence is one. In this coordinate system, a region is specified by a closed interval. For example, the region between the 3rd and the 7th bases inclusive is [3, 7]. The SAM, GFF and Wiggle formats are using the 1-based coordinate system.

  • 0-based coordinate system

A coordinate system where the first base of a sequence is zero. In this coordinate system, a region is specified by a half-closed-half-open interval. For example, the region between the 3rd and the 7th bases inclusive is [2, 7). The BAM, BED, and PSL formats are using the 0-based coordinate system.

3

相關

獲取基因組的子序列2011年5月14日在“所有博文”中

[更新]基因組的坐標系統(tǒng):0-based與1-based2011年5月6日在“所有博文”中

人類基因組中的基因密度、特征長度和SNP密度2012年10月13日在“所有博文”中

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多