Read:高通量測(cè)序平臺(tái)產(chǎn)生的短序列就稱為reads,也稱為一個(gè)讀段,reads可以是單獨(dú)一條,成為Single End reads,簡(jiǎn)稱SE read,也可以是兩條具有物理關(guān)系的一對(duì)reads,根據(jù)reads方向,可以分為Pair-end reads和mate-pair reads,簡(jiǎn)稱為PE reads。在很多分析中會(huì)利用管道reads之間的關(guān)系。 Contig:來(lái)自于單詞contiguous,拼接軟件基于reads之間的overlap關(guān)系,連接成為更長(zhǎng)的序列為contig,contig序列之間不再具有overlap關(guān)系,也不包含N堿基。 Scaffold:基因組拼接得到contig序列之后,通過reads之間的pair-end或者mate-pair關(guān)系,連接成更長(zhǎng)的片段成為scaffold,scaffold序列一般包含N堿基。 N50:N50是基因組拼接之后一個(gè)評(píng)價(jià)指標(biāo),將拼接得到的所有的序列,根據(jù)序列大小從大到小進(jìn)行排序,然后逐步開始累加,當(dāng)加和長(zhǎng)度超過總長(zhǎng)一半時(shí),加入的序列長(zhǎng)度即為N50長(zhǎng)度。N50越長(zhǎng),拼接得到的更長(zhǎng)的序列越多,類似的還有N90等。 Coverage depth:(覆蓋深度,亦簡(jiǎn)稱覆蓋度,也叫乘數(shù)),指每個(gè)堿基被測(cè)序的平均次數(shù),是用來(lái)衡量測(cè)序量的首要參數(shù)。 Coverage ratio :(覆蓋比率,亦簡(jiǎn)稱覆蓋率),指被測(cè)序到的堿基占全基因組大小的比率。覆蓋比率隨覆蓋深度升高而提高,亦受測(cè)序bias的影響,如illumina測(cè)序會(huì)受到GC bias的影響而導(dǎo)致測(cè)序不均勻。 回文序列:palindromic sequence;palindrome具有反向重復(fù)的DNA序列。通常是DNA結(jié)合蛋白的識(shí)別部位,也是限制性核酸內(nèi)切酶識(shí)別位點(diǎn)的序列特征。 串聯(lián)重復(fù)序列(Tandem Repeat sequences):在染色體上一段序列的多次重復(fù),稱為串聯(lián)重復(fù)序列。常用來(lái)作為物理圖譜中的標(biāo)記子。 LTR:長(zhǎng)末端重復(fù)轉(zhuǎn)座子(long terminal repeat),是由RNA反轉(zhuǎn)錄而成的元件,它在兩端有長(zhǎng)大數(shù)百堿基對(duì)的LTR。Length:1.5-10kbp Encode reverse transcriptase Flanked by 300-1000bps terminal repeats。 LINE:長(zhǎng)散在重復(fù)序列(long interspersed nuclear elements),意為散在分布的長(zhǎng)細(xì)胞核因子,是散在分布在哺乳動(dòng)物基因組中的一類重復(fù),這種重復(fù)序列比較長(zhǎng),平均長(zhǎng)度大于1000bp,平均間隔3500-5000bp,如:rRNA,tRNA基因,形成基因家族。 SINE:為短散在重復(fù)序列(short interspersed nuclear elements)。SINE是非自主轉(zhuǎn)座的反轉(zhuǎn)錄轉(zhuǎn)座子,來(lái)源于RNA聚合酶III 的轉(zhuǎn)錄物,它的平均長(zhǎng)度約為300bp,平均間隔1000bp,如:Alu家族,Hinf家族序列。 SNP:?jiǎn)魏塑账岫鄳B(tài)性(英語(yǔ):Single Nucleotide Polymorphism,簡(jiǎn)稱SNP,讀作/snip/)指的是DNA序列上發(fā)生的單個(gè)核苷酸堿基之間的變異,在人群中這種變異的發(fā)生頻率至少大于1%,否則被認(rèn)為是點(diǎn)突變。在人類遺傳基因的各種差異,有90%都可歸因于SNP所引起的基因變異。在人基因組中,每隔100至300個(gè)堿基就會(huì)存在一處SNP。每3個(gè)SNP中有兩個(gè)會(huì)是胞嘧啶(C)和胸腺嘧啶(T)的相互轉(zhuǎn)變。 錯(cuò)義突變(missense mutation):是編碼某種氨基酸的密碼子經(jīng)堿基替換以后,變成編碼另一種氨基酸的密碼子,從而使多肽鏈的氨基酸種類和序列發(fā)生改變。錯(cuò)義突變的結(jié)果通常能使多肽鏈喪失原有功能,許多蛋白質(zhì)的異常就是由錯(cuò)義突變引起的。 無(wú)義突變(nonsense mutation ):是指由于某個(gè)堿基的改變使代表某種氨基酸的密碼子突變?yōu)榻K止密碼子,從而使肽鏈合成提前終止。編碼氨基酸的密碼子突變?yōu)榻K止密碼子,使肽鏈合成中斷。 移碼突變(frameshift mutation):在正常地DNA分子中,堿基缺失或增加非3地倍數(shù),造成這位置之后的一系列編碼發(fā)生移位錯(cuò)誤的改變,這種現(xiàn)象稱移碼突變。 InDel:一般把基因組突變小于50bp的插入和缺失成為InDel,一般50bp小于一個(gè)reads長(zhǎng)度,可以通過reads進(jìn)行檢測(cè)。 CNV:copy number variation:基因組拷貝數(shù)變異,基因組拷貝數(shù)變異是基因組變異的一種形式,通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。 基因組結(jié)構(gòu)變化,Structure Variation,簡(jiǎn)稱SV:染色體結(jié)構(gòu)變異是指在染色體上發(fā)生了大片段的變異。分為廣義和狹義之分,廣義上來(lái)說基因組上所有的變化都可以成為SV,目前主要使用其狹義的概念,主要是指基因組結(jié)構(gòu)變化超過50個(gè)堿基的突變,包括染色體大片段的插入和缺失,染色體內(nèi)部的某塊區(qū)域發(fā)生翻轉(zhuǎn)顛換,兩條染色體之間發(fā)生重組(inter-chromosometrans-location)等。 Segment Duplication:一般稱為SD區(qū)域,串聯(lián)重復(fù)是由序列相近的一些DNA片段串聯(lián)組成。串聯(lián)重復(fù)在人類基因多樣性的靈長(zhǎng)類基因中發(fā)揮重要作用。在人類染色體Y和22號(hào)染色體上,有很大的SD序列。 NT庫(kù):NCBI非冗余的核酸數(shù)據(jù)庫(kù),包括GeneBank、Refseq和PDB。 NR 庫(kù) :NR庫(kù)是由NCBI收集的非冗余蛋白數(shù)據(jù)庫(kù),包括所有非冗余GeneBank CDS的翻譯序列 + 參考序列蛋白 + PDB數(shù)據(jù)庫(kù) + SwissProt蛋白數(shù)據(jù)庫(kù) + PRF蛋白數(shù)據(jù)庫(kù),內(nèi)容豐富。 SwissProt:SwissProt數(shù)據(jù)庫(kù)是經(jīng)過注釋的蛋白序列數(shù)據(jù)庫(kù),由歐洲生物信息學(xué)研究所(EBI)維護(hù)。每個(gè)條目包括蛋白質(zhì)序列、引用文獻(xiàn)、分類學(xué)信息和注釋等。注釋包括蛋白質(zhì)的功能、轉(zhuǎn)錄后修飾、特殊位點(diǎn)、二級(jí)結(jié)構(gòu)等信息。 TrEMBL :TrEMBL數(shù)據(jù)庫(kù)中大多數(shù)蛋白序列不是直接由實(shí)驗(yàn)得到,而是通過DNA序列翻譯而得到,是一個(gè)計(jì)算機(jī)注釋的蛋白質(zhì)數(shù)據(jù)庫(kù),作為SwissProt的補(bǔ)充。該庫(kù)主要從EMBL/GeneBank/DDBJ核酸數(shù)據(jù)庫(kù)中根據(jù)CDS翻譯而得到蛋白質(zhì)序列。 ---------- END ----------
|
|
來(lái)自: 生物_醫(yī)藥_科研 > 《待分類》