motif :基序,也有譯為“模替符”,蛋白質(zhì)分子的不同區(qū)域或稱motif,有的在維持特定 空間結(jié)構(gòu)中起著關(guān)鍵作用(Structuralmotif),有的則與蛋白質(zhì)的生物 功能密切相關(guān)(Functional motif)。 profile:在生物信息學(xué)上一般翻譯為“表達(dá)譜”。 block在生物信息學(xué)上應(yīng)該翻譯為“模塊”。 motif motif與domain等概念易混,以下是幾個關(guān)于它的定義 www.vbi.vt.edu/pr/glossary.htm A conserved element of a protein sequence alignment that usually correlates wi th a particular function. Motifs are generated from a local multiple protein s equence alignment corresponding to a region whose function or structure is kno wn. It is sufficient that it is conserved, and is hence likely to be predictiv e of any subsequent occurrence of such a structural/functional region in any o ther novel protein sequence. mRNA ? See messenger RNA Mutagen ? An agent that increases the rate of mutations in an organism. Mutation ? An inheritable chan ge of a gene, which includes genetic (point or single base) changes, from one allelic form to another; or larger scale alterations such as chromosomal delet ions or rearrangements. www.biol.lu.se/mibiol/research/wachen/glossary.htm A short conserved region in a protein sequence. Motifs frequently form a recog nition sequence or are highly conserved parts of domains. Motif is sometimes u sed in a broder sense for all localized homology regions, independent of their size. profile 我不太同意ssmuajyy君關(guān)于profile的解釋,以下是從google中搜索到的我認(rèn)為比較準(zhǔn)確的 幾種定義 bioinf.uta.fi/xml/courses/glossary/glossary-items.xml A position-specific scoring table for sequence information within complete ali gnments. Profiles define which residues are allowed at given positions; which positions are conserved and which degenerate. calliope.gs.washington.edu/software/bonsaiWebDocs/Glossary.html a set of aligned sequences, possibly with associated information such as a tre e. The alignment itself is a set of lines of characters, one line for each ali gned sequence. The residues in the sequence are represnted by standard 1-lette r codes and gaps are represented by '-'. www.genomicglossaries.com/CONTENT/ex_bio.asp A table that lists the frequencies of each amino acid in each position of prot ein sequence. Frequencies are calculated from multiple alignments of sequences containing a domain of interest [NCBI Bioinformatics] How does this relate to the other profiling terms? www.cogsci.princeton.edu/cgi-bin/webwn an analysis (often in graphical form) representing the extent to which somethi ng exhibits various characteristics; "a biochemical profile of blood"; "a psyc hological profile of serial killers" 至于block,則純粹是從模式識別的角度進行定義的,而沒有考慮其生物學(xué)背景。 我知道的是這樣的: BLOCK:a block is an ungapped multiple alignment of highly similar fragments of protein sequences. A block represents a motif with some structural or functio nal significance. quote from<<eDictionary-Bioinformatics>> MOTIF :是一段在結(jié)構(gòu)和功能上保守的序列。正如天天說的,是否也包括核酸序列吧? PROFILE:a matrix representation of a conserved region in a multiple sequence alignment that allows for gaps in the alignment.the rows include scores for ma tching sequential columns of alignment to a text sequence.the columns include substitution scores for amino acids and gap penalties.profile是指有g(shù)ap的BLOCK嗎 ?quote from <<bioinformatics-sequence and genome analysis>> PATTERN的定義我還不清楚?能告之嗎? 它們有什么聯(lián)系?這些詞匯沒有一個統(tǒng)一的準(zhǔn)確定義嗎?非常感謝樓上的回復(fù)! 有需要<<eDictionary-Bioinformatics>>的PM給我。 關(guān)于motif的含義,請允許我先自引一下,呵呵 (http://www./modules.php?name=Forums&file=viewtopic&t=406) 關(guān)于motif,順帶還有一個domain,這兩個概念,書上寫的糊涂,paper中用的糊涂,大家 看的更糊涂。很多論壇上都有關(guān)于他們的討論,也可以算一個經(jīng)典“坑”了,我這里稍微 小結(jié)一下,當(dāng)然不是定論,也歡迎大家繼續(xù)補充,同時也要注意,這些概念也還在進一步 的發(fā)展之中。 MOTIF:中文的翻譯沒有,以前也有人叫基序,不合適,所以扔掉,后來大家都直接叫moti f不翻譯了,誰都知道說的是什么。 motif的概念有幾個層次或者說范疇。 1、sequence motif。一般指蛋白質(zhì)序列上4-15個連續(xù)的氨基酸殘基,具有很強的保守性 ,具有一定的生物學(xué)功能,比如一些蛋白質(zhì)特異性修飾位點(糖基話磷酸化等等),或者 一些蛋白酶等等的識別位點。對于核酸序列,本來是沒有motif這個概念的,但是后來用著 用著不知道怎么就糊涂了,現(xiàn)在,對于一些核酸序列上的functional element比如cis-ac ting element有時也被稱為motif,也是一些序列保守的功能區(qū)。這些motif的概念基本算 一維結(jié)構(gòu)上的(當(dāng)然也不絕對) 2、structure motif。MCB和instant notes里面提到的主要是這個概念了。相對于1,這個 概念主要針對結(jié)構(gòu)上的保守性,也就是正如acorn所說的具有一定的pattern,這樣的patt ern一般是由一些二級結(jié)構(gòu)組合而成,所以Instant Notes中稱之為超二級結(jié)構(gòu)是有一定道 理的,比如最常見的motif就是一些轉(zhuǎn)錄因子中的DNA結(jié)合區(qū),bHLH啦,L-zip啦,zc-fing er啦等等,但是也有一些比較復(fù)雜的情況,在PFam數(shù)據(jù)庫中就有一些比較大的motif達(dá)到5 0多甚至100多個氨基酸殘基,他們結(jié)構(gòu)上的pattern比較復(fù)雜,可能超出超二級結(jié)構(gòu)的范疇 ,有些目前研究的也不是很清楚,只能從一級序列去做判斷。 3、network motif。這是新提出的一個概念,我在今年的幾篇nature和PNAS的文獻上看到 的,主要是用來表述protein interaction network里面蛋白之間一些連接和互作的模式。 和前兩個相比,概念上已經(jīng)有不小的變化了。 最后說說motif(第二類)和domain的差異。其實這兩個詞在文獻中被混用的很頻繁,搞到 最后他們之間的界限也就越發(fā)的模糊了。我個人傾向于從序列的長度來區(qū)別它們,短一點 的形成“超二級結(jié)構(gòu)”的叫做motif,大一點的接近于形成三級結(jié)構(gòu)的稱作domain。當(dāng)然, 這只是我個人的看法,呵呵,大家可以不必理睬。 注: From MCB5, Particular combinations of secondary structures, called motifs or folds, build up the tertiary structure of a protein. (Forever大哥摘錄) From MOBC4, Motif: Element of structure or pattern that recurs in many contexts. Specifica lly, a small structural domain that can be recognized in a variety of proteins . (acorn網(wǎng)友提供) "motif is a very small sequence region. It is only an element of structure or pattern, instead of structure itself. E.g., a glycosylation site may be regard ed as a motif, however, it is usually consisted of only 4 amino acids, far fro m enough to create a predictable structure. Most of the time it is a more func tional than structural concept."(引自acorn網(wǎng)友) 至于BLOCK的概念,他的老家Blocks WWW Server (http://blocks./blocks/)上 是這么解釋的: “Blocks are multiply aligned ungapped segments corresponding to the most high ly conserved regions of proteins.” 對照<eDictionary-Bioinformatics>中的定義,可以看出,其實BLOCK和MOTIF是非常相關(guān) 的兩個概念,存在很細(xì)微的差別。我個人的理解是,Block是由多序列無空比對而產(chǎn)生的那 個“同源框”(大家可以想象一下由ClustaW或者HMMer比對后生成的那些個保守的框框 ) 這也是為什么起名叫Block的原因了,很形象的。相對于Block來自計算的結(jié)果,Motif則更 多的是來自實驗的結(jié)果了,因此也就帶有更多功能相關(guān)的信息了。 Pattern和Profile是兩個“玄”且“泛”的概念。前者翻譯成“模式”,后者翻譯成“譜 ”,呵呵,也是同樣的“玄”。這兩個概念涉及的范圍都很廣,基本一千個人就有一千種 理解了,所以很難有精確的定義了。“Pattern”還好一點,是從AI中的模式識別理論中借 用過來的,主要指從大量數(shù)據(jù)中抽象出來的具有的特殊性的范式,是具有特定結(jié)構(gòu)的信息 集合。比如,可以說原核生物的操縱子模型是一種pattern,典型的啟動子結(jié)構(gòu)是一種pat tern,而具有HLH結(jié)構(gòu)的DNA binding motif也是一種pattern。bioinfor的一項重要任務(wù)就 是識別并推廣這些pattern。 Profile和pattern一樣,是一個很抽象的概念,從一維到N維。LaughCry朋友給出的定義主 要是指一維譜中的序列譜的概念。具體就是指利用多序列比對結(jié)果的全部信息構(gòu)造每一個 位點的殘基替代、插入、刪除分?jǐn)?shù)表。從序列譜可以看出,哪些殘基可以出現(xiàn)在某個特定 位點,哪些位點是高度保守的,哪些是位點突變可能性較大,哪些位點或區(qū)域可以插入空 位,等等。 或者,表示為一條根據(jù)匹配、缺失或插入狀態(tài)之間發(fā)生轉(zhuǎn)換概率的鏈,來檢測序列比對結(jié) 果中的保守區(qū)。序列比對結(jié)果中的每一個保守殘基可以用一個匹配狀態(tài)來描述(這我們稱 之為HMM Profiles)。根據(jù)序列譜,同樣可以獲得類似BLOCK那樣的結(jié)果,但是區(qū)別于Blo ck所使用的模式識別方法。 但是Profiles的范疇還遠(yuǎn)遠(yuǎn)不只這些。序列譜,表達(dá)譜,結(jié)構(gòu)譜,系統(tǒng)發(fā)育譜,相互作用 譜等等等等,尤其是表達(dá)譜,幾乎是bioinfor領(lǐng)域中出現(xiàn)頻率最高的名詞了,呵呵。在這 些不同的概念中,“profiles”都和特定的多元矩陣以及打分函數(shù)相關(guān)聯(lián)。其實說白了, profiles就是一張多元/N維的數(shù)據(jù)表! BTW,基因表達(dá)譜是由Okubo等(1991)倡導(dǎo)的人體基因圖(body map of expressed human g enes)計劃時提出的。通過構(gòu)建處于某一特定狀態(tài)下的細(xì)胞或組織的非偏性cDNA文庫,大規(guī) 模cDNA測序,收集cDNA序列片段、定性、定量分析其mRNA群體組成,從而描繪該特定細(xì)胞或 組織在特定狀態(tài)下的基因表達(dá)種類和豐度信息,這樣編制成的數(shù)據(jù)表就稱為基因表達(dá)譜,從 mRNA水平反映了細(xì)胞或組織特異性的Pattern。 |
|