日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

測序了,然后呢(二) | 基因功能注釋

 微笑如酒 2019-01-31

  今天是生信星球陪你的第251天


   大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~

   就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點(diǎn)生信好不好~

   這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進(jìn)階,生信路上有你有我!

豆豆寫于19.1.16 

上次介紹了關(guān)于基因預(yù)測的知識(為什么要搞全基因組測序(一)
這次是第二部——基因功能注釋

背景

得到一個(gè)基因集以后,需要知道基因有哪些功能,參與哪些生物過程,只有理解了基因的功能以后,才能聯(lián)系起來基因型與表型。

繼人類基因組計(jì)劃(HGP)完成以后,找到了2萬多個(gè)編碼蛋白基因,但是基因功能還未知,然后又有了ENCODE(Encyclopedia of DNA Elements)計(jì)劃,找到了400萬個(gè)基因開關(guān),平均一個(gè)基因有約200個(gè)開關(guān),這是人類既有共性又有個(gè)性的基礎(chǔ)。ENCODE計(jì)劃使人類基因組不再是個(gè)”空殼“
https://www./

關(guān)于ENCODE計(jì)劃:https:///science/pq2nx8.html

image.png

簡而言之,功能注釋就是預(yù)測蛋白序列的功能,是最基本的分析之一

功能注釋應(yīng)用場景

  • 從頭拼接的基因組并做了結(jié)構(gòu)注釋,知道了哪些地方是外顯子,哪些是內(nèi)含子,接下來就是功能注釋,預(yù)測每一條基因編碼什么蛋白,并且蛋白是什么功能

  • 無參轉(zhuǎn)錄組需要從頭拼接轉(zhuǎn)錄本,拼接的轉(zhuǎn)錄本功能需要做注釋

  • 得到了差異表達(dá)基因,想做下富集分析,就必須要了解每個(gè)基因?qū)?yīng)哪個(gè)GO分類,也是需要進(jìn)行功能注釋

原理

基因不同于蛋白,不能通過結(jié)構(gòu)來預(yù)測功能,只能通過與已知基因功能數(shù)據(jù)庫的比對去推測。一般的數(shù)據(jù)庫包括了兩部分內(nèi)容:一是基因序列(核酸+氨基酸)FASTA格式;二是基因功能信息(可以寫到FASTA的ID行中或者單獨(dú)放在一個(gè)文件中)

一般采用氨基酸序列與數(shù)據(jù)庫進(jìn)行相似性比對,比對結(jié)果去數(shù)據(jù)庫中進(jìn)行過濾

這里看到,基因功能注釋主要依賴數(shù)據(jù)庫,如果數(shù)據(jù)庫中沒有這個(gè)基因,那么就無法注釋。更可怕的是,數(shù)據(jù)庫中有錯(cuò)誤,就會(huì)進(jìn)行錯(cuò)誤注釋

比對的結(jié)果并不是百分之百完全比對的,那么怎么判斷氨基酸序列和數(shù)據(jù)庫的關(guān)系呢?比對到多少才能被接受?這里需要考慮比對長度、比對分值、identity值等,過濾掉一部分人為認(rèn)定不滿足同源關(guān)系的序列。但是又有一個(gè)問題,不同區(qū)域的基因會(huì)發(fā)生不同程度的突變,如果僅設(shè)置一個(gè)值進(jìn)行過濾——”一刀切“,這個(gè)結(jié)果還是有待優(yōu)化

另外,如果結(jié)果提示:Selenocysteine (U) at position ** replaced by X 說明U氨基酸被替代成了X(當(dāng)然并不是錯(cuò)誤,可以忽略),因?yàn)樵赽lastp/tblastn的打分矩陣中不存在U- 這兩個(gè)字符,替換成任意字符X就可以任意打分
https://www./p/111143/

基本流程

如果手頭僅僅有幾條蛋白序列想做下功能注釋,那么直接甩給uniprot/ncbi在線blast比對就可以了,但是我們這里說的情況是成千上萬條基因,肯定不能在線提交,那么怎么辦?

要進(jìn)行大量蛋白序列的功能注釋,需要包括:同源注釋、功能分類

同源注釋
  • 基于相似性的注釋:就是將要研究的序列與蛋白數(shù)據(jù)庫進(jìn)行比對,將數(shù)據(jù)庫中比對相似性高的蛋白序列可以作為研究序列的功能,常用的是Nr、Uniprot數(shù)據(jù)庫 ,常用軟件是blast和diamond 【其中,blast速度很慢,比對幾萬條序列可能好幾天甚至一周;diamond也是基于blast但速度最快達(dá)到blast的兩萬倍,準(zhǔn)確性差不多,因此一般就使用diamond就好】

blast是基于動(dòng)態(tài)規(guī)劃算法,就是將每個(gè)位點(diǎn)都進(jìn)行比對,比對上就得分,比對失敗就罰分。從準(zhǔn)確性講是不錯(cuò)的,但是這個(gè)方法對于背后的生物學(xué)特性欠缺考慮。因?yàn)椴皇敲總€(gè)氨基酸都是一樣重要的,對于某些抗性基因或者轉(zhuǎn)錄因子,真正起作用的往往是一些保守結(jié)構(gòu)域

  • 基于結(jié)構(gòu)域的注釋:Pfam(https://pfam./)數(shù)據(jù)庫中有各種基因家族的保守域模型,可以用HMMER軟件將研究序列與數(shù)據(jù)庫中的模型進(jìn)行比對,如果序列上存在某個(gè)結(jié)構(gòu)域,那么推測序列含有該結(jié)構(gòu)域功能;另外Interpro(https://www./interpro/)是一個(gè)綜合數(shù)據(jù)庫,使用interproscan軟件比對

做完同源注釋,就知道了研究的序列和數(shù)據(jù)庫中的哪個(gè)蛋白最相似,我們主要利用了nr、uniprot、pfam、interpro這些蛋白數(shù)據(jù)庫,它們又和下游的GO、KEGG、COG等分類數(shù)據(jù)庫有關(guān)聯(lián),然后就能知道研究的蛋白屬于哪個(gè)GO分類,哪個(gè)Pathway,哪個(gè)基因家族,就是功能分類

功能分類

只了解單個(gè)基因的功能是不夠的,因?yàn)榛蜷g是相互作用、協(xié)同完成生物功能的,所有需要進(jìn)行分類,這就是在RNA-seq中得到差異表達(dá)基因后做的功能分類(GO)和富集分析(KEGG)過程,看看基因是不是協(xié)同完成某一個(gè)生物過程,它的原理與功能注釋相似,也是利用已有的分類去推測未知的分類

小Tip:功能注釋相當(dāng)于一個(gè)過濾篩。GO 注釋=》粗篩;KEGG=》細(xì)篩,例如:某一個(gè)蛋白,GO 只能將它注釋到與細(xì)胞凋亡有關(guān);而 KEGG 則可以將它注釋到細(xì)胞凋亡通路中的某一個(gè)環(huán)節(jié)

例如COG數(shù)據(jù)庫(Cluster of Orthologous Groups of proteins, https://www.ncbi.nlm./COG/)是細(xì)菌、藻類和真核生物的21個(gè)完整基因組的編碼蛋白,根據(jù)系統(tǒng)進(jìn)化關(guān)系分類得來的。

ftp://ftp.ncbi./pub/COG/COG 數(shù)據(jù)庫還是2003年的,所以做出來的東西,看看就好了

# 下載數(shù)據(jù)庫數(shù)據(jù)
$wget ftp://ftp.ncbi./pub/COG/COG/myva
$wget ftp://ftp.ncbi./pub/COG/COG/fun.txt
$wget ftp://ftp.ncbi./pub/COG/COG/whog

#
 清洗COG數(shù)據(jù)庫(只挑有注釋的那些序列)
# https://gist.github.com/Buttonwood/96f9a9ef8159ca111a69
$cog_db_clean.pl -myva myva whog > cog_clean.fa

#
 blast+比對
$makeblastdb -dbtype prot -in cog_clean.fa
$blastp -query yourdata.fa -db cog_clean.fa -e 1e-4 -out blast.out -outfmt 7 -num_threads 10 -seg no

#
整理結(jié)果 https://github.com/kodayu/blog_html/blob/master/blast_cog.py
$blast_cog.py blast.out fun.txt whog out
COG-plot

參考:http://yk./myblog/cog%E5%88%86%E6%9E%90/

又例如GO數(shù)據(jù)庫 ,其中每個(gè)注釋都是對基因產(chǎn)物的描述,有特定的分子功能(MF),涉及到特定的生物過程(BP),作用在特定的細(xì)胞組分(CC)。它把所有候選的靶基因向GO的各個(gè)term進(jìn)行映射,然后計(jì)算映射到每個(gè)term的靶基因數(shù)量,在整個(gè)參考基因背景中利用超幾何分布檢驗(yàn),選出候選靶標(biāo)基因中顯著富集的GOterm

再例如KEGG數(shù)據(jù)庫,關(guān)于生物化學(xué)途徑的描述,許多活細(xì)胞的功能不能僅僅依賴于單個(gè)基因,它將基因組信息與更高一級的功能信息結(jié)合;另外它可以將基因組中的許多基因利用細(xì)胞內(nèi)分子互作網(wǎng)絡(luò)聯(lián)系起來,通過通路或者復(fù)合物來展示更高級的生物學(xué)功能

下次介紹整合的流程軟件


    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多