日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

生物信息學在蛋白質組學中的應用

 MitchellHe 2017-08-12

 

摘要:生物信息學是一門新興的邊緣學科,基因組合蛋白質組研究與生物信息學技術互相推動,并行發(fā)展,而生物信息學在蛋白質研究中將發(fā)揮特殊作用。本文就生物信息學技術在蛋白質數據庫以及蛋白質結構分析與功能預測中的應用做一綜述。

關鍵詞:生物信息學 蛋白質組 數據庫 結構分析功能預測

 

 

1  前言

20 世紀80年代,隨著基因組學和蛋白質組學的發(fā)展,數據量迅速增加,生物信息學(bioinformatics) 就應運而生。它研究的重點內容為基因組(Genomics) 和蛋白質組學(Proteomics)。其在基因組學中的應用已經相當成熟,各種數據庫已經被人們廣泛的使用。而今,隨著功能基因組學的信息量不斷的增加,生物信息學在蛋白質組學中的應用也顯得越來越重要。[1] [2]

2  生物信息學在蛋白質組學中的應用[4]

2.1 蛋白質組學的產生及其重要意義

20世紀中后期,隨著DNA雙螺旋結構的提出和蛋白質空間結構的解析,生生命科學的研究進入了分子生物學時代,而遺傳信息載體DNA和生命功能的體現者蛋白質的研究,成為了其主要內容。90年代初期啟動的龐大的人類基因組計劃,已經取得巨大的成就,人類基因組序列草圖繪制完成后,生命科學研究跨入了后基因組時代。然而,人們清醒地識到基因僅是遺傳信息的載體,而生命活動的執(zhí)行者是基因的表達產物—蛋白質,它是生命現象復雜性和多變性的直接體現者。《自然》和《科學》雜志在20012月公布人類基因組草圖的同時,分別發(fā)表了“And now for the proteome”和“Proteomics in genomeland”的評述和展望,將蛋白質組學的地位提到前所未有的高度,認為蛋白質組學將成為新世紀最大戰(zhàn)略資源—人類基因爭奪戰(zhàn)的戰(zhàn)略制高點之一,從此蛋白質組學的研究受到了廣泛的關注。

蛋白質組一詞是澳大利亞學者馬克威爾金斯在1994年最先提出來的,它是指基因組表達的所有相應的蛋白質,也可以說是指細胞或組織或機體全部蛋白質的存在及其活動方式。蛋白質組學是從整體的蛋白質水平上,在一個更加深入、更加貼近生命本質的層次上去探討和發(fā)現生命活動的規(guī)律和重要生理、病理現象的本質等。蛋白質組學的研究對揭示生命活動規(guī)律,探討重大疾病機制,疾病診斷和防治、新藥的開發(fā)提供重要的理論基礎。[3]

2.2 生物信息學在蛋白質組學中的蛋白質數據庫的應用[5]

2.2.1 蛋白質組數據庫

    蛋白質組數據庫是蛋白質組學研究的主要內容之一。通過構建不同環(huán)境條件下組織或細胞全部蛋白質的數據庫來研究蛋白質表達的差異情況。與其他數據庫相比, 目前大部分蛋白質組數據庫都有以下幾個方面的特點:1)由于蛋白質相關數據的種類繁多,蛋白質組數據庫的種類也多種多樣,如雙向電泳數據庫、基于蛋白序列的數據庫、蛋白質一級或高級結構數據庫、蛋白質相互作用數據庫等等;2)新速度快,網絡上的蛋白質組數據庫的數據幾乎每天都在更新;3)網共享程度高, 越來越多的數據庫資源與互聯網相互配合,使得蛋白質相關數據的利用率空前的提高。蛋白質組數據庫的主要內容即集中在基于雙向電泳結果的數據庫和基于蛋白質序列信息的數據庫。

2.2.1.1基于雙向電泳圖譜的數據庫

雙向電泳技術是蛋白質組學研究中最重要的實驗技術之一,所以基于雙向電泳圖片的數據庫也成了蛋白質組學研究中主要內容。這些數據庫有以下幾個特點: ( 1)據直觀。以蛋白質雙向電泳圖片為索引,將圖片放在互聯網上,每一個蛋白點的信息(等電點、分子量等等) 都可以通過點擊圖片上相應位置的蛋白點得到;2)雙向電泳圖片為基礎,并與其他數據(蛋白質序列、結構和功能等信息) 進行整合。目前,主要有水稻蛋白質組數據庫( The Rice ProteomeDatabase)SWISS- 2DPAGE、大腸桿菌雙向電泳數據庫(ECO- 2DBASE)、酵母蛋白質組數據庫(YPD)、造血干細胞蛋白質組數據庫( HSC - 2DPAGE)、SIENA - 2DPA GE、PHCI- 2DPAGE等等。

如水稻蛋白質組數據庫The Rice Proteome Database ( http:// gene64.dna.affrc.go.jp/PD/) :水稻基因組測序完成之后,關于水稻蛋白質組的數據庫也隨之建立了起來。從雙向電泳實驗中分離鑒定出水稻組織或細胞器中的蛋白質,經分析后獲得關于這些蛋白質的各種信息,對這些數據進行總結整合之后,水稻蛋白質組學數據庫逐漸建立了起來,可供研究人員通過網絡方便使用。這個數據庫可以從以下四個方面為研究人員提供服務:務:1)在數據庫的 2- D 參考膠上選擇相應的蛋白點,獲得該蛋白點的各種信息;2)輸入與蛋白相關的關鍵詞(蛋白質名字、序列號)查詢蛋白相關信息;3)根據蛋白質的分子量和 pI值來查詢該蛋白的相關信息;4)由蛋白質的氨基酸序列查詢某類相似蛋白質的信息。這個蛋白質組數據庫與其他的數據庫相比有三點特殊性:1)數據庫中的 2- D 參照膠里包含了某個組織或細胞里幾乎所有的蛋白質,每一個蛋白點的位置都在圖片上展示了出來,信息量大且直觀;2)每一個蛋白點的信息都可以在鏈接的一個網頁上找到,包括分子量、等電點、表達水平和氨基酸序列等等; ( 3)MASCOT搜索頁會提供有關蛋白的質譜檢測結果。

2.2.1.2 基于蛋白質序列信息的數據庫

基于蛋白質序列信息的數據庫是生物信息學數據庫中最基本的數據庫,這些數據庫以氨基酸殘基順序為基本內容,并附有注釋信息(計算機的序列分析結果和生物學家查閱文獻的結果)。基于蛋白質序列的數據庫很多,主要有蛋白質信息資源數據庫(PIR)、SWISS - PROT 數據庫、蛋白質序列數據庫 NRL - 3DTrEMBL等等。

比如蛋白質信息資源數據庫(PIR);蛋白質信息資源數據庫( http://pir. georgetown. edu/ ) 由佐治堂大學創(chuàng)立, 收集的序列用來研究蛋白質在進化中的關系。該數據庫建立較早(雛形可追溯到20世紀60年代),內容非常全面。數據庫現在已經和其它 3 個數據中心建立了國際聯盟:美國華盛頓的喬治城大學全國生物醫(yī)學研究基金會( NBRF)、慕尼黑蛋白質序列信息中心(MIPS) 和日本國際蛋白質信息數據庫( JIPD)。這 3 個中心共同制作和發(fā)布一個“野生型( wild- type)”蛋白質序列數據庫。這是一個國際蛋白質序列數據庫,它包含所有序列已知的自然界中野生型蛋白質的信息。PIR 數據庫按數據的性質分為四個部分:

PIR1 中的序列已經經過驗證, 注釋十分詳盡; PIR2 中大部分序列已經經過驗證,但還含有尚未確定的冗余序列; PIR3中的序列還沒有經過檢驗,注釋也還沒有加入;PIR4 中的信息都由其他渠道獲得,沒有經過驗證也沒有加入注釋。

2.2.1.3 其他蛋白質組數據庫

    蛋白質生物信息學包含很多方面的內容:如蛋白質大分子的結構、相互作用等等,所以,除了上述的一些數據庫之外,還有很多關于構象、相互作用等方面的數據庫,如(1PDB( Protein Data Bank,蛋白質三維結構坐標庫www. pdb. bnl.gov) ,即美國國家實驗室( Brookhaven National Laboratory, BNL)蛋白結構數據庫。(2Predictome( http://visant./) 蛋白質功能預測數據庫,44 個基因組和蛋白之間的功能聯系提供預測;(3PROSITE( http:// cn. expasy.org/prosite/) 蛋白質家族和功能域數據庫, 包含大量具有生物學意義的位點、 模型等信息;(4MSDB,由倫敦皇家學院( Imperial College Lon-

don) Hammersmith 分校的蛋白質組學系負責維護,是基于質譜應用的數據庫,屬于混合數據庫。

將生物信息學的實驗思路引入蛋白質組學的實驗方案后,實驗人員可以通過互聯網上的信息設計實驗方案,避免了很多重復性的勞動,少走很多彎路,為蛋白質組學的發(fā)展提供了可靠的信息資源。值得一提的是,上文提到的大多數數據庫都能實現數據接收、在線查詢和空間結構的可是化瀏覽等多種功能。而且,幾乎所有這些數據庫都是免費的,都可以免費下載或提供免費服務,使得蛋白質組學可以在生物信息學的輔助之下快速發(fā)展。[6]

2.2.2 生物信息學與蛋白質分析[7]

在蛋白質組分析過程中,生物信息學的作用不僅僅體現在數據庫的查閱和資料的整合中,生物信息學軟件在蛋白質組研究領域的作用根式至關重要的。蛋白質分析軟件應用主要集中在結合蛋白質組研究中的分離技術和堅定技術識別蛋白質(如2-DE)圖像分析、Edman降解的序列組合、質譜數據的綜合分析等),對有價值的未知蛋白質進行分析和預測(包括序列分析、結構預測、結構域、電點等性質的檢測等)、針對蛋白質的分析預測方法應用的工具有4個方面。

2.2.2.1 蛋白質一級結構分析

根據20中氨基酸的理化性質可以分析電泳等實驗中的未知蛋白質,同樣也可以分析已知蛋白質的物化性質。ExPASy(ExPASy是由Swiss2ProtTrEMBL ;EMBL 等多個數據庫的集合,主要專注的領域是蛋白質分子和蛋白質組學。) 工具包中提供了一系列相應程序,AACompIdent。它與把氨基酸序列在 SWISS-PROT庫中搜索不同,AACompIdent 利用未知蛋白的氨基酸組成去確認具有相同組成的已知蛋白。這個程序需要的信息比較多,包括有氨基酸組成、蛋白質的名稱、pIMw(如果已知)以及它們的估算誤差、所屬物種、標準蛋白的氨基酸組成、標準蛋白的SWISS-PROT編號等,用戶還需要在6種氨基酸“組合”中作出選擇。然后在SWISS-PROTTrEM2BL 數據庫中搜索組成相似蛋白。②AACompSim。與前者類似,AACompIdent 的一個變種。但比較多在SWISS-PROT中進行。也可以用于發(fā)現蛋白質之間較弱的相似關系。③PROPSEARCH。不屬于ExPASy 工具包,是蛋白質氨基酸序列同源性的檢索,提供免費的查詢,并通過電子郵件的形式反饋給提問者的網頁。設計 PROPSEARCH的目的是為了通過排比方法查詢一個新的蛋白質序列失敗時,查找公認的蛋白質家族而設計的。PROPSEARCH可以通過氨基酸組分來查詢,同時也可以通過其他的特性來進行查詢,如從序列中計算所得的分子量、 挑選的二肽組分的含量等。

2.2.2.2 蛋白質的物理性質預測

    從蛋白質序列出發(fā),預測蛋白質的許多物理性質,包括等電點、分子量、酶切特性、疏水性、電荷分布等。相關工具有:①Compute pI/MW(等電點和分子量工具)。是ExPASy工具包中的程序,PI的確定是基于早起研究中將蛋白質從中性到酸性變性條件下遷移過程所獲的PK值。但對于堿性蛋白質有局限,計算出的等電點可能不準確。分子量的計算是把序列中的每個氨基酸的同位素的品軍分子量加在一起,再加一個水分子的分子量。②PeptideMass (酶切特性工具)。是ExPASy工具包中的程序,主要針對肽段圖譜的分析試驗,分析蛋白質在各種蛋白

酶和化學試劑處理后的內切產物。可預測水解結果的酶和試劑包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspNGluC(雙羧酯或磷酸酯)等。半胱氨酸和甲硫氨酸可在計算產物肽段前加以修飾。③TGREASE(疏水性工具)。是FAS-TA工具包中的程序,能夠沿著蛋白質序列長度計算其疏水性(疏水性是每種氨基酸的固有特性,影響蛋白質的三級空間結構)。這個程序的疏水性預測方法依賴與疏水性的衡量尺度,它將每種氨基酸的物理性質與疏水性相聯系,沿著蛋白質序列計算每個殘基位點的移動平均疏水性,并給出疏水性和序列曲線。用這個程序還可以發(fā)現膜蛋白的跨膜區(qū)和高疏水性區(qū)的明顯相關性。④SAPS(電荷分布工具)

蛋白質序列統(tǒng)計分析,對提交的序列給出大量全面的分析數據。輸出結果首先是按照種類對氨基酸的統(tǒng)計計數,然后是電荷分布分析(包括正/負電荷聚集區(qū)的位置,高度帶電和不帶電區(qū)域,電荷傳播和模式等),最后給出高疏水性和跨膜域、重復結構和多重態(tài)以及周期性分析。

2.2.2.3蛋白質二級結構預測

   二級結構是指α螺旋和β折疊等規(guī)則的蛋白質局部結構元件。蛋白質的二級結構預測的基本依據是每一段相鄰的氨基酸殘基具有形成一定二級結構的傾向。因此,進行二級結構預測需要通過統(tǒng)計和分析發(fā)現這些傾向或者規(guī)律。蛋白質二級結構預測的方法有3種。一是由已知結構統(tǒng)計各種氨基酸殘基形成二級結構

的構象趨勢,其中最常用的是ChouFasman;二是基于氨基酸的物理化學性質,包括堆積性、疏水性、電荷性、氫鍵形成能力等;三是通過序列比對,由已知三維結構的同源蛋白推斷未知蛋白的二級結構。各種方法預測的準確率隨蛋白質類型的不同而變化。一般對于α螺旋預測精度較好,對β折疊差些,而對除α螺旋和β折疊等之外的無規(guī)則二級結構則效果很差。①nnPredict。用神經網絡方法預測二級結構,使用FASTA格式文件。蛋白質結構類型分為全α蛋白、全β蛋白和α/β蛋白,輸出結果包括“H(螺旋)、“E(折疊)和“β”(轉角)。該方法在實際的實例預測中,準確率超過65%,而對全α蛋白則能達到79%的準確率。②Predict2Protein。提供了序列搜索和結構預測服務,它先在 SWISS-PROT中搜索相似序列,用MaxHom算法構建多序列比對的profile,再在數據庫中搜索相似的profile,然后用一套PHD程序來預測相應的結構特征,不僅僅給每個殘基分配 1 個二級結構類型,他還對序列的每個位點的預測可信度給予統(tǒng)計分析。這個方法的平均預測準確率達到72 % ,最佳殘基預測準確率可高達90 %。③SSPRED。與 PredictProtein 相似,特點是在對比時特別注意非保守位點的替換,并利用比對結果作出預測結果,然后刪除簡單不合理的結果單元。

2.2.2.4蛋白質的三維結構

蛋白質三維結構是預測時最復雜和最困難的預測技術。序列差異較大的蛋白質序列也可能折疊成類似的三維構象。由于蛋白質的折疊過程并不十分清晰,從理論上解決蛋白質折疊的問題還有待進一步的科學發(fā)展,但也有了一些有一定作用的三維結構預測方法。即與已知結構的序列比較,同源模建,threading算法和

折疊識別方法。常見的預測算法有:SWISS-MODEL (自動蛋白質同源模建服務器)、CPHmodels等。

2.2.3 生物信息學與蛋白質功能

 生物信息學發(fā)展到今天不僅可以對蛋白質組數據進行分析和預測,而且可以對已知或者未知的基因產物進行功能上全面的分析和預測。

生物信息學最常用的分析方法是模式識別。主要是利用存在于蛋白質序列結構中的某些特殊的特征模體來識別相關蛋白質性質。換而言之,就是從新的蛋白序列中發(fā)現標志性的序列或者結構,以此建立模式,然后在已經建立好的已知蛋白質數據庫中,搜集于此相似的模式,來確定未知蛋白質的歸屬,從而預測它的功能。

許多基因是在特定時期和條件下被激活,才能表達出來,在正常人工模擬的環(huán)境下根本無法表達。類似于這樣的恩未知蛋白質也需要通過生物信息學的方法計算分析預測,以獲得它的功能信息。

 

3  結語

    信息技術的創(chuàng)新與提升,必將為蛋白質組學的深入探究開啟一扇希望的明窗。我們有理由相信,與生物信息學攜手前行的蛋白質組學必將為人類開啟生命科學的奧秘。[8]

 

4 參考文獻

[1] 王亞輝.世紀之交生物學發(fā)展的主要趨勢[J].中國科學基金,2000(3):167- 168.

[2] 張春霆.生物信息學的現狀與展望[J].世界科技研究與發(fā)展,2000(6):17- 20.

[3] 李林.蛋白質組學的進展[J].生物化學與生物物理學報,1998,30(6):533 - 539.

[4] 賀光. 生物信息學在蛋白質研究中的應用[J]. 國外醫(yī)學.遺傳學分冊, 2002,(03) .

[5] 黃嘯. 生物信息學在蛋白質組學上的應用[J]. 安徽農業(yè)科學, 2006,(23) .

[6] 馬袁君,程震龍,孫野青. 生物信息學及其在蛋白質組學中的應用[J]. 生物信息學,      2008,(01) .

[7] 徐建華,朱家勇. 生物信息學在蛋白質結構與功能預測中的應用[J]. 醫(yī)學分子生物學雜志, 2005,(03) .

[8] 楊嘯林, 張正國. 蛋白質分析中生物信息學的應用[J]. 醫(yī)學研究通訊, 2002,(09)

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多