※ Multiplexing:一種同時采用多種樣品的測序方法,能夠大大提高測序速度。
※ 突變(Mutation):DNA序列上任一種可以被遺傳的變易。 ※ 核苷酸(Nucleotide):DNA和RNA的基本組成部分,通常包含一分子核糖,一分子磷酸和一分子堿基。多個核苷酸通過磷酸二酯鍵連接成一條鏈狀。 ※ 細胞核(Nucleos):真核細胞中的一種細胞器,內含遺傳物質。 癌基因(Oncogene):一種能夠導致癌癥的基因。許多致癌基因都直接或間接地控制細胞的成長速度。 ※ 噬菌體(phage):一種以細菌為宿主細胞的病毒。 ※ 物理圖譜(Physics Map):物理圖譜描繪DNA上可以識別的標記的位置和相互之間的距離(以堿基對的數目為衡量單位),這些可以識別的標記包括限制性內切酶的酶切位點,基因等。物理圖譜不考慮兩個標記共同遺傳的概率等信息。對于人類基因組來說,最粗的物理圖譜是染色體的條帶染色模式,最精細的圖譜是測出DNA的完整堿基序列。 ※ 質粒(Plasmid):質粒是細菌的染色體外能夠自我復制的環(huán)狀DNA分子。它能夠和細胞核中的染色體明顯地區(qū)別開來,而且并不是細胞生存的必要物質。一些質粒適宜于引入到宿主細胞中去,并利用宿主細胞的DNA大量繁殖,因此我們常常采用質粒作為外源DNA的載體,外源DNA借助于質粒在宿主細胞中大量繁殖。 ※ 多基因病(Polygenic Disorder):有多個基因位點共同決定的遺傳?。ㄈ缧呐K病、糖尿病、一些癌癥等)。這類疾病的遺傳由多個基因位點共同控制,因而比單基因病的遺傳更為復雜。 ※ 多聚酶鏈式反應(PCR):一種體外擴增DNA的方法。PCR使用一種耐熱的多聚酶,以及兩個含有20個堿基的單鏈引物。經過高溫變性將模板DNA分離成兩條鏈,低溫退火使得引物和一條模板單鏈結合,然后是中溫延伸,反應液的游離核苷酸緊接著引物從5‘端到3’端合成一條互補的新鏈。而新合成的DNA又可以繼續(xù)進行上述循環(huán),因此DNA的數目不斷倍增。 ※ 多聚酶(Polymerase):多聚酶具有催化作用,能夠加快游離的核苷酸和DNA模板結合形成新鏈的反應速度。 ※ 多態(tài)性(Polymorphism):多個個體之間DNA的差異稱為多態(tài)性。DNA變異概率超過1%的變異,比較適宜作為繪制連接圖譜的證據。 ※ 引物(Primer):預先制備的比較短的核苷酸鏈,在新鏈合成過程中作為引物,游離的核苷酸在引物之后按順序和模板上的堿基結合,形成新鏈。 ※ 原核生物(Prokaryote):原核生物沒有細胞膜,結構清晰的核以及其他細胞器。細菌是原核生物。 ※ 探針(Probe):是一條DNA單鏈或者一條RNA鏈,具有特定的序列,并且使用放射性元素或者免疫特性物質進行標記。探針和克隆庫中的某條互補片段結合成一條雙鏈結構,我們可以借助于探針的檢測來獲知與其互補的鏈的位置。 ※ 啟動子(Promoter):DNA上的一個特定位點,RNA聚合酶在此和DNA結合,并由此開始轉錄過程。 ※ 蛋白質(Protein):一種由一條或者多條肽鏈構成的大分子。每條肽鏈上核苷酸的順序是由基因外顯子部分的堿基序列決定的。蛋白質是細胞、組織和器官的重要組成部分,每種蛋白質都具有特定的功能。酶、抗體和激素等都是蛋白質。 ※ 嘌呤(Purine):一種含氮的單環(huán)結構物。是核苷酸的重要組成部分,有腺嘌呤A和鳥嘌呤G兩種。 ※ 嘧啶(Pyrimidine):一種含氮的雙環(huán)結構,是核苷酸的重要組成部分。分為胞嘧啶C,胸腺嘧啶T和尿嘧啶U三種。 ※ 重組克?。≧ecombinant Clone):將不同來源的DNA片段合成在一個DNA分子中,這種技術稱為重組,得到的分子為重組克隆。 ※ DNA重組技術(Recombinant DNA Technology):在細胞體外將兩個DNA片段連接成一個DNA分子的技術。在適宜的條件下,一個重組DNA分子能夠被引入到宿主細胞中并在宿主細胞中大量繁殖。 ※ 調控序列(regulatory regions and sequence):一段控制基因表達的DNA片段。 ※ 限制性內切酶(Restriction enzyme, endonuclease):這種酶能夠識別出DNA上特定的堿基序列,并在這個位點將DNA酶切。細菌中有400中限制性內切酶,能夠識別出100中DNA序列。 ※ 酶切位點(Restriction Enzyme cutting site):DNA上一段堿基的特定序列,限制性內切酶能夠識別出這個序列并在此將DNA酶切成兩段。 ※ 限制性長度多態(tài)性(Restriction fragment length polymorphsm):從不同個體制備的DNA,使用同一種限制性內切酶酶切,切得的片段長度各不相同。酶切片段的長度可以作為物理圖譜或者連接圖譜中的標記子。通常是在酶切位點處發(fā)生突變而引發(fā)的。 ※ 核糖核酸RNA(Ribonucleic acid):從細胞的細胞核和細胞質部分分離出來的化學物質。在蛋白質合成和其他生化反應中起著重要作用,RNA的結構和DNA的結構類似,都是有核苷酸按照一定順序排列成的長鏈。RNA可以分為信使RNA、轉運RNA、核糖體RNA以及其他類型的RNA。 ※ 核糖體RNA(Ribonsomal RNA rRNA):存在于核糖體中的RNA。 ※ 核糖體(Ribonsome):細胞質中含有rRNA和相關蛋白質的細胞器,是蛋白質的合成場所。 序列位置標簽(Sequence Tagged Site, STS):一段短的DNA序列(200-500個堿基對),這種序列在染色體上只出現(xiàn)一次,其位置和堿基順序都是已知的。在PCR反應中可以檢測處STS來,STS適宜于作為人類基因組的一種地標,據此可以判定DNA的方向和特定序列的相對位置。ETS是cDNA上的STS。 ※ 性染色體(Sex Chromosome):在人類細胞中是X或者Y染色體,性染色體決定了個體的性別。雌性細胞中含有兩個X染色體,而雄性細胞中含有1個X染色體和1個Y染色體。 ※ 鳥槍法(Shotgun method):使用基因組中的隨機產生的片段作為模板進行克隆的方法。 ※ 單基因?。⊿ingle Gene Disorder):一個基因的等位基因之間發(fā)生了突變造成的疾病。 ※ 體細胞(Somatic Cells):個體中除了生殖細胞及其母細胞之外的細胞,都是體細胞。 ※ 串聯(lián)重復序列(Tandem repeat sequences):在染色體上一段序列的多次重復,稱為串聯(lián)重復序列。常用來作為物理圖譜中的標記子。 ※ 端粒(Telomere):是染色體的末端部分,這一特殊結構區(qū)域對于線型染色體的結構和穩(wěn)定起重要作用。 ※ 轉錄(Transcription):以某一DNA鏈為模板,按照堿基互補原則形成一條新的RNA鏈的過程,是基因表達的第一步。 ※ 轉運RNA(tRNA):轉運RNA具有特殊的結構,其一端包含3個特定的核苷酸序列,能和信使RNA上的密碼子按照堿基配對原則進行結合。另一端則帶有一個氨基酸。因此轉運RNA能夠同細胞質中游離的氨基酸結合并運到核糖體上,核糖體按mRNA上的遺傳信息將氨基酸裝配成蛋白質。 ※ 轉化(Transformation):將外源DNA整合到某一細胞基因組中的過程。。 ※ 翻譯(Translation):mRNA上攜帶的遺傳信息指導蛋白質的合成過程,稱為翻譯。 ※ 病毒(Virus):一種不具備細胞結構的生物體。只能寄生在宿主細胞中才能生存。病毒一般包含核酸以及外殼蛋白,有些動物的病毒的外面也偶爾覆蓋一層細胞膜。病毒進入宿主細胞之后,利用宿主的合成機制復制出大量的后代。。 ※ 酵母菌人工合成染色體(Yeast Artificial Chromosome):一種能夠克隆長達400Kb的DNA片段的載體,含有酵母細胞中必需的端粒、著絲點和復制起始序列。 (卜東波、伍樹明翻譯整理) 生物信息名詞 §§§ BLAST (Basic Local Alignment Search Tool),基本的基于局部對準的搜索工具;一種快速查找與給定序列具有連續(xù)相同片斷的序列的技術。 §§§ Entrez 美國國家生物技術信息中心所提供的在線資源檢索器。該資源將GenBank序列與其原始文獻出處鏈接在一起。 §§§ NCBI 美國國立生物技術信息中心(National Center for Biotechnology Information),1988年設立,為美國國家醫(yī)學圖書館(NLM)和國家健康協(xié)會(NIH)下屬部門之一。提供生物醫(yī)學領域的信息學服務,如世界三大核酸數據庫之一的GenBank數據庫,PubMed醫(yī)學文獻檢索數據庫等。 §§§ Conserved sequence 保守序列。演化過程中基本上不變的DNA中的堿基序列或蛋白質中的氨基酸序列。 §§§ Domain 功能域。蛋白質中具有某種特定功能的部分,它在序列上未必是連續(xù)的。某蛋白質中所有功能域組合其起來決定著該蛋白質的全部功能。 §§§ EBI 歐洲生物信息學研究所(European Bioinformatics Institute)。 The National Center for Biotechnology Information (NCBI) at the NationalLibrary of Medicine (NLM), National Institutes of Health (NIH) §§§ EMBL 歐洲分子生物學實驗室(uropean Molecular Biology Laboratory)。 §§§ GenBank 由美國國家生物技術信息中心提供的核酸序列數據庫。 §§§ Gene 基因。遺傳的基本的物理和功能單位。一個基因就是位于某條染色體的某個位置上的核苷酸序列,其中蘊含著某種特定功能產物(如蛋白質或RNA分子)的編碼。 §§§ DUST A program for filtering low complexity regions from nucleic acid sequences. §§§ Gene expression 基因表達?;蛑械木幋a信息被轉換成行使特定功能的結構產物的過程。 §§§ Gene family 基因家族。一組密切相關的編碼相似產物的基因。 §§§ Gene mapping 基因作圖。對DNA分子(染色體或質粒)中基因的相對位置和距離進行確定的過程。 §§§ Genetic code 遺傳密碼。以三聯(lián)體密碼子的形式編碼于mRNA中的核苷酸序列,決定著所合成蛋白質中的氨基酸序列。 Genome 基因組。某一物種的一套完整染色體組中的所有遺傳物質。其大小一般以其堿基對總數表示。 §§§ Genomics 基因組學。從事基因組的序列測定和表征描述,以及基因活性與細胞功能關系的研究。 §§§ HGMP 英國劍橋的人類基因組繪圖計劃(Human Genome Mapping Project)。 §§§ Informatics 信息學。研究計算機和統(tǒng)計學技術在信息處理中的應用的學科。在基因組計劃中,信息學的內容包括快速搜索數據庫方法的開發(fā)、DNA序列信息分析方法的開發(fā)和從DNA序列數據中預測蛋白質序列和結構方法的開發(fā)。 §§§ Physical map 物理圖譜。不考慮遺傳,DNA中可識別的界標(如限制性酶切位點和基因等)的位置圖。界標之間的距離用堿基對度量。對人類基因組而言,最低分辨率的物理圖譜是染色體上的條帶圖譜;最高分辨率的物理圖譜是染色體中完整的核苷酸序列。 §§§ Promoter 啟動子。DNA中被RNA聚合酶結合并從此起始轉錄的位點。 §§§ Proteome 蛋白質組。一個基因組的全部蛋白產物及其表達情況。 §§§ Regulatory region or sequence 調控區(qū)或調控序列。控制基因表達的DNA堿基序列。 §§§ Ribosomal RNA 核糖體RNA。簡寫為rRNA。是一組存在于核糖體中的RNA分子。 §§§ Sequence tagged site 序列示蹤位點,簡寫為STS。在人類基因組中只出現(xiàn)一次的位置和序列已知的長約200到500bp的短DNA序列片斷。由于可以通過PCR檢測到,STS在將來源于許多不同實驗室的基因圖譜和測序數據進行定位和定向時非常有用,并且STS在人類基因組的物理圖譜中也具有界標的作用。表達的序列標簽(ESTs)就是那些得自cDNAs的STSs。 §§§ Single-gene disorder 單基因病。由單個基因的等位基因的突變所導致的遺傳病(如杜興肌營養(yǎng)不良和成視網膜細胞瘤等)。 §§§ UniGene 美國國家生物技術信息中心提供的公用數據庫,該數據庫將GenBank中屬于同一條基因的所有片斷拼接成完整的基因進行收錄。 §§§ 非蛋白質編碼區(qū)(“Junk”DNA)占據了人類基因組的大部分,研究表明“Junk”是許多對生命過程富有活力的不同類型的DNA的復合體,它們至少包括以下類型的DNA成份或由其表達的RNA成分:內含子(intron)、衛(wèi)星(Satellite)DNA、小衛(wèi)星(minisatellite)DNA、微衛(wèi)星(microsatellite)DNA、非均一核RNA(hmRNA)、短散置元(short interspersed elements)、長散置元(long interspersed elements)、偽基因(pseudogenes)等。除此之外,順式調控元件,如啟動子、增強子等也屬于非編碼序列。 雙重序列對比 兩序列間的對比分析。最常見的方法為Needle-Wunsch方法。能夠利用的軟件如BLAST、FASTA等。 §§§ Autosome 常染色體。與性別決定無關的染色體,人雙倍體染色體組含有46條染色體,其中22對常染色體,一對與性別決定有關的性染色體(X和Y染色體)。 sex chromosome. 包括序列(核酸與蛋白)搜索,結構比較,結構預測,蛋白質域,模體(Motif ),測序,發(fā)育與進化分析,雙向電泳成像分析,質譜蛋白質鑒定,三維蛋白結構模建與成像,基因組圖譜比較,基因預測,非編碼區(qū)功能位點識別,基因組重疊群集裝,后基因組功能分析,結構基因組學以及藥物基因組學等等。 在BLAST2.0,2.05新版中啟用了gapped BLAST、PSI-BLAST 和PHI-BLAST。gapped BLAST是比原BLAST 更靈敏更快的局部相似聯(lián)配(俗稱局部同源)搜索法;PSI- BLAST用迭代型的剖面打分算法,每次迭代所費時間與前者相同,它可檢索弱同源的目標;PHI-BLAST 98年剛出臺,是模體(Motif )構造與搜索軟件,是更靈敏的同源搜索軟件。例如線蟲§§§ 的CED4是apoptosis 的調控蛋白,含有涉及磷酸結合的P 環(huán)模體,在各種ATP 酶和GTP 酶中可發(fā)現(xiàn)。在用gapped BLAST搜索NR數據庫時,CED4僅跟人凋亡調控蛋白Apaf-1顯著同源或相似(其中含有P-loop保守區(qū))。但PHI- BLAST搜索,另有一個顯著同源(E=0.038 )目標,是植物抗病蛋白Arabidopsis thaliana T7N9.18,證實此動物與植物蛋白確實在apoptosis 中有相似的功能。另有,按PHI- BLAST搜索在MutL DNA修復蛋白中的ATP 酶域,II型拓撲異構酶,組氨酸激酶和HS90家族蛋白,發(fā)現(xiàn)一個新的真核蛋白族,共有HS90型ATP 酶域。再有在古核tRNA核苷酸轉移酶中發(fā)現(xiàn)核苷酸轉移酶域,在細菌DNA 引物酶的古核同源體中發(fā)現(xiàn)螺旋酶超家族II的模體VI。用以往的搜索法這些是得不到的。 深層事項: 后基因組時期的主要任務:Data mining ,即從完全測序的基因組中預測功能。 1 、序列、結構和功能 自分子生物學產生以來,均相信序列決定結構,結構決定功能。隨著基因組學的發(fā)展,對此理解已有長足的深化。同源序列(具有共同祖先)未必具有相同的功能;相同功能未必源自同源序列。相異序列可能有相似的結構;序列與結構不相似的蛋白可能會有相似的功能。現(xiàn)在發(fā)現(xiàn)存在不相似(在序列與結構水平上)酶催化相同的生化反應。當然亦存在甚至結構水平上很相似的酶催化不同的生化反應。例如人與鼠的3?- 羥甾類脫氫酶,1AHH和1RAL;前者是Rossmann折疊,而后者是TIM-桶??隙ǎ@些相似酶不是共同祖先趨異的結果,而是不同祖先趨同的結果。如結構決定功能還是合理的,那么至少在功能活性位點具有相似結構特征(即3D- 功能模體)。屬于今后研究的課題,對了解酶催化機制與功能蛋白的小分子模擬具有很大價值。 何謂功能?功能有層次的:表型的,細胞的和分子的。 目前開始高層功能預測,分子相互作用、代謝途徑和調控網絡。目前,已從結構基因組學,功能基因組學和蛋白質組學多種角度研究基因組功能。 2 、結構基因組學中的生物信息學 希望大通量地測定和模建完全測序基因組的全部蛋白三維結構。生物信息學可以發(fā)揮作用,一方面規(guī)劃好測定的對象,另一方面可靠地模建結構。 3 、功能基因組學中的生物信息學 美國HGP 已編制1998-2003 的新五年計劃。提出八項目標:其中目標7 特指生物信息學和計算生物學,其實幾乎每項目標都要生物信息學,例如目標4 功能基因組學中的非編碼區(qū)功能位點預測,基因表達分析(如DNA Chip)以及蛋白質全局分析(如蛋白質組學)。 §§§ 蛋 白 質 組 學(Proteomics) 1.蛋白質組學研究的目的和任務 20世紀中期以來,隨著DNA雙螺旋結構的提出和蛋白質空間結構的X射線解析,開始了分子生物學時代,對遺傳信息載體DNA和生命功能的主要體現(xiàn)者蛋白質的研究,成為生命科學研究的主要內容。90年代初期,美國生物學家提出并實施了人類基因組計劃,預計用15年的時間,30億美元的資助,對人類基因組的全部DNA序列進行測定,希望在分子水平上破譯人類所有的遺傳信息,即測定大約30億堿基對的DNA序列和識別其中所有的基因(基因組中轉錄表達的功能單位)。經過各國科學家8年多的努力,人類基因組計劃已經取得了巨大的成績,一些低等生物的DNA全序列已被闡明,人類3%左右DNA的序列也已測定,迄今已測定的表達序列標志(EST)已大體涵蓋人類的所有基因。在這樣的形勢下,科學家們認為,生命科學已經入了后基因組時代。在后基因組時代,生物學家們的研究重心已經從解釋生命的所有遺傳信息轉移到在整體水平上對生物功能的研究。這種轉向的第一個標志就是產生了一門成為功能基因組學(Functional Genomics)的新學科。它采用一些新的技術,如SAGE、DNA芯片,對成千上萬的基因表達進行分析和比較,力圖從基因組整體水平上對基因的活動規(guī)律進行闡述。但是,由于生物功能的主要體現(xiàn)者是蛋白質,而蛋白質有其自身特有的活動規(guī)律,僅僅從基因的角度來研究是遠遠不夠的。例如蛋白質的修飾加工、轉運定位、結構變化、蛋白質與蛋白質的相互作用、蛋白質與其它生物分子的相互作用等活動,均無法在基因組水平上獲知。正是因為基因組學(Genomics)有這樣的局限性,于90年代中期,在人類基因組計劃研究發(fā)展及功能基因組學的基礎上,國際上萌發(fā)產生了一門在整體水平上研究細胞內蛋白質的組成及其活動規(guī)律的新興學科——蛋白質組學(Proteomics),它以蛋白質組(Proteome)為研究對象。蛋白質組是指“由一個細胞或一個組織的基因組所表達的全部相應的蛋白質”。測定一個有機體的基因組所表達的全部蛋白質的設想,萌發(fā)在1975年雙向凝膠電泳發(fā)明之時。1994年Williams正式提出了這個問題,而“蛋白質組”的名詞則是由Wilkins創(chuàng)造的,發(fā)表在1995年7月的Electrophoresis雜志上。蛋白質組與基因組相對應,但二者又有根本不同之處:一個有機體只有一個確定的基因組,組成該有機體的所有不同細胞斗拱享用一個確定的基因組;而蛋白質組則是一個動態(tài)的概念,她不僅在同一個機體的不同組織和細胞中不同,在同一機體的不同發(fā)育階段,在不同的生理狀態(tài)下,乃至在不同的外界環(huán)境下都是不同的。正是這種復雜的基因表達模式,表現(xiàn)了各種復雜的生命活動,每一種生命運動形式,都是特定蛋白質群體在不同時間和空間出現(xiàn),并發(fā)揮功能的不同組合的結果?;駾NA的序列并不能提供這些信息,再加上由于基因剪接,蛋白質翻譯后修飾和蛋白質剪接,基因遺傳信息的表現(xiàn)規(guī)律就更加復雜,不再是經典的一個基因一個蛋白的對應關系,一個基因可以表達的蛋白質數目可能遠大于一。對細菌,可能為1.2~1.3;對酵母則為3;而對人,可高達10。后基因組和蛋白質組研究,是為闡明生命活動本質所不可缺少的基因組研究的遠為復雜的后續(xù)部分,無疑將成為21世紀生命科學研究的主要任務。 |
|
來自: bengua1985 > 《專業(yè)》