
1. 基因組基礎(chǔ)概念
大家好,我是飛哥。
前幾天推薦了這本書,可以領(lǐng)取pdf和配套數(shù)據(jù)代碼。這里,我將各個章節(jié)介紹一下,總結(jié)也是學(xué)習(xí)的過程。
引文部分是原書的谷歌翻譯,正文部分是我的理解。
這本書共有三大部分,分別是:

- Working with Genetic Data,實戰(zhàn)
- Applications and Advanced Topics,進(jìn)階
第一部分基礎(chǔ),分為六個章節(jié),分別是:
- 第三章:基因型數(shù)據(jù)參數(shù)
今天,介紹第一章的內(nèi)容,看一下目錄:

本書寫作的目的
?2003年,人類基因研究首次對人類基因組進(jìn)行測序,這在理解和納入研究的方式上引發(fā)了一場革命。隨著計算能力、數(shù)據(jù)可用性和新技術(shù)的進(jìn)步,這一研究領(lǐng)域打破了我們?nèi)绾慰创膊『托袨榈脑S多傳統(tǒng)。遺傳學(xué)現(xiàn)已超越生物學(xué)、流行病學(xué)、醫(yī)學(xué)、心理學(xué)、精神病學(xué)、統(tǒng)計學(xué)和人口學(xué)、社會學(xué)和經(jīng)濟(jì)學(xué)等社會科學(xué)。有史以來第一次有可能將大規(guī)模分子遺傳信息整合到跨廣泛主題的研究中。許多人認(rèn)為,統(tǒng)計遺傳數(shù)據(jù)分析只適用于數(shù)量遺傳或統(tǒng)計研究學(xué)科范圍內(nèi)的廣泛研究團(tuán)隊和高度專業(yè)化的科學(xué)家。這本書的目的是向來自不同學(xué)科背景的應(yīng)用研究人員展示如何理解、應(yīng)用和處理你自己研究課題的遺傳數(shù)據(jù)。本書中的知識將使您能夠正確、負(fù)責(zé)任地理解和解釋數(shù)據(jù),并將其作為藍(lán)圖應(yīng)用于您自己的數(shù)據(jù)和研究。我們還希望,通過使這種類型的數(shù)據(jù)分析更容易獲得,我們朝著更崇高的目標(biāo)努力,既要使作為非人道遺傳學(xué)研究對象的人多樣化,又要使研究人員本身和所涉及的主題多樣化。
這本書的目的是向?qū)W生和研究人員介紹新興的概念數(shù)據(jù),以及統(tǒng)計遺傳數(shù)據(jù)分析的方法,以一種方便、實用和我們希望參與的方式。這本書是為那些在分子生物學(xué)、人類遺傳學(xué)或細(xì)胞生物學(xué)方面沒有很強(qiáng)背景,但希望將遺傳數(shù)據(jù)整合到研究中的人編寫的。這本書的編寫考慮到了廣泛的可訪問性,將吸引來自多學(xué)科背景的學(xué)生和研究人員,他們是這一研究領(lǐng)域的新手。在統(tǒng)計學(xué)或生物統(tǒng)計學(xué)課程的第一級掌握統(tǒng)計方法的基本知識是最好的。我們的方法是實踐和應(yīng)用的,重點是包裝基本概念,這個“做和不做”,以及如何實際運行和解釋分析。我們只提供材料的基本數(shù)學(xué)和統(tǒng)計處理,并為那些想深入挖掘的人提供參考。考慮到遺傳學(xué)的深遠(yuǎn)影響,我們預(yù)計來自醫(yī)學(xué)和社會科學(xué)的學(xué)生和研究人員會感興趣,他們將越來越多地將統(tǒng)計與對他們的思維和工作方式進(jìn)行科學(xué)的遺傳數(shù)據(jù)分析。
?
我本身是學(xué)習(xí)動植物數(shù)量遺傳學(xué)的,工作中也經(jīng)常用到生物統(tǒng)計、數(shù)量遺傳學(xué)、GWAS和GS,但是對于GWAS,人類上面研究得更系統(tǒng),所以閱讀此書,我認(rèn)為可以加深對基因組數(shù)據(jù)分析的理解,畢竟,不同軟件不同代碼只是工具,而理解背后的意義,會“知其然亦知其所以然”。人類的GWAS分析有其特定的概念,比如多基因得分,比如GbyE,對于動植物上面分子標(biāo)記輔助和基因組選擇,也是非常有幫助的。
誰適合讀這本書
?這本書是為當(dāng)前和有抱負(fù)的學(xué)生和研究人員準(zhǔn)備的,他們來自任何以經(jīng)驗為導(dǎo)向的醫(yī)學(xué)、生物學(xué)、行為學(xué)或社會科學(xué)學(xué)科,希望了解人類統(tǒng)計遺傳數(shù)據(jù)分析的主要概念,同時也是尋求進(jìn)入和開展這項研究的解決方案的從業(yè)者。讀者可以通過動手電腦練習(xí)獲得應(yīng)用分子遺傳數(shù)據(jù)分析的藍(lán)圖,重點是實體解釋。這是一本介紹性的書,寫給那些在分子生物學(xué)、人類遺傳學(xué)或統(tǒng)計遺傳學(xué)方面沒有很強(qiáng)背景,但希望整合遺傳學(xué)的人,他們研究的數(shù)據(jù)。在非統(tǒng)計或生物統(tǒng)計學(xué)課程的第一級掌握統(tǒng)計方法的基本知識是最好的。如果您首先在R和Rstudio中從事一些背景教程工作,并且對于一些更高級的應(yīng)用程序,您將對Python有一個基本的了解,那么您將從本書中獲得最大的收獲(請參見附錄1)。我們還共同致力于統(tǒng)計遺傳數(shù)據(jù)分析的基本術(shù)語和實踐方面,而不是其背后的數(shù)學(xué)、統(tǒng)計學(xué)和生物學(xué)。讀者可以參考進(jìn)一步閱讀部分和每個章節(jié)中的參考資料了解更多信息
?
這本書的對象可以是:醫(yī)學(xué)、生物學(xué)、行為學(xué)或者社會科學(xué),只要牽涉到基因遺傳數(shù)據(jù),就可以用到里面的分析方法。編程語言是R和Python,還有plink、GCTA獨立的軟件。
第一章節(jié)的主要內(nèi)容

?目的了解這本書的動機(jī)、目的、目標(biāo)受眾和結(jié)構(gòu)定義、認(rèn)識和描述人類基因組研究中使用的基本術(shù)語理解人類細(xì)胞核中DNA的組織以及術(shù)語基因組、基因和染色體概述孟德爾定律。有性生殖和遺傳重組定義了遺傳多態(tài)性和術(shù)語等位基因、單核苷酸多態(tài)性次要等位基因頻率和唯一識別物了解單基因、多基因、全基因效應(yīng)和多基因評分要求掌握基因與蛋白質(zhì)關(guān)系的基本知識掌握分子生物學(xué)的中心法則:轉(zhuǎn)錄和翻譯了解多態(tài)性位點是純合還是雜合的,了解顯性和隱性性狀的遺傳關(guān)系認(rèn)識到遺傳力的意義,常見的誤稱、類型和缺失遺傳性討論
?
染色體、基因、DNA和SNP

上圖介紹了不同物質(zhì)的關(guān)系,細(xì)胞中是染色體,染色體是雙螺旋的DNA構(gòu)成,一段DNA構(gòu)成基因,DNA由堿基對構(gòu)成,SNP的概念。
孟德爾定律、有性繁殖和基因重組

孟德爾分離定律和自由組合定律,以及摩爾根的連鎖定律,是遺傳學(xué)的三大定律。
等位基因、SNP和次等位基因頻率(MAF)
MAF的區(qū)間劃分:

- MAF < 0.01,稀有變異(rar variants)
- MAF 在[0.01,0.05],低頻率(low-frequency)
- MAF > 0.05,正常變異(common)

基因頻率(MAF)和基因效應(yīng)(Effect)的區(qū)間劃分。
單基因、多基因和全基因效應(yīng)
純合子、雜合子、顯性隱性基因

純合子和雜合子是基因是否是純合的,顯性和隱性是表型的變化。
廣義遺傳力和狹義遺傳力
廣義遺傳力:

狹義遺傳力:
G進(jìn)一步剖分,下面公式中Vi后面的VG應(yīng)該是GbyE的部分,這里應(yīng)該是印刷錯誤。

關(guān)于遺傳力常見的誤區(qū)

- 第一個:遺傳力與個人無關(guān)。比如肥胖的遺傳率是25%,它的意思不是說一個人肥胖的原因是有25%的原因來源于遺傳,75%的原因來源于環(huán)境。而是說明肥胖指標(biāo)BMI 25%的差異與個體間的遺傳差異有關(guān)系。
- 第二個:單個群體內(nèi)的參數(shù)。遺傳力估計不能用來比較不同群體或國家之間的遺傳差異。例如,身高的可持續(xù)性估計為80%,并不意味著荷蘭和美國之間的平均身高差異主要是由于基因差異造成的。雖然每個特定群體內(nèi)的變異可能是基因遺傳導(dǎo)致的,但群體之間的差異可能是環(huán)境的。需要注意的是,對于某些表型,例如色素沉著或膚色的差異,他們在很大程度上是遺傳的,雖然肯定有環(huán)境因素。
- 第三個:這與遺傳不同。遺傳是后代與其親生父母之間的關(guān)系。它不僅衡量遺傳因素,而且還衡量家庭成員共享的環(huán)境、文化和其他因素。
- 第四個:遺傳力很低并不一定意味著遺傳貢獻(xiàn)很小。低遺傳力可歸因于表型相關(guān)基因缺乏變異或高的環(huán)境變異。一個直截了當(dāng)?shù)睦邮?,盡管頸椎的數(shù)量與遺傳成分高度相關(guān),但每個人的頸椎數(shù)量都是一樣的。變異很小,因此沒有或很少有遺傳因素引起的變異。
Family遺傳力,SNP遺傳力和GWAS遺傳力
「第一種:Family遺傳力」
MZ:monozygotic,同卵雙胞胎,同卵全同胞
DZ:異卵全同胞
假定A是加性方差組分,C是共同環(huán)境,則同卵雙胞胎是A,異卵雙胞胎是A/2,E是殘差方差組分,
那么:A + C + E =1
那么遺傳力的計算方法是:
用它來估算遺傳力,是狹義遺傳力的最高值。
「第二種:SNP遺傳力」
是使用全部的SNP估算的狹義遺傳力,可以使用GCTA的GREML進(jìn)行估計方差組分,計算遺傳力。這里相當(dāng)于GBLUP中的遺傳力的計算。
「第三種:GWAS遺傳力」
這是由GWAS定位出的顯著性的位點或者基因,可以解釋的百分比計算而來,它是最低的。
消失的遺傳力
Missing and hidden heritability
消失的遺傳力,是家系遺傳力和GWAS遺傳力的差,它又可以分為:still-missing和hidden兩部分。它形成的主要原因是:

Still-missing遺傳力,是家系遺傳力和SNP遺傳力的差。主要是由稀有變異以及結(jié)構(gòu)變異(structural variants)導(dǎo)致,會隨著分子標(biāo)記的發(fā)展而降低。

Hidden 遺傳力,是SNP遺傳力和GWAS遺傳力的差。主要是由于統(tǒng)計方法,無法檢測出小效應(yīng)的SNP變異,這部分的變異不是消失了,而是隱藏起來了,主要是因為顯著性的閾值。

整體而言,hidden遺傳力,會隨著樣本量的增大而降低。still-missing遺傳力會隨著分子標(biāo)記的發(fā)展(可以捕捉更多的變異)而降低。

常見性狀的遺傳力

總結(jié)
?進(jìn)入數(shù)量統(tǒng)計遺傳學(xué)的學(xué)科領(lǐng)域可能令人望而生畏。在這一章中,我們的目的是提供這一研究領(lǐng)域的主要構(gòu)建塊和基本概念的直升機(jī)視圖。我們認(rèn)識到這是一篇快速而簡略的文章,并鼓勵有興趣的讀者在你對這些概念更熟悉的時候,進(jìn)一步深入研究更詳細(xì)的文獻(xiàn)。本章將為您提供基本知識,以區(qū)分主要概念,如表型、DNA、基因組、基因、染色體和基本過程。遺傳多態(tài)性為您理解這個主題提供了基礎(chǔ),包括術(shù)語等位基因、單核苷酸多態(tài)性(SNP)和次要等位基因頻率(MAF)。在這本書中,你會發(fā)現(xiàn)我們經(jīng)常研究的許多復(fù)雜性狀都是高度多基因的。掌握基因如何與蛋白質(zhì)相關(guān)的過程以及分子生物學(xué)的中心記錄似乎很重要。本書中我們研究的許多主題都是由孟德爾定律和我們對有性生殖過程中基因重組的理解以及顯性和隱性性狀的傳播所決定的。最后,我們總結(jié)了遺傳力、常見誤稱、不同類型以及缺失和隱性遺傳力的概述。在下一章中,我們將從人類基因組的基礎(chǔ)知識轉(zhuǎn)移到一本統(tǒng)計入門,然后介紹人類進(jìn)化。在這里,我們將遺傳學(xué)的基本概念從這一介紹性章節(jié)鏈接到人類傳播和進(jìn)化的較長歷史所支持的統(tǒng)計概念
?
飛哥總結(jié)
第一章部分,主要介紹基因組數(shù)據(jù)的基礎(chǔ)概念,包括染色體、基因、DNA,MAF等概念,讓我受到很大啟發(fā)的是對于遺傳力的介紹,包括狹義遺傳力和廣義遺傳力,還介紹了具有人類特色劃分的家系遺傳力、SNP遺傳力和GWAS遺傳力,并將消失的遺傳力分為了兩部分:still-missing和hidden,前者會隨著檢測技術(shù)和分子標(biāo)記的進(jìn)展而降低,比如將拷貝數(shù)變異、結(jié)構(gòu)變異放到模型中。第二個hidden會隨著樣本數(shù)的增加而降低,因為這部分主要是受到顯著性閾值的影響。
想到前幾天發(fā)的番茄處理消失遺傳力的論文,按照這本書中的定義,應(yīng)該解決的是消失遺傳力中still-missing的部分。
分割線
大家好,我是鄧飛,一個持續(xù)分享的數(shù)據(jù)分析師,這里我將自己公眾號的干貨內(nèi)容挑重點羅列一下,方便大家閱讀和使用。
1,快來領(lǐng)取 | 飛哥的GWAS分析教程
2,飛哥匯總 | 入門數(shù)據(jù)分析資源推薦)
3,數(shù)量遺傳學(xué),分享幾本書的電子版
4,學(xué)習(xí)R語言這幾本電子書就夠了!
5,書籍及配套代碼領(lǐng)取--統(tǒng)計遺傳分析導(dǎo)論