摘要:單細(xì)胞技術(shù)的最新進(jìn)展使得能夠非常詳細(xì)地解釋細(xì)胞異質(zhì)性。然而,由于在DNA提取和全基因組擴(kuò)增過程中產(chǎn)生的偏差和偽影,包括等位基因不平衡和丟失,單細(xì)胞DNA測序數(shù)據(jù)的分析仍然具有挑戰(zhàn)性。 在這里,我們提出了一個(gè)框架,通過利用鄰域雜合單核苷酸多態(tài)性的等位基因頻率,在單細(xì)胞全基因組測序數(shù)據(jù)的任何給定位置統(tǒng)計(jì)估計(jì)等位基因特異性擴(kuò)增失衡。得到的等位基因不平衡譜對于確定觀察到的突變的變異等位基因部分是否與真實(shí)變體的預(yù)期分?jǐn)?shù)一致是至關(guān)重要的。該方法在SCAN-SNV(SNV單細(xì)胞分析)中實(shí)現(xiàn),大大改善了單個(gè)細(xì)胞中體細(xì)胞變體的鑒定。我們的等位基因平衡框架廣泛適用于任何可能表現(xiàn)出等位基因失衡的數(shù)據(jù)中任何變體類型的基因型分析。 scDNA-seq分析由于同源等位基因的不平衡擴(kuò)增(等位基因失衡)和影響大部分初始DNA的早期偽影而變得復(fù)雜。一個(gè) MDA是一個(gè)非線性放大過程。通過復(fù)制置換的DNA鏈可立即用于重復(fù)的復(fù)制循環(huán),這可導(dǎo)致同源等位基因之間的不平衡擴(kuò)增。單細(xì)胞測序深度是等位基因特異性測序深度的總和,由堆積深度圖表示。粉紅色:母體等位基因的測序深度; 藍(lán)色:父本等位基因。b提取方案中的常規(guī)DNA損傷可能不成比例地影響單細(xì)胞DNA。由于自發(fā)錯(cuò)誤不可能在多個(gè)分子上獨(dú)立復(fù)發(fā),因此大量DNA損傷大部分被淘汰。然而,單個(gè)細(xì)胞基因組的損傷會影響初始模板的大量(25%;單鏈錯(cuò)誤)。在理想化的MDA過程中,MDA復(fù)制DNA的所有四個(gè)初始鏈(兩個(gè)分子)以產(chǎn)生八個(gè)鏈(四個(gè)分子)。隨機(jī)聚合酶錯(cuò)誤摻入錯(cuò)誤會影響8條DNA鏈中的1條,影響12.5%的DNA。C等位不平衡會影響真正的突變和偽影的VAF。過度擴(kuò)增具有早期單鏈損傷(紅色)的等位基因可以將人工制品膨脹為類似突變的VAF,而真正的突變(綠色)可以降低至低VAF。d由于隨機(jī)抽樣效應(yīng),沒有等位基因不平衡,雜合SNV VAF將緊密分布在50%左右。然而,等位基因失衡導(dǎo)致scDNA-seq中的VAF顯著過度分散,對稱性約為50%。 等位基因平衡模型有助于識別單細(xì)胞偽影。a單個(gè)細(xì)胞偽影(左,綠色)獲得高VAF(44%)。該區(qū)域受等位基因不平衡的影響,hSNP證實(shí)VAF為94%(右,藍(lán)色)。候選sSNV應(yīng)該呈現(xiàn)VAF≈6%或VAF≈94%。b MDA聚合酶(綠色)從屬于一個(gè)等位基因(黑色)的模板DNA中隨機(jī)解離,產(chǎn)生各種長度的擴(kuò)增子(灰色)。附近的位點(diǎn)很可能被相同的聚合酶擴(kuò)增,但更遠(yuǎn)的位點(diǎn)的概率會降低。這在鄰近位點(diǎn)(藍(lán)色,橙色)之間產(chǎn)生等位基因特異性擴(kuò)增水平的相關(guān)性。該過程在兩個(gè)同源等位基因上獨(dú)立發(fā)生,導(dǎo)致小基因組基因座中的穩(wěn)定等位基因平衡。c長擴(kuò)增子導(dǎo)致等位基因特異性讀取深度(藍(lán)色,父本等位基因;粉紅色,母本等位基因)沿基因組變化更慢。當(dāng)每個(gè)等位基因更穩(wěn)定時(shí),等位基因平衡也是如此。AB相關(guān)函數(shù)量化等位基因平衡穩(wěn)定性。dAB建模和估計(jì)的例證。可以根據(jù)hSNP是否包含參考或變體支持堿基將讀數(shù)分配給等位基因。這允許在hSNP處估計(jì)等位基因特異性深度,并因此估計(jì)AB。使用由AB相關(guān)函數(shù)參數(shù)化的高斯過程推斷出hSNP基因座外的AB(粗黑線)。二項(xiàng)式讀取采樣模型確定推斷的AB曲線應(yīng)該跟隨有噪聲的hSNP測量值的接近程度(誤差條:95%置信區(qū)間)。定相hSNP允許將父本SNP(藍(lán)色)VAF調(diào)整至(1-VAF)以與周圍的母體SNP一致,這是產(chǎn)生長程等位基因平衡估計(jì)所必需的。盡管達(dá)到非常高的VAF,所示的候選sSNV可能是錯(cuò)誤的,因?yàn)樗c局部放大平衡不匹配。e AB模型應(yīng)用于(a)中所示的候選sSNV周圍的200kb窗口。VAF = 44%時(shí)的偽影(紅色)與模型的估計(jì)AB為89%(黑線)非常不一致,并且遠(yuǎn)低于95%概率間隔(灰色包絡(luò)線)。 SCAN-SNV FDR調(diào)整策略。在單細(xì)胞中擴(kuò)增之前,50%的DNA支持體細(xì)胞SNV和hSNP。兩種突變類型的VAF分布的形狀應(yīng)該是相似的,因?yàn)閮烧咄瑯邮艿任换虿黄胶獾挠绊?,但候選sSNV組(紅線)中的偽像通常在低VAF下與hSNP(黑線)相比產(chǎn)生富集。候選sSNV(綠色區(qū)域)中未知真實(shí)突變數(shù)量的VAF應(yīng)與hSNP類似地分布。真實(shí)sSNV的總數(shù)N(虛線)的潛在值可以通過首先根據(jù)hSNP VAF 分布N個(gè)突變?nèi)缓蟠_保每個(gè)VAF的預(yù)測sSNV數(shù)量不超過該VAF處的候選者數(shù)來評估。最大的這樣的N提供了體細(xì)胞突變數(shù)量的上限。給定N,可以估計(jì)任何VAF中sSNV之間的偽影部分的下限。 SCAN-SNV工作流程。GATK HaplotypeCaller確定具有非參考證據(jù)的位點(diǎn),并從批量中發(fā)現(xiàn)種系或克隆hSNP。分階段hSNP用作訓(xùn)練集以學(xué)習(xí)AB相關(guān)模式,預(yù)測候選sSNV基因座處的AB并估計(jì)人工流行率。只有通過所有過濾器的候選sSNV才被報(bào)告為推定的突變。 評估SCAN-SNV的性能難以驗(yàn)證scDNA-seq數(shù)據(jù)中的體細(xì)胞SNV,因?yàn)樵赪GA期間消耗單個(gè)細(xì)胞的基因組,即,DNA提取和擴(kuò)增不能被復(fù)制以識別偽像。通過對未用于初始測序的過量擴(kuò)增DNA進(jìn)行深度測序來驗(yàn)證推定的sSNV可以通過在擴(kuò)增的DNA中引入的人工制品來混淆; 通過非常高深度的擴(kuò)增子測序在原始組織中進(jìn)行驗(yàn)證是可能的3但僅適用于VAF不太小的克隆sSNV。因此,我們使用兩種方法評估SCAN-SNV和其他呼叫者:合成數(shù)據(jù)集和同類細(xì)胞系統(tǒng)。 合成二倍體結(jié)構(gòu)和性能。一個(gè)合成二倍體X染色體(chrX)通過合并chrX產(chǎn)生從兩個(gè)雄性供體的單個(gè)細(xì)胞進(jìn)行讀取。在提取chrX讀數(shù)后,去除假常染色體區(qū)域(PAR)并在chrX的半合子區(qū)域上鑒定SNP和sSNV。新的隨機(jī)放置的體細(xì)胞突變被摻入讀數(shù)中。對第二個(gè)雄性供體重復(fù)該過程,并合并兩組讀數(shù)以產(chǎn)生合成二倍體(SD)。b每個(gè)SD包含1000個(gè)加標(biāo)突變,其他SD共享750個(gè)突變。例如,250個(gè)尖峰由所有SD共享,另外250個(gè)由四個(gè)SD共享,依此類推。C每個(gè)點(diǎn)代表一個(gè)SD上的genotyper性能。只有尖峰突變用于計(jì)算靈敏度。假陽性率是FP的數(shù)量除以chrX上的非PAR兆堿基的數(shù)量。d私有尖峰的摻入靈敏度(克隆性= 1),兩個(gè)樣本共享的尖峰(克隆性= 2)等。 SCAN-SNV性能由同類細(xì)胞系統(tǒng)評估。來自人成纖維細(xì)胞系10的 12個(gè)單細(xì)胞衍生的樣品。體細(xì)胞突變定義為在細(xì)胞系體內(nèi)未觀察到的突變。包含三個(gè)非常密切相關(guān)的樣品的親緣細(xì)胞系統(tǒng)模擬單個(gè)細(xì)胞的生物學(xué)復(fù)制并且能夠進(jìn)行評估。真正的突變(綠色恒星)很可能得到幾個(gè)類似樣本的支持; 然而,scDNA-seq工件應(yīng)該是私有的。b具有非親緣支持的親屬樣本中的sSNV可以是亞克隆sSNV。如果是,則繼承亞克隆sSNV的每個(gè)單細(xì)胞樣品提供獨(dú)立的VAF測量。對于真正的亞克隆突變,許多樣品的平均VAF應(yīng)為~50%。C單細(xì)胞基因在親緣細(xì)胞IL-12上的表現(xiàn)。TRE敏感性,三重專用站點(diǎn)(TRE)的百分比恢復(fù); FDR,被歸類為可能FP的總呼叫的一部分。d sSNV呼叫兩個(gè)基因型分子都被VAF分類并根據(jù)13個(gè)樣本中的哪一個(gè)包含對該突變的讀支持而被分類為TRE,可能是TP或可能是FP。三重獨(dú)家(TRE)網(wǎng)站是所有同類樣本支持的高質(zhì)量網(wǎng)站,沒有其他樣本。Monovar以單樣本模式運(yùn)行。(下圖)hSNP VAF為sSNV提供參考分布。e在親緣細(xì)胞IL-12中TRE和基因調(diào)用的三核苷酸突變特征。Monovar以單樣本模式運(yùn)行。箭頭表示產(chǎn)生均聚物的突變背景。f與(相同)c)對于親緣細(xì)胞IL-11。g對于親緣細(xì)胞IL-11 與(d)相同。hSNPs和TRE sSNV的VAF分布與IL-12非常不同,表明擴(kuò)增或細(xì)胞質(zhì)量存在顯著差異。 SNV用于全基因組擴(kuò)增單細(xì)胞中SNV發(fā)現(xiàn)的體細(xì)胞基因組。 安裝SCAN-SNV作為conda包分發(fā)。安裝需要conda包管理工具和Linux風(fēng)格的操作系統(tǒng)。 操作系統(tǒng)已測試
注意此安裝過程和演示已在Amazon Web Services Ubuntu 16.04.4 LTS實(shí)例上成功運(yùn)行。 安裝miniconda$ wget https://repo./miniconda/Miniconda3-latest-Linux-x86_64.sh$ bash Miniconda3-latest-Linux-x86_64.sh# Accept the license by typing 'yes'# Choose an install prefix (the default is often fine)# Choose to run conda init (enter yes a second time during script)# Log-out and back in to source .bashrc and put conda on $PATH 安裝SCAN-SNV為SCAN-SNV創(chuàng)建一個(gè)conda環(huán)境 $ conda deactivate # The 'base' environment will be active after login$ conda create -n scansnv$ conda activate scansnv 安裝scansnv包 $ conda install -c bioconda -c conda-forge/label/cf201901 -c jluquette scansnv 注冊您的GATK安裝 $ wget 'https://software./gatk/download/auth?package=GATK-archive&version=3.8-1-0-gf15c1c3ef' -O GenomeAnalysisTK-3.8-1-0-gf15c1c3ef.tar.bz2$ tar xjvf GenomeAnalysisTK-3.8-1-0-gf15c1c3ef.tar.bz2$ gatk-register GenomeAnalysisTK-3.8-1-0-gf15c1c3ef/GenomeAnalysisTK.jar# Test the install$ gatk --version# Above should print 3.8-1-0-gf15c1c3ef 下載外部數(shù)據(jù)依賴項(xiàng)SCAN-SNV已在NCBI人參考構(gòu)建37上進(jìn)行了測試。 下載參考基因組。 $ wget ftp://gsapubftp-anonymous@ftp./bundle/b37/human_g1k_v37_decoy.fasta.gz$ wget ftp://gsapubftp-anonymous@ftp./bundle/b37/human_g1k_v37_decoy.fasta.fai.gz$ wget ftp://gsapubftp-anonymous@ftp./bundle/b37/human_g1k_v37_decoy.dict.gz 下載dbSNP。請注意,在發(fā)布中使用了dbSNP build 147(僅限常見變體)。但是,NCBI不保證長期托管dbSNP構(gòu)建,因此我們建議下載Broad的GATK資源包中包含的dbSNP版本。要使用dbSNP的其他版本,您需要生成一個(gè)tribble索引(見下文)。 $ wget ftp://gsapubftp-anonymous@ftp./bundle/b37/dbsnp_138.b37.vcf.gz$ wget ftp://gsapubftp-anonymous@ftp./bundle/b37/dbsnp_138.b37.vcf.idx.gz 下載SHAPEIT的單倍型參考面板。 $ wget https://mathgen.stats./impute/1000GP_Phase3.tgz$ wget https://mathgen.stats./impute/1000GP_Phase3_chrX.tgz 解壓縮所有內(nèi)容并將chrX SHAPEIT文件移動到主SHAPEIT目錄中。 $ gunzip *.gz$ tar xzvf 1000GP_Phase3.tgz$ tar xzvf 1000GP_Phase3_chrX.tgz$ mv genetic_map_chrX_* 1000GP_Phase3_chrX* 1000GP_Phase3 運(yùn)行SCAN-SNV演示下載演示chr22 BAM。 $ wget http://compbio.med./scan-snv/hunamp.chr22.bam$ wget http://compbio.med./scan-snv/hunamp.chr22.bam.bai$ wget http://compbio.med./scan-snv/il-12.chr22.bam$ wget http://compbio.med./scan-snv/il-12.chr22.bam.bai 運(yùn)行SCAN-SNV。將/ path / to / ...的實(shí)例替換為上面下載的路徑。通過將分析限制在1 MB的chr22段并使用不切實(shí)際的粗網(wǎng)格進(jìn)行協(xié)方差函數(shù)擬合,該演示在單核計(jì)算機(jī)上運(yùn)行大約5分鐘。 scansnv \ --ref /path/to/human_g1k_v37_decoy.fasta \ --dbsnp /path/to/dbsnp_138.b37.vcf \ --shapeit-panel /path/to/1000GP_Phase3 \ --regions 22:30000001-31000000 \ --output-dir demo \ --bam hunamp hunamp.chr22.bam \ --bam h25 il-12.chr22.bam \ --sc-sample h25 \ --bulk-sample hunamp \ --abmodel-chunks 1 \ --abmodel-samples-per-chunk 10000 \ --abmodel-hsnp-chunk-size 50 \ --hsnp-spikein-replicates 5 \ --joblimit 1 --resume 有關(guān) SCAN-SNV完成后,Rdata文件中提供單個(gè)樣本結(jié)果 注意:即將推出VCF輸出選項(xiàng)。 # Called sSNVs can be extracted from the data frame viaR> load('demo/scansnv/[single_cell_sample_name]/somatic_genotypes.rda')R> somatic[somatic$pass,]# The demo should not produce any passing variants. 警告!
使用自定義dbSNP版本為dbSNP生成Tribble索引對于GATK,dbSNP VCF必須由Tribble(不是 tabix)索引。GATK資源包中的dbSNP已經(jīng)編入索引。如果您希望使用不同的dbSNP版本,則可以將該文件編入索引 $ conda install -c bioconda igvtools$ igvtools index /path/to/your/dbsnp.vcf 如果您覺得有價(jià)值,請把此文放到您朋友圈,大家都會感謝你 看完別忘了點(diǎn)“在看”哦 |
|