日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

對(duì)SingleR進(jìn)行基準(zhǔn)測(cè)試

 頭頭了不起 2019-09-11

對(duì)SingleR進(jìn)行基準(zhǔn)測(cè)試

在下面的案例研究中,我們使用Seurat包來處理scRNA-seq數(shù)據(jù)并執(zhí)行t-SNE分析。所有可視化都可通過SingleR Web工具輕松獲得- http://comphealth./SingleRWeb應(yīng)用程序允許查看數(shù)據(jù)和交互式分析。

案例研究1:GSE74923 - Kimmerling等。自然通訊(2016)

獲取數(shù)據(jù)

為測(cè)試C1平臺(tái)而創(chuàng)建的數(shù)據(jù)集。使用C1:89 L1210細(xì)胞,小鼠淋巴細(xì)胞白血病細(xì)胞和105只小鼠CD8 + T細(xì)胞分析194個(gè)單細(xì)胞小鼠細(xì)胞系。省略了具有少于500個(gè)非零基因的5個(gè)細(xì)胞。

數(shù)據(jù)從GEO下載,并使用以下代碼讀取到R:

>counts.file = 'GSE74923_L1210_CD8_processed_data.txt'
# 這是一個(gè)表達(dá)矩陣文本,行為基因名,列為樣品名;

>annot.file = 'GSE74923_L1210_CD8_processed_data.txt_types.txt'

# 這是一個(gè)含有兩列的文本,一列為樣品名,一列為所有樣品的總名。

>singler = CreateSinglerSeuratObject(counts.file, annot.file, 'GSE74923', variable.genes='de', regress.out='nUMI', technology='C1', species='Mouse',
                                    citation='Kimmerling et al.', reduce.file.size 
                                    = F, normalize.gene.length = T)
>save(singler,file='GSE74923.RData'))

SingleR分析

首先,我們看一下原始身份所著色的t-SNE圖:

# singler$singler[[1]] is the annotations obtained by using ImmGen dataset as reference. 
# singler$singler[[2]] is based on the Mouse-RNAseq datasets.
>load (file.path(path,'GSE74923.RData'))
>out = SingleR.PlotTsne(singler$singler[[1]]$SingleR.single,
      singler$meta.data$xy, do.label = FALSE, do.letters = F,
      labels=singler$meta.data$orig.ident,label.size = 6, 
      dot.size = 3)
>out$p

然后我們可以使用SingleR參考Immgen通過聚合得分的熱圖來觀察分類。這些分?jǐn)?shù)在微調(diào)之前。我們可以通過主要細(xì)胞類型查看此熱圖:

>SingleR.DrawHeatmap(singler$singler[[1]]$SingleR.single.main, top.n = Inf,
                    clusters = singler$meta.data$orig.ident)

或者通過所有細(xì)胞類型(呈現(xiàn)前30種細(xì)胞類型):

>SingleR.DrawHeatmap(singler$singler[[1]]$SingleR.single, top.n = 30,
                    clusters = singler$meta.data$orig.ident)

我們可以看到L1210細(xì)胞被強(qiáng)烈分類為(大多數(shù))2種類型的B細(xì)胞祖細(xì)胞。我們可以看到CD8細(xì)胞主要與效應(yīng)CD8 + T細(xì)胞的特異性激活相關(guān)。有趣的是,SingleR表明,一個(gè)L1210細(xì)胞現(xiàn)在與完全分化的B細(xì)胞更相似,而不是祖細(xì)胞。

該熱圖的另一個(gè)有趣應(yīng)用是能夠聚類細(xì)胞,而不是通過它們的基因表達(dá)譜,而是通過它們與數(shù)據(jù)庫中所有細(xì)胞類型的相似性:

>K = SingleR.Cluster(singler$singler[[1]]$SingleR.single,num.clusts = 2)
>kable(table(K$cl,singler$meta.data$orig.ident),row.names = T)

CD8L1210
1086
21030

這里不是很有趣,但我們稍后會(huì)看到這種聚類功能可能很有用,特別是對(duì)于識(shí)別新的細(xì)胞類型。我們?cè)谑指逯惺褂盟⒄业揭粋€(gè)中間的,未表征的巨噬細(xì)胞狀態(tài)。

最后,我們?cè)趖-SNE圖中給出了注釋:

>out = SingleR.PlotTsne(singler$singler[[1]]$SingleR.single,
        singler$meta.data$xy,do.label=FALSE,
        do.letters = T,labels = singler$singler[[1]]$SingleR.single$labels,
        label.size = 4, dot.size = 3)
>out$p

我們可以看到SingleR正確地注釋了所有L1210作為B細(xì)胞的類型,幾乎完全作為B細(xì)胞祖細(xì)胞。另一方面,所有CD8細(xì)胞都正確注釋為CD8 + T細(xì)胞。重要的是要記住,SingleR可以從中選擇253種類型,但它正確地選擇了最相關(guān)的細(xì)胞類型有趣的是,tSNE圖錯(cuò)誤地將細(xì)胞定位在錯(cuò)誤的簇中,但分揀不受此影響。

與原始身份相比,查看表中的注釋有很多次:

>kable(table(singler$singler[[1]]$SingleR.single$labels,singler$meta.data$orig.ident))

CD8L1210
乙細(xì)胞(B.T2)01
乙細(xì)胞(B.T3)01
乙細(xì)胞(preB.FrC)068
乙細(xì)胞(proB.CLP)01
乙細(xì)胞(proB.FrBC)015
?細(xì)胞(T.8EFF.OT1.48HR.LISOVA)1010
?細(xì)胞(T.CD8.48H)10
TGD(Tgd.mat.vg3)10

辛格勒得分相當(dāng)于非零基因的數(shù)量

上面給出的熱圖可能會(huì)產(chǎn)生誤導(dǎo),因?yàn)槊苛袠?biāo)準(zhǔn)化為0到1之間的分?jǐn)?shù)。因此,單個(gè)單元格可能與多個(gè)單元格類型的相關(guān)性較低,而且它們都不是準(zhǔn)確的單元格類型,但在熱圖中它們一切都會(huì)變紅。沒有規(guī)范化,數(shù)據(jù)看起來像這樣:

>SingleR.DrawHeatmap(singler$singler[[1]]$SingleR.single,top.n = 30,
        normalize = F,clusters = singler$meta.data$orig.ident)

我們可以看到有一組細(xì)胞在所有細(xì)胞類型中得分較低是什么原因?qū)е逻@些細(xì)胞的相關(guān)性較低?

>df = data.frame(Max.Score=apply(singler$singler[[1]]$SingleR.single$scores,1,max),
                >nGene=singler$seurat@meta.data$nGene,Orig.ident=singler$meta.data$orig.ident)
>ggplot(df,aes(x=nGene,y=Max.Score,color=Orig.ident))+geom_point()

該細(xì)胞中非零基因數(shù)(nGene)與最高分揀器評(píng)分的關(guān)系圖顯示分揀評(píng)分依賴于nGene。然而,正如我們已經(jīng)看到的那樣,盡管nGene的數(shù)量較少,但分揀器能夠正確地注釋這些細(xì)胞。這與Seurat t-SNE圖相反,后者錯(cuò)位了這些細(xì)胞,如下圖所示,它根據(jù)Max.Score為細(xì)胞著色:

>SingleR.PlotFeature(singler$singler[[1]]$SingleR.single,singler$seurat,'MaxScore',dot.size=3)

在下一個(gè)案例研究中,我們將檢查辛格勒使用獨(dú)立于nGene的相關(guān)性“離群值”標(biāo)準(zhǔn)正確注釋細(xì)胞的能力。

案例研究2:10X數(shù)據(jù)集 - 鄭等。自然通訊(2017)

獲取數(shù)據(jù)

在這里,我們分析了使用10X平臺(tái)分析的分類免疫細(xì)胞類型的獨(dú)特人類數(shù)據(jù)集我們從https://support./single-cell-gene-expression/datasets電子雜志此數(shù)據(jù),并使用辛格勒管道進(jìn)行處理。為了減少計(jì)算時(shí)間并使分析更簡單,我們使用以下代碼從10個(gè)細(xì)胞群中隨機(jī)選擇1000個(gè)具有> 200個(gè)非零基因的細(xì)胞:

# path/10X/ contains a directory for each of the expriments, each with the three 10X files.
>dirs = dir(paste0(path,'/10X'),full.names=T)
>tenx = Combine.Multiple.10X.Datasets(dirs,random.sample=1000,min.genes=200)
>singler = CreateSinglerSeuratObject(tenx$sc.data, tenx$orig.ident, 'Zheng', 
                                    variable.genes='de',regress.out='nUMI', 
                                    technology='10X', species='Human', 
                                    citation='Zheng et al.', reduce.file.size = F, 
                                    normalize.gene.length = F)
>save(singler,file='10x (Zheng) - 10000cells.RData'))

辛格勒分析

首先,我們繪制原始身份:

注意:當(dāng)存在多種細(xì)胞類型時(shí),很難用顏色區(qū)分它們。形狀也很難以小尺寸區(qū)分。因此,我們對(duì)每種細(xì)胞類型/使用顏色不同的字母但是,由于單元格較小,因此需要大幅放大。另一種方法是使用我們的SingleR Web工具或運(yùn)行代碼并使用ggplotly繪圖,這兩種方法都允許將鼠標(biāo)懸停在單元格上并查看其標(biāo)簽。

>load (file.path(path,'SingleR.Zheng.200g.RData'))
>out = SingleR.PlotTsne(singler$singler[[1]]$SingleR.single,
                       singler$meta.data$xy,do.label = F,
                       do.letters = T,labels = singler$meta.data$orig.ident, 
                       dot.size = 1.3,alpha=0.5,label.size = 6)
>out$p

我們可以看到tSNE圖允許區(qū)分大多數(shù)細(xì)胞類型,但CD4 + T細(xì)胞亞群一起模糊。

接下來我們來看看瑟拉集群:

>out = SingleR.PlotTsne(singler$singler[[1]]$SingleR.single,
                       singler$meta.data$xy,do.label = T,
                       do.letters = F,labels=singler$seurat@ident, 
                       dot.size = 1.3,label.size = 5,alpha=0.5)
>out$p

我們可以看到聚類表現(xiàn)相對(duì)較好; 然而,調(diào)節(jié)性?細(xì)胞完全溶解在記憶?細(xì)胞簇中。

使用Blueprint + ENCODE(BE)作為參考的SingleR在微調(diào)之前產(chǎn)生了以下注釋:

# Note the use of the second iterm in the the singler$singler list to use 
# the Blueprint+ENCODE reference. The first item is HPCA.
# use singler$singler[[i]]$about for meta-data on the reference.
>SingleR.DrawHeatmap(singler$singler[[2]]$SingleR.single,top.n=25,
                    clusters = singler$meta.data$orig.ident)

我們可以看到,在微調(diào)之前,T細(xì)胞狀態(tài)之間存在強(qiáng)烈的模糊,這是無法區(qū)分的。

但是,通過微調(diào),我們獲得以下注釋:

>out = SingleR.PlotTsne(singler$singler[[2]]$SingleR.single,
                       singler$meta.data$xy,do.label=FALSE,

do.letters=T,

labels=singler$singler[[2]]$SingleR.single$labels,

dot.size = 1.3, font.size = 6) >out$p

通過觀察顏色,我們可以看到CD4 + T細(xì)胞群可以大致分為4種狀態(tài),從底部的幼稚CD4 + T細(xì)胞(綠色)到中央記憶和中間的效應(yīng)記憶CD4 + T細(xì)胞(紫色和橙色)和調(diào)節(jié)性T細(xì)胞在頂部(粉紅色),按照原始身份。雖然它并不完美,但它為我們提供了更細(xì)粒度的細(xì)胞狀態(tài)視圖,而無需查看可能根本不存在于數(shù)據(jù)中的許多標(biāo)記,其解釋常常令人困惑; 例如:

>genes.use = c('CD3E','CD4','CD8A','CCR7','CXCR5','SELL','IL7R','GNLY','FOXP3')

>df = data.frame(x=singler$meta.data$xy[,1],
                y=singler$meta.data$xy[,2],
                t(as.matrix(singler$seurat@data[genes.use,])))
>df = melt(df,id.vars = c('x','y'))
>ggplot(df,aes(x=x,y=y,color=value)) + 
  geom_point(size=0.3)+scale_color_gradient(low="gray", high="blue") + 
  facet_wrap(~variable,ncol=3) +theme_classic()+xlab('')+ylab('')+
  theme(strip.background = element_blank())

微調(diào)的效果

為了比較微調(diào)之前和之后的結(jié)果,我們可以查看以下圖表(行 - 原始身份,列 - SingleR標(biāo)簽):

>singler$singler[[2]]$SingleR.single$labels1 =
  gsub('Class-switched','CS',singler$singler[[2]]$SingleR.single$labels1)
>singler$singler[[2]]$SingleR.single$labels =
  gsub('Class-switched','CS',singler$singler[[2]]$SingleR.single$labels)
>hsc = c('CLP','CMP','GMP','MEP','MPP')
>singler$singler[[2]]$SingleR.single$labels1[
  singler$singler[[2]]$SingleR.single$labels1 %in% hsc] = 'HSC'
>singler$singler[[2]]$SingleR.single$labels[
  singler$singler[[2]]$SingleR.single$labels %in% hsc] = 'HSC'

>order1 = c('CD4+ T-cells','CD4+ Tcm','CD4+ Tem','Tregs','CD8+ T-cells',
           'CD8+ Tem','CD8+ Tcm','NK cells','naive B-cells',
           'Memory B-cells','CS memory B-cells','Monocytes','HSC')
>order2 = c('CD4+ Tn','CD4+ Tm','CD4+ Th','Tregs','CD8+ Tn','CD8+ Tcyto',
           'NK cells','B-cells','Monocytes','HSC')
>a =table(singler$meta.data$orig.ident,singler$singler[[2]]$SingleR.single$labels1)
>a = a[order2,order1]
>corrplot(a/rowSums(a),is.corr=F,tl.col='black',title = 'Before fine-tuning',
         mar=c(0,0,2,0))

b = table(singler$meta.data$orig.ident,singler$singler[[2]]$SingleR.single$labels)
b = b[order2,order1]
corrplot(b/rowSums(b),is.corr=F,tl.col='black',title = 'After fine-tuning',
         mar=c(0,0,2,0))

我們可以看到,在微調(diào)之前,許多CD8 + T細(xì)胞被注釋為CD4 +(46.5%的CD8 + T細(xì)胞)。在最初的鄭等人中也報(bào)道了細(xì)胞與CD4 + T細(xì)胞具有最高相關(guān)性的這種現(xiàn)象。手稿。微調(diào)后,這個(gè)數(shù)字減少到19.25%。此外,幼稚的CD8 + T細(xì)胞在微調(diào)之前沒有注釋,但在微調(diào)后已正確注釋。

{#CorrectLabeling}總之,分揀器根據(jù)原始身份將84.3%的細(xì)胞注釋為主要細(xì)胞類型,距離預(yù)期的分選純度不遠(yuǎn):

ident = as.character(singler$meta.data$orig.ident)
ident[grepl('CD4',ident)]='CD4+ T-cells'
ident[ident=='Tregs']='CD4+ T-cells'
ident[grepl('CD8',ident)]='CD8+ T-cells'
kable(table(singler$singler[[2]]$SingleR.single.main$labels,ident))

乙細(xì)胞CD4 + T細(xì)胞CD8 + T細(xì)胞HSC單核細(xì)胞NK細(xì)胞
乙細(xì)胞999202580
CD4 + T細(xì)胞02743127110
CD8 + T細(xì)胞112451868年年4315
DC000110
HSC06085012
單核細(xì)胞0201199811
NK細(xì)胞020982
sum(ident==singler$singler[[2]]$SingleR.single.main$labels)/10000
## [1] 0.8423

乙細(xì)胞的粒度分析

有趣的是,SingleR提出了更細(xì)粒度的B細(xì)胞群視圖,將其分解為幼稚和記憶B細(xì)胞,這似乎與t-SNE圖結(jié)構(gòu)一致:

bcells = SingleR.Subset(singler,grepl('B-cells',
                                      singler$singler[[2]]$SingleR.single$labels))
out = SingleR.PlotTsne(bcells$singler[[2]]$SingleR.single,
                       bcells$meta.data$xy,
                       dot.size = 3,alpha=0.5)
out$p

并通過CD27表達(dá)(記憶乙細(xì)胞的標(biāo)記):

df = data.frame(CD27=bcells$seurat@data['CD27',],
                Labels=bcells$singler[[2]]$SingleR.single$labels)
ggplot(df,aes(x=Labels,y=CD27,fill=Labels))+geom_violin(scale='width') + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+xlab('')

與其他參考分類方法的比較

Kang等人,Nature Biotechnology (2017)使用從scRNA-seq PBMC(來自鄭等人)中學(xué)習(xí)的一組標(biāo)記來注釋單細(xì)胞:

out = SingleR.PlotTsne(singler$singler[[2]]$SingleR.single,
                       singler$meta.data$xy,do.label=FALSE,
                       do.letters =T,labels=singler$other[,'Kang'], 
                       dot.size = 1.3, font.size = 6)
out$p

我們可以看到這種方法的可用性有限,因?yàn)樗荒軈^(qū)分CD4 +和CD8 + T細(xì)胞。請(qǐng)注意,使用10X生成的數(shù)據(jù)用于此方法中創(chuàng)建參考矩陣,并且它專門針對(duì)血液中的免疫子集進(jìn)行了訓(xùn)練。

李等人的基于批量參考的方法。人,Nature Genetics (2017)使用了基于參考的方法,但沒有微調(diào):

library(RCA)
tpm_data = TPM(as.matrix(singler$seurat@data),human_lengths)
data_obj = dataConstruct(tpm_data);
data_obj = geneFilt(obj_in = data_obj);
data_obj = cellNormalize(data_obj);
data_obj = dataTransform(data_obj,"log10");
rownames(data_obj$fpkm_transformed) = toupper(rownames(data_obj$fpkm_transformed))
data_obj = featureConstruct(data_obj,method = "GlobalPanel");
scores = data_obj$fpkm_for_clust
RCA.annot = rownames(scores)[apply(scores,2,which.max)]
n = table(RCA.annot)
RCA.annot[RCA.annot %in% names(n)[n<5]] = 'Other (N<5)' 
names(RCA.annot) = colnames(tpm_data)

singler$other = cbind(singler$other,RCA.annot)
colnames(singler$other) = c('Kang','RCA')
out = SingleR.PlotTsne(singler$singler[[2]]$SingleR.single,
                       singler$meta.data$xy,do.label=FALSE,
                       do.letters =T,labels=singler$other[,'RCA'], 
                       dot.size = 1.3, font.size = 6)
out$p

同樣,我們可以看到參考不能在沒有微調(diào)的情況下區(qū)分CD4 +和CD8 + T細(xì)胞。

識(shí)別罕見事件

辛格勒還允許檢測(cè)罕見事件。例如,讓我們深入研究一下排序的單核細(xì)胞

monocytes = SingleR.Subset(singler,singler$meta.data$orig.ident=='Monocytes')
out = SingleR.PlotTsne(monocytes$singler[[2]]$SingleR.single,
                       monocytes$meta.data$xy,do.label=F,
                       do.letters =T, dot.size = 2)
out$p

我們可以看到t-SNE圖已經(jīng)表明有18個(gè)細(xì)胞不屬于主要簇(這意味著分選純度為~98%)。SingleR檢測(cè)到這些細(xì)胞是漿細(xì)胞(8個(gè)細(xì)胞),T細(xì)胞(2個(gè)細(xì)胞),3個(gè)NK細(xì)胞和1個(gè)DC。的英文分揀正確的嗎?

出于演示目的,我們僅繪制來自主群集的18個(gè)單元格和其他18個(gè)單元格:

cells.use = c(sample(which(monocytes$singler[[2]]$SingleR.single$labels=='Monocytes'),18),
              which(monocytes$singler[[2]]$SingleR.single$labels!='Monocytes'))
SingleR.DrawHeatmap(monocytes$singler[[2]]$SingleR.single,top.n = 20,cells.use=cells.use)

我們可以看到分揀器在其調(diào)用中非常有說服力,給予那些細(xì)胞低單核細(xì)胞評(píng)分。使用稀有細(xì)胞類型的標(biāo)記物(至少在單核細(xì)胞分選的細(xì)胞中)是有問題的,因?yàn)榛跇?biāo)記物的分析集中在簇而不是單個(gè)細(xì)胞上。

辛格勒評(píng)分與非零基因的數(shù)量相關(guān)聯(lián)

在這里,我們使用了200個(gè)非零基因(nGenes)的閾值。與案例研究1一樣,nGenes與每個(gè)細(xì)胞的最大得分之間存在很強(qiáng)的相關(guān)性

nGene=singler$seurat@meta.data$nGene
df = data.frame(Max.Score=apply(singler$singler[[1]]$SingleR.single$scores,1,max),
                nGene=nGene,Orig.ident=singler$meta.data$orig.ident)
ggplot(df,aes(x=nGene,y=Max.Score,color=Orig.ident))+geom_point(size=0.2,alpha=0.5)+
  guides(color = guide_legend(override.aes = list(size = 3)))

問題是具有低“最大得分”的細(xì)胞是否不太可靠。我們看到這在某種程度上是正確的 - 使用主要單元格類型“正確”標(biāo)記度量,我們可以看到,對(duì)于更多nGenes,注釋往往更準(zhǔn)確:

Correct.Ident = unlist(lapply(seq(from=200,to=3000,by=50),
FUN=function(x) {
  A=nGene>=x
  sum(ident[A]==singler$singler[[2]]$SingleR.single.main$labels[A])/sum(A)}
))
df = data.frame(nGene=seq(from=200,to=3000,by=50),Correct.Ident)
ggplot(df,aes(x=nGene,y=Correct.Ident))+geom_smooth(method = 'loess')

在案例研究3中,我們繼續(xù)探索分揀正確注釋細(xì)胞的能力,作為非零基因數(shù)量的函數(shù)。

注釋的信心

我們能否確定注釋置信度的顯著性檢驗(yàn)?

根據(jù)上圖,可能的方法是使用分?jǐn)?shù)閾值。但是,我們可以看到即使是低分也很可靠這是因?yàn)?/span>辛格勒得分與nGenes相關(guān)聯(lián),但對(duì)于給定單細(xì)胞,注釋對(duì)于參考數(shù)據(jù)中的細(xì)胞類型是相對(duì)的。因此,我們引入了顯著性檢驗(yàn),檢驗(yàn)頂部細(xì)胞類型的得分是否與大多數(shù)低得分細(xì)胞類型不同我們使用卡方異常值檢驗(yàn)得到最高分,其中零假設(shè)是它不是異常值。此測(cè)試不能為微調(diào)注釋提供信心,但可以建議單個(gè)單元格是否沒有足夠的信息進(jìn)行注釋我們可以用-log10(p值)看到叔SNE圖:

SingleR.PlotFeature(singler$singler[[2]]$SingleR.single,singler$seurat,
                    plot.feature = -log10(singler$singler[[2]]$SingleR.single.main$pval))

該圖表明,對(duì)于一個(gè)HSC群集,信心大于另一個(gè),但對(duì)NK細(xì)胞和乙細(xì)胞注釋的信心:

df = data.frame(nGene=singler$seurat@meta.data$nGene,
                pval=-log10(singler$singler[[2]]$SingleR.single.main$pval),
                Identity=singler$meta.data$orig.ident)

ggplot(df,aes(x=Identity,y=pval,color=Identity))+geom_boxplot()+
  ylab('-log10(p-value)')+theme(axis.text.x = element_text(angle = 45, hjust = 1))

重要的是,我們可以看到此測(cè)試不依賴于nGenes:

ggplot(df,aes(x=nGene,y=pval,color=Identity))+geom_point(size=0.3)+
    guides(color = guide_legend(override.aes = list(size = 3)))+
  ylab('-log10(p-value)')

案例研究3:模擬非零基因的數(shù)量

細(xì)胞中輟學(xué)的數(shù)量變化很大,并且可能對(duì)正確注釋細(xì)胞的能力產(chǎn)生強(qiáng)烈影響在這里,我們通過模擬具有已知身份的細(xì)胞中不同數(shù)量的非零基因(nGenes)來進(jìn)一步探索這個(gè)問題。

根據(jù)案例研究2中提供的分類10X數(shù)據(jù)集(不包括CD4 +輔助T細(xì)胞,CD4 +記憶T細(xì)胞重新排列),我們隨機(jī)選擇10個(gè)細(xì)胞,其中至少1000個(gè)nGenes,由SingleR正確注釋(調(diào)整)。

從每個(gè)細(xì)胞中的非零基因,我們選擇千個(gè)基因?yàn)榉橇?,其余基因切換為0; 因此,所有細(xì)胞都有千非零個(gè)基因在微調(diào)之前狀語從句:之后,我們通過分揀器計(jì)算了正確的推論。然后,我們迭代地移除50個(gè)基因,運(yùn)行SingleR,并再次計(jì)算正確注釋的數(shù)量。我們重復(fù)這個(gè)過程10次,隨機(jī)選擇不同的基因去除.Github 存儲(chǔ)庫中提供了此分析的代碼。

我們將正確注釋的百分比繪制為nGenes的函數(shù)(顯示標(biāo)準(zhǔn)誤差):

source('simulations_functions.R')
files = dir('simulations/',full.names = T,pattern = 'RData')

res = list()
res$correct = matrix(NA,19,length(files))
res$correct.nft = matrix(NA,19,length(files))
for (i in 1:length(files)) {
  load(files[i])
  res$correct[,i] = correct
  res$correct.nft[,i] = correct.nft 
}

res$correct = 100*res$correct/90
res$correct.nft = 100*res$correct.nft/90
rownames(res$correct) = seq(1000,100,by=-50)
rownames(res$correct.nft) = seq(1000,100,by=-50)
correct = melt(rbind(res$correct,res$correct.nft))
correct$FineTune=rep(c(rep('TRUE',nrow(res$correct)),rep('FALSE',nrow(res$correct))),ncol(res$correct))
colnames(correct)[1]='nGenes'
correct <- summarySE(correct, measurevar="value", groupvars=c("nGenes",'FineTune'))


ggplot(correct, aes(x=nGenes, y=value,color=FineTune)) + 
  geom_errorbar(aes(ymin=value-se, ymax=value+se), width=.1) +
  geom_line() +
  geom_point()+theme_classic()+ylab('% correct')

我們可以看到分揀的精度逐漸下降是nGenes的函數(shù)。這在微調(diào)注釋(藍(lán)線)中更為明顯,它顯示了微調(diào)以區(qū)分密切相關(guān)的細(xì)胞類型的重要性,即使有更多的基因可用。在500個(gè)基因中,我們觀察到90%,并且隨著基因的減少,下降更明顯,支持我們選擇在我們的小鼠肺損傷分析中使用> 500nGenes。

每個(gè)細(xì)胞類型的細(xì)胞系顯示,正如預(yù)期的那樣,基因越少,難以區(qū)分密切相關(guān)的細(xì)胞類型(該數(shù)據(jù)中的?細(xì)胞亞群):

B = c()
for (k in 1:length(files)) {
  
  load(files[k])
  ct=unique(names(unlist(lapply(tbl,FUN=function(x) x[,'B-cells']))))
  ident = colnames(tbl[[1]])
  b = matrix(0,length(ident),length(tbl))
  for (j in 1:length(ident)) {
    a=matrix(0,length(ct),length(tbl))
    rownames(a) = ct
    
    for (i in 1:length(tbl)) {
      x = tbl[[i]][,ident[j]]
      a[names(x),i] = x 
      
    }
    b[j,] = switch(ident[j], 
                   'B-cells' = colSums(a[grepl('B-cell',rownames(a)),]),
                   'CD4+ Tm' = colSums(a[rownames(a) %in% c('CD4+ Tcm','CD4+ Tem'),]),
                   'CD4+ Tn' = a[rownames(a)=='CD4+ T-cells',],
                   'CD8+ Tcyto' = colSums(a[rownames(a) %in% c('CD8+ Tcm','CD8+ Tem'),]),
                   'CD8+ Tn' = a[rownames(a)=='CD8+ T-cells',],
                   'HSC' = colSums(a[rownames(a) %in% c('CLP','MEP','GMP','MPP'),]),
                   'Monocytes' = a[rownames(a)=='Monocytes',],
                   'NK cells' = a[rownames(a)=='NK cells',],
                   'Tregs' = a[rownames(a)=='Tregs',]
    )
    
    
  }  
  rownames(b) = ident
  colnames(b) = seq(1000,100,by=-50) 
  
  if (length(B)==0) {
    B = b
  } else {
    B = rbind(B,b)
  }
}

df = melt(B)
colnames(df) = c('CellType','nGenes','value')
df <- summarySE(df, measurevar="value", groupvars=c("nGenes",'CellType'))

ggplot(df, aes(x=nGenes, y=value,color=CellType)) + 
  geom_errorbar(aes(ymin=value-se, ymax=value+se), width=.1) +
  geom_line() +
  geom_point()+theme_classic()+ylab('# correct')+scale_color_manual(values=singler.colors)

辛格勒網(wǎng)絡(luò)工具

該分網(wǎng)絡(luò)工具包含> 50可公開獲得的scRNA-seq的數(shù)據(jù)集。所有數(shù)據(jù)都已使用上述工具進(jìn)行了重新處理,并且Web工具允許用戶立即訪問以分析數(shù)據(jù)并對(duì)已發(fā)布的單細(xì)胞數(shù)據(jù)進(jìn)行進(jìn)一步調(diào)查。此外,我們邀請(qǐng)用戶上傳他們自己的scRNA-SEQ數(shù)據(jù),這些數(shù)據(jù)將在我們的服務(wù)器上進(jìn)行分析并發(fā)送回用戶。然后可以在網(wǎng)站上上載并進(jìn)一步分析處理后的分揀器對(duì)象(私下,只有具有該對(duì)象的用戶才能查看它)。請(qǐng)?jiān)L問http://comphealth./SingleR了解更多信息。

參考

Kang,Hyun Min,Meena Subramaniam,Sasha Targ,Michelle Nguyen,Lenka Maliskova,Elizabeth McCarthy,Eunice Wan,et al。“使用天然遺傳變異的多重液滴單細(xì)胞RNA測(cè)序。” Nature Biotechnology 36(1)。自然出版集團(tuán):89-94.doi10.1038 / nbt.4042

Kimmerling,Robert J.,Gregory Lee Szeto,Jennifer W. Li,Alex S. Genshaft,Samuel W. Kazer,Kristofor R. Payer,Jacob de Riba Borrajo,et al。2016年。“一種微流體平臺(tái),可實(shí)現(xiàn)多自譜系的單細(xì)胞RNA-seq。“ Nature Communications 7(1月).Nature Publishing Group:10220.doi:10.1038 / ncomms10220。

Li,Huipeng,Elise T Courtois,Debarka Sengupta,Yuliana Tan,Kok Hao Chen,Jolene Jie Lin Goh,Say Li Kong,et al。2017年?!皢渭?xì)胞轉(zhuǎn)錄組的參考組分分析闡明了人結(jié)腸直腸腫瘤中的“細(xì)胞異質(zhì)性?!?Nature Genetics 49(5):708-18.doi 10.1038 / ng.3818。的細(xì)胞異質(zhì)性。

鄭春紅,鄭良濤,趙宰光,郭華虎,張?jiān)铝x,博義康,等。2017年?!巴ㄟ^單細(xì)胞測(cè)序揭示肝癌中浸潤性T細(xì)胞的景觀?!?Cell 169(7):1342-1356.e16。doi:10.1016 / j.cell.2017.05.035。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多