测序行业的蓬勃发展,带来微生物组学日新月异的变化。目前,单一组学的文章不断“贬值”,前沿研究的目光从单一组学逐步拓展至多组学对贯穿分析,即结合多个组学的分析角度,从多个层面阐述生物学机制。
微生物多组学贯穿分析策略十分丰富:如常见的16s与宏基因组贯穿分析,可以验证物种的特征、丰富功能的探究;而16s与代谢组的贯穿分析思路同样常见于高分文章中,通过16s探究不同处理/环境下菌群的物种组成变化,结合代谢组对应的代谢物的变化,进而找到不同处理/环境下引发细菌丰度差异最终导致代谢表型差异的机制。参考阅读《选好思路和方法,给自己一篇多组学高分文章 》
在16s与代谢组贯穿分析中,相关性热图是一个重要的分析手段,主要用于逐一呈现细菌物种与代谢物间的相关性高低,是筛选潜在关联的物种与代谢物的主要途径,对于下游的实验起到指导意义。此类相关性热图在高分文章中频繁出现,足见其重要性(图1、图2)。
图1 物种代谢物热图(2015,Cell Host& Microbe,IF= )[1]
图2 物种代谢物热图(2018,NatureMedicine,IF=)[2]
那么,该如何画出此类高分文章中的相关性热图呢?这里,以16s与代谢组的数据为例,向大家分享如何使用R语言进行两个组学数据的相关性计算、绘制相关性热图。
1.加载R包
library(psych)
library(pheatmap)
library(reshape2)
2.读入数据
phy <(file = "", sep = "t", header = T, 1)
图3 微生物丰度信息表格
met <(file = "", sep = "t", header = T, 1)
图4 代谢物丰度信息表格
3.计算相关性、p值
cor <(phy, met, method = "pearson",adjust= "none")
cmt <-cor$r
pmt <- cor$p
head(cmt)
head(pmt)
4.数据保存
<-cbind(rownames(cmt),cmt)
( "",sep= "t",)
图5 相关性系数表格
<-cbind(rownames(pmt),pmt)
( "",sep= "t",)
图6 p值表格
df <-melt(cmt, "cor")
df$pvalue <- (pmt)
head(df)
(df,file= "",sep= "t")
图7 关系对信息
5.绘制显著性标记
if(!(pmt)){
ssmt <- pmt<
pmt[ssmt] <- '**'
smt <- pmt > pmt <
pmt[smt] <- '*'
pmt[!ssmt&!smt]<- ''
} else{
pmt <- F
}
6.绘制相关性热图
mycol<-colorRampPalette(c("blue","white","tomato"))(800)
pheatmap(cmt,scale = "none",cluster_row = T, cluster_col = T, border=NA,
display_numbers = pmt,fontsize_number = 12, number_color = "white",
cellwidth = 20, cellheight =20,color=mycol)
图8 R语言绘制的物种+代谢物相关性热图
pheatmap(cmt,scale = "none",cluster_row = T, cluster_col = T, border=NA,
display_numbers = pmt, fontsize_number = 12, number_color = "white",
cellwidth = 20, cellheight = 20,color=mycol,filename= "")
参考文献
[1]Kostic AD, Gevers D, Siljander H, et al. The dynamics ofthe human infant gut microbiome in development and in progression toward type 1diabetes. Cell Host Microbe. 2015;17(2):260–
[2]Hoyles, Lesleyet al. “Molecular phenomics and metagenomics of hepatic steatosis innon-diabetic obese women.” Nature medicine vol. 24,7 (2018):1070-1080. doi: 原文