1.通用的研究设计与框架
01 流行病学基础 02 研究现状概述03 研究现状不足 04 新的技术发展 05 数据挖掘意义
Backgroud/Introduction Write or Copy
Methods Just copy it
Results Describe Fig. and Table
Discussion Relations to previous data
discussion: 01概述研究现状 02回顾本文结果 03关联已有研究 04略提不足之处05有待功能研究 06展望研究意义 07综上归纳总结
2.总结:
Background Methods Results Discussion 1. 流行病学基础 2. 研究现状概述 3. 研究现状不足 4. 新的技术发展 5. 数据挖掘意义
methods:1. 数据来源
2. 数据处理及分析 ① 原始处理 ② 差异表达 ③ 功能注释 ④ 分子网络 ⑤ 关键基因
3. 数据利用及关联 ① 生存分析 ② 验证数据
results:1. 差异表达 2. 功能注释 3. 分子网络 4. 关键基因 5. 生存分析 6. 验证数据
discussion: 1. 概述研究现状 2. 回顾本文结果 3. 关联已有研究 4. 略提不足之处 5. 有待功能研究 6. 展望研究意义 7. 综上归纳总结
3.Fig. 1A 三个独立数据集DEG交集的维恩图, 得到共同的差异基因
Fig. 1B 共同差异基因的蛋白互作网络
Fig. 1C 蛋白互作网络中筛选关键基因
Fig. 2A 筛选得到关键基因后,对关键基因构建 共表达网络 mcode
Fig. 2B 对关键基因构建功能网络 bingo
Fig. 2C 构建差异基因在肿瘤样本中的表达热图 ucsc xena
Fig 3A. 前期筛选到的关键基因在肝癌病人中的表达 高低对总体生存率的影响
Fig 3B. 前期筛选到的关键基因在肝癌病人中的表达 高低对无病生存率的影响
Fig. 4A SAGE分析得到TOP2A 在人不同部位肿瘤和 正常组织中的表达谱
Fig. 4B SAGE分析得到CDK1在不同部位肿瘤和正常 组织中的表达谱
Fig 5A. Oncomine分析TOP2A在肿瘤vs正常组 织中的表达差异。 1,2,3,4分别代表4个不 同的study。
Fig 5B. Oncomine分析CDK1在肿瘤vs正常组织 中的表达差异。 1,2,3,4分别代表4个不同 的study。
Oncomine分析TOP2A与肿瘤分级,肝 炎病毒感染状态, 卫星灶, 血管侵犯的相关性。
Table 3. 对筛选到的关键基因进行罗列和功能注释
4.cytoscape 插件
ClueGO
Gene ontology annotationCluePedia
BiNGO
cytoHubba
Seek hub module/gene
MCODE
CytoKegg
Import external databasesstringAPP
ReactomeFI
6.RNASeq/表达谱芯:芯片重注释 • 非编码RNA表达(lncRNA、miRNA、 circRNA) • 共表达网络分析
DNASeq + RNASeq:结构变异与临床表型 • 结构变异与基因表达 • RNA编辑 • eQTL
RNASeq/表达谱芯片 + ChipSeq/甲基化:转录调控 通路/网络
就有人问,生信的文章能发到多少分?如果你是像华科薛宇教授一样的大牛,弄一套算法,编一个生信分析工具,十几分妥妥的,引用量杠杠的。但是,那是大牛,一般来说,按「常规套路」出牌的这种生信分析文章分值在 0-2 分之间。但也有些不做实验的生信分析文章能发到个 4-5 分,那么生信分析的文章怎么样能达到一个比较高的层次呢?
这里,我们给大家分享两篇文章来说一说一些进阶的文章思路,一篇是发表在我们的老朋友「Oncotarget」上的,另一篇是发表在「Journal of Proteome Research」(IF = 4.1)上的。
先看 Oncotarget 这篇「Genomic expression differences between cutaneous cells from red hair color individuals and black hair color individuals based on bioinformatic analysis」,文章是做的黑色素瘤的两种不同表型的个体的差异基因的生信分析。
Abstract 里说到 MC1R 这个基因的突变会导致高患癌率的 RHC 表型两种不同的表型,其中 RHC 表型会增加皮肤癌的发生率,那么 MC1R 的突变究竟影响了哪些基因?文章通过 PPI 网络分析,分别对比分析两个不同表型(RHC 和 BHC)的正常皮肤细胞和癌细胞中的差异基因。结果表明,在癌细胞的对比中没有差异,而在正常皮肤细胞中筛选出 23 个 hub 基因,并且其中 8 个基因异常表达,这一结果提示这 8 个基因的异常表达可能是 RHC 表型患癌风险提高的重要原因。
这篇文章利用了 3 个数据包进行综合分析,从而得到了一个 novel 的结论,文章利用 GSE44805 中的差异基因构建 PPI 网络筛选 hub 基因,再利用别的数据包中的测序结果验证这些基因确实存在异常表达,多方验证说明自己生信分析结果是可靠的。虽然作者一点实验也没有做,但是从数据量还有可靠性上来说,可能比自己辛辛苦苦地做小样本量测序还要靠谱。
文章中的分析方法(差异基因以及 PPI 分析)都是我们非常熟悉的。筛选出差异基因,将上调和下调的基因分别构建 PPI 网络,得到文中的 4 张图(不管怎么说,这图的颜值比上一期套路中分析的文章要高得多)。
这张图的构建方法这里不再赘述
小结
这篇文章的方法完全是可以借鉴和复制的,难点在于找到足够多的具有相似性和可比性的数据结果,以及找到一个合适的切入点得到一个相对 novel 的结论。
下面看 Journal of Proteome Research 上的这篇文章「Weighted Protein Interaction Network Analysis of Frontotemporal Dementia」。
一看这流程图就觉得这文章是生信专业的人做的文章。(本宫上学的时候,就觉得我们生命学院的学生都是码农,生物信息专业、生物医疗工程、生物科学这些专业的人天天都在编代码,完全感受不出生物专业的气息。)
这文章讲得啥咧,就是先选出 13 个种子基因,然后根据 PPI 数据库中蛋白质互作关系构建这 13 个种子基因的第一层网络结构。
再以第一层网络为种子构建第二层网络结构(然后电脑就死机了)。
然后分析第二层网络的拓扑学结构,从中筛选出 hub 基因(图中绿点表示最初的 13 个种子基因,蓝点表示第一层的基因)。在构建过程中,随着基因数量的不断增加,最先选出的 13 个种子基因未必就是后来的 hub 基因。文中还设置了对照组,并详细讲述了这 13 个种子基因的筛选方法。因为整个分析过程都是建立在生信分析的基础上,属于完全架空的,所以整个研究过程十分讲究逻辑上的严谨性。
小结
之所向大家介绍这篇文章,是觉得这种思路在生信分析的文章中可以借鉴,种子基因的选择可以通过临床上疾病中基因突变的概率来进行筛选,然后构建两层 PPI 网络,进行 GO,KEGG 分析,从而预测新的未知的疾病相关基因,如果后续能从别的数据包中得到表达量的验证或者是自己在临床样本中进行验证,那么整个文章的内容将会更加丰富。
局限性:PPI 数据库中其实很多蛋白质互作结果是没有意义的,因为在实际生物体中很多蛋白质互作情况是不可能发生的,只有在实验人为干预情况下才会发生。
肺腺癌(ADC)是肺癌中最普遍的亚型,占所有病例的46%以上。在分子层面上,ADC的特征是具有复杂的基因组格局。最近的研究集中在深入了解基因组和表观基因组改变的后果以及肿瘤异质性在治疗反应和治疗抵抗中的作用。ADC组织病理学生长模式的分析显示广泛的肿瘤内异质性(ITH)。值得注意的是,尽管在许多情况下发现了多种组织学,但主要的组织形态学生长模式(鳞状,腺泡,乳头状,微乳头状,实体状)具有很高的预后性和预测性。在分子水平上,研究发现驱动程序突变等位基因频率与组织学生长模式之间具有高度相关性。在表观基因组水平上,第一项研究报道了肺ADC中DNA甲基化模式的高肿瘤内异质性。但是,到目前为止,尚未进行ADC中表观基因组学和形态学ITH的比较空间分析。
那么今天我为大家带来这篇文章作者系统地评估了来自七个主要ADC的122个肿瘤的形态生长模式,以评估组织学亚型的空间分布。
(1)患者和样本:作者根据2015年WHO肺癌分类标准(表1),对7位II至IV期ADC患者的肿瘤(n = 27)和非肿瘤(n = 7)组织标本进行了评估。对其中四名患者的六个淋巴结转移进行了类似的评估。病理学家将最大直径的肿瘤切片分为5 x 5 mm的区域并在连续的H&E染色切片上确定每个节段的主要组织学生长模式(定义为百分比最高的模式)。在这七名患者中,四名携带KRAS基因突变,三名携带TP53(其中两个是双重突变)。
(2)DNA提取和定量:将来自每个片段的六个连续的未染色的10 µm组织切片去石蜡并用蛋白酶K消化。使用LEV DNA纯化试剂盒进行DNA提取。使用Qubit HS DNA分析确定DNA浓度。
(3)Digital PCR:使用Quantstudio 3D Digital PCR系统利用20 ng模板DNA分析了患者4淋巴结中激活的KRAS G12S突变的存在,并验证了TaqMan SNP基因分型分析。
(4)全局甲基化谱:应用Infinium MethylationEPIC BeadChip 来评估> 866,000 CpG位点的全基因组DNA甲基化水平。在DKFZ基因组学和蛋白质组学核心设施中,对来自恶性和正常肺FFPE组织样本的500ng基因组DNA进行亚硫酸氢盐转化并进行甲基化分析。
(5)DNA甲基化数据分析:使用“minfi”R包处理原始甲基化数据。正常样本的甲基化定义为七个匹配的非肿瘤性肺组织样品的平均甲基化。
(6)基因组注释:通过标准的Illumina Infinium甲基化EPIC BeadChip标准进行CpG注释。
(7)无监督分层聚类:使用肿瘤内甲基化差异最大的10,000个探针的β值,进行甲基化水平的无监督分层聚类。聚类采用欧氏距离和平均连锁作为聚类方法。
(8)拷贝数分析:使用R包“conumee”从甲基化和未甲基化的探针信号强度值得出拷贝数分布图。
(9)系统发生树重建:根据肿瘤内甲基化变异的距离矩阵来推断系统发生的关系。使用具有最大肿瘤内甲基化差异的10,000个探针的Beta值来计算DNA甲基化欧几里德距离矩阵。最后使用R包“ape”来构建系统发生树。
(10)差异甲基化分析:使用线性模型来评估肿瘤和肺肿瘤组织中的甲基化差异。使用PANTHER分类系统对差异甲基化基因进行了GO和KEGG分析。
(11)相关性分析:应用Pearson相关系数来估计基于甲基化的距离。
1. ADC的组织学和表观基因组分析: 为了对组织病理学肿瘤内异质性进行系统表征,作者将7位ADC患者的中央肿瘤切片(表1)解剖为122个肿瘤和34个5 x 5 mm的非肿瘤部分。
靠近转录起始位点(TSSs)的DNA甲基化影响基因活性。为了确定TSS活性,作者将active 和 passive的TSS的甲基化水平与正常肺组织的H3 K4Me3标记进行了比较。结果显示具有K4Me3标记的潜在passive TSS在其TSS周围的1kb区域显示甲基化水平降低,而没有K4Me3标记的位点显示甲基化水平较高(图1 A)。
并且与passive TSS相比,活性(active)位点总体上甲基化水平较低(图1 B):具有K4Me3标记的active TSS处的CpGs显示平均甲基化水平为0.05至0.1,而没有激活组蛋白标记的passive TSS显示平均甲基化水平> 0.5。接下来作者比较了非肿瘤组织的平均甲基化水平与患者2的两个腺泡,鳞状,乳头状和实心部分的甲基化。揭示了肿瘤内和组织内的异质性(图1C)。
2. DNA甲基化分析揭示了广泛的肿瘤内异质性: 在这一部分作者对不同节段和淋巴结转移之间的DNA甲基化模式进行单独评估,发现DNA甲基化具有广泛的肿瘤内异质性,并通过无监督分层聚类来显示结果(图2A)。此外,对患者所有节段的分析进一步说明了同一肿瘤各节段之间的强烈变异性(图2 B)。
为了将异质性程度放在更广泛的背景下,作者对来自TCGA肺腺癌的33个肿瘤区段的启动子区域和369例患者(366个肿瘤和38个正常样品)的相应位点进行了12601个位点的无监督分层聚类。结果显示这些样本没有形成单独的群集,并且个体内的区段彼此之间的相似性仍然不与来自不同个体的区段相似(图3)。
3. 拷贝数变异的异质性: 为了更深入地了解拷贝数变异(CNV)的空间分布,作者基于EPIC阵列数据确定了每个区段的CNV分布图。结果在33个肿瘤区段中的32个中鉴定了具有体细胞拷贝数增减的CNV(图4A)。总体而言,CNV图谱在肿瘤内部比在肿瘤之间更相似。仅患者4的淋巴结转移未显示出具有与匹配的非肿瘤组织相似的特征的CNV。接下来作者基于TCGA数据进一步确定了在肺ADC和潜在的肿瘤驱动CNVs中被鉴定为反复扩增或缺失的基因的拷贝数状态。这项分析表明尽管所有片段均携带至少一个重复扩增或缺失的基因的CNV,却发现了克隆和亚克隆拷贝数得失的片段之间的空间异质性(图4 B)。
4. 基于CNV和DNA甲基化数据的生长模式的克隆进化: 为了深入了解ADC的克隆进化并探索淋巴结转移的组织学起源,作者根据DNA甲基化变化和CNV得出的距离矩阵对40个多区域片段进行了系统发育重建。结果作者在表观遗传水平上观察到ADC的分支进化,在原发肿瘤的生长模式之间具有广泛的克隆多样性(图5 A)。甚至同一增长模式的各个部分也显示出分支演化,表明同一模式在不同区域或不同时间点独立出现(图4 B)。为了进一步探索不同肿瘤区域之间的亚克隆关系不受选择性限制或生态位适应的影响,作者对远离调控元件的基因组位点(n = 83,756)进行了相关分析。相关性证实了肿瘤内的亚克隆关系和广泛变化(图5B)。
为了重建组织形态学模式的克隆进化,本研究对27个原发性肿瘤区域,7个匹配的正常组织和7个ADC病例的6个淋巴结转移进行了整体DNA甲基化分析。结果表明,表观基因组特征的广泛变化有助于原发性ADC和淋巴结转移的分子和表型异质性。
16-IF4+:非肿瘤的疾病挖掘 利用WGCNA分析挖掘孕前BMI和新生儿体重的关键基因
18-IF6+:纯生信分析甲基化和基因表达整合鉴定三阴性乳腺癌的预后标志物和药物靶标
19-干细胞、分子靶向治疗和EMT生物过程联合构建多发性脑瘤预后模型
20-基于全基因组分析探索MAPK失调与免疫应答的关系
我们都知道在科研论文中有两大类:一类是研究型论文;另一类是综述型论文。其中,前者主要是以研究为主的行文思路,根据研究发现的不同发表在不同级别的杂志上;而后者多是本身没有新的研究发现,主要是对前人的研究结果进行评价综述。然而,这两种分类都是针对以实验为主论文分类,那么这两年生信为主的文章发文量逐年增加,是否也有这样的分类呢?
Immugent今天就来解读特别的一类生信文章,姑且把它称为“生信综述”吧,因为我人微言轻,并不会我把它叫什么,以后都是这种叫法,就不绞尽脑汁想这个名字了。
这类“生信综述”文章已经有很多年的发展史了,主要都是围绕对各种火爆一时(引领科研)的重大技术来展开,比如近些年火热的单细胞测序技术。那么今天我就来以单细胞测序为主题,来解读一下如何利用此类思路发表高分文章,注意全都是一分钱没花的那种!
我先讲的第一篇是2021年发表在J Am Soc Nephrol(IF:10.12)的篇名为“How to Get Started with Single Cell RNA Sequencing Data Analysis”的文章。好吧,看了一下日历,今年已经2022年了,就不吐槽这个文章时效性的问题了。但全文真的很简单,就是介绍了一下单细胞测序数据分析的基本流程。
来看看它的摘要:在过去的5年里,单细胞方法已经能够在一个实验中监测数千个单个细胞的基因和蛋白质表达、遗传和表观遗传变化。随着测量方法的改进以及反应和测序成本的降低,这些数据集的大小正在迅速增加。关键的瓶颈仍然是对单细胞实验产生的丰富信息的分析。在这篇综述中,我们对分析管道进行了一个简化的概述,因为它们通常在该领域中使用。我们的目标是使研究人员开始单细胞分析,以获得挑战和最常用的分析工具的概述。此外,我们希望能够帮助其他人了解单细胞数据集的典型读数在已发表的文献中是如何呈现的。好吧,确实是一篇综述!
全文虽然有7副图,但大多都是那种最基础的绘图,想必大家都会。但是这里Immugent想说的是这篇文章虽然是综述类,但其实比真正的综述好写多了。类比这篇文章,等到下一次再出现类似于单细胞测序这种现象级技术,是不是有的小伙伴也整一篇类似的呢!
接下来要讲的第二篇是2020年发表在Comput Struct Biotechnol J (IF:7.27)的篇名为“Benchmarking algorithms for pathway activity transformation of single-cell RNA-seq data”的文章。这类文章就比上一类有些技术含量了,起码像综述的感觉了!
就像这篇是总结了对单细胞数据进行通路评分的各种算法,并使用已经发表的数据对各类算法的优缺点进行了比较,并在最后给出了自己的见解。嗯,怎么说呢!还是比一般的综述好写一点,比纯算法开发类文章好开发一些。那么如果这类算法在不久的将来出现了更多,那么是不是就科研考虑写一个更新版的呢?
接下来要讲的第三篇是2021年发表在Genome Biol(IF:13.58)的篇名为“Over 1000 tools reveal trends in the singlecell RNA-seq analysis landscape”的文章。这个文章作为汇总类综述,真的不是吹的了,一篇文章总结了1000+种分析单细胞数据的工具,我对这个作者也是膜拜之至。
并且作者还开发了一个网站: ,并这个网站收录的工具还会一直更新,这真是圈内的劳模啊。
这类文章虽然需要耗费一些时间,但思路还是很简洁的,但是主要是得掌握住时效性,而且最好是自己研究的领域,那样能提出自己的一些思考,就能给文章增色不少。
第四篇是2020年,同样发表在Genome Biol(IF:13.58)的篇名为“A benchmark of batch-effect correction methods for single-cell RNA sequencing data”的文章。作者对当时存在的14种对不同来源的单细胞数据进行去批次处理的算法进行比较,深入揭示它们之间的优缺点和功能表现。
全文的图做的都是很精美的,而且从数据处理的效果来看,这应该是一个大型生信实验室的作品。建议大家有时间都读一下这篇文章,将会有助于以后在处理不同来源的单细胞数据时选择最合适的算法。
放在最后一篇的文章当然是压轴出场了,那就是在2019年发表在Nat Biotechnol(IF:54.91)杂志上,篇名为“A comparison of single-cell trajectory inference methods”的文章。对来自数千个单细胞的全基因组组学数据进行轨迹分析,目前已有很多算法来推断这些细胞沿着发展轨迹的分布。基于这些结果,作者开发了一套指导方针,以帮助用户为他们的数据集选择最佳的方法。
事实上,虽然到目前已经开发了70多种推断单细胞轨迹的工具,但比较它们的性能是具有挑战性的,因为它们需要的输入和产生的输出模型差异很大。在这篇文章中,作者在110个真实数据集和229个合成数据集上对其中的45种方法进行了基准测试,以了解细胞排序、拓扑结构、可伸缩性和可用性。结果表明了现有的一些工具之间的互补性,方法的选择应该主要取决于数据集的维度和轨迹拓扑。
最后,作者还免费提供了多种单细胞数据轨迹分析的评估网站( ),这将有助于开发更多轨迹分析的工具,用于探索日益庞大和复杂的单细胞数据集。对于这篇文章,我不做过多评述,只想着大家有时间都要去读一下,其中无论是对数据的处理还是对结果的讨论上都是前面文章无法媲美的,是难得的优质文章。
如今科技发展日新月异,在21世纪做出有价值的科研成果往往缺的不是技术,而是对热点的灵敏嗅觉以及对时局的掌控。张泽民,汤富酬,郭国骥老师均是凭借单细胞测序技术跻身世界一流领域的科学家,就是因为他们把控住了时局。
同样的,上述几类“生信综述”的着力点均是当时迫切需要解决的单细胞测序技术热点问题,才得以不花费半毛钱发表一系列高分文章。而且,因为是热点科学问题,这些文章截止到目前的引用率都很高,后面肯定还会持续升高。如果说单细胞测序是一个制高点,倒不如说是起点,因为此类技术在未来还会有很多,希望本篇推文能给大家带来一些思考,欢迎有推荐类似生信文章的小伙伴通过后台与我们联系。