转自医学方
2019-07-4 Alexander
流行病学或者医学论文中,对研究对象基本情况的描述通常以表格的形式进行,并且放在结果部分的开头,即Table 1,主要内容是研究对象一般情况和研究变量或协变量的分组展示。
前几天文章修回过程中,花了两天时间分析数据,修改文章,其中有近1天的时间都在手动录入数据(从R studio里把分析结果整理到Excel或者word),这样除了花费时间外,还非常容易出错。之前一直想找时间通过R markdown把制作表格的过程程序化,可是效果并不理想。
这次痛定思痛,先从table 1开始,发现了几个不错的方法。其中一种个人觉得可读性和可编辑性都比较强,于是学习了一下,作为一个非常实用的工具分享给大家。
这里主要参考一篇博客Fast-track publishing using knitr: table mania,对细节进行了加工和注释。
1 数据的准备
数据主要来自于boot包的melanoma。加载后,看下数据的基本结构。
接下来对数据进行简单的整理,为后续分析做准备;
将分类变量定义为因子型并设置标签(这里建议设置一个新的变量,仅用于table 1的制作,不影响后续的分析);
2 安装和加载R包 Gmisc
后面两个包是加载“Gmisc”时要求加载的。
3 自定义函数、制作表格
根据已有函数自定义函数,并制作表格。定义一个函数,输入数据集的变量并得到该变量的统计结果:
函数定义完成后,建立一个空的列表,以储存每个变量的分析结果,并进行分析,将结果储存在列表中:
将所有结果merge到一个矩阵中,并建立rgroup(table1第一列的变量名) 和 n.rgroup(table 1第一列每个变量的行数):
结果如下:
当然,有些情况下,需要多加一个分组标题栏(column spanner),该怎么加呢?
如下:
结果如下:
4 导出结果
在R studio viewer窗口点击白色按钮,即可在浏览器中打开,然后复制粘贴到word可以进一步加工修饰。
是不是很刺激呢。 应该还有其他的导出方法,不过这个已经很方便了。
拓展功能选
⒈ 二分类变量只显示一个(比如男性和女性)。只要在getDescriptionStatsBy的"show_all_values"参数设置为FALSE即可;
⒉ 显示缺失值。getDescriptionStatsBy的"useNA"参数设置为"ifany",表示如果有缺失值就显示缺失值情况;如设置为“no”,表示始终不显示缺失值情况;“always”则表示无论是否有缺失值都显示缺失值情况;
⒊ Total一列是可以去掉的,getDescriptionStatsBy的"add_total_col"参数设置为FALSE即可。
不足之处
⒈ 差异性检验是采用非参的方法,虽然没有错,但是一般符合参数检验条件的数据还是要使用参数检验的方法,这里可以自行检验后再修改P-value;
⒉ Mean (SD)的展示形式有个括号感觉有点别扭,还不知道怎么去掉,有方法的小伙伴欢迎分享交流。
另外有一些其他的制作table 1的R包,比如table 1(R包的名字)包,tableone包,还有其他生成表格的R包(plyr等),个人浏览下来感觉这个最容易理解和掌握,其他包的功能有兴趣的可以再自行挖掘对比。
原文链接:
转录组是一类让人既爱又恨的项目,实验门槛低,却是文章泛滥的重灾区,总有人问我,现在转录组还能发文章吗?下面我就借一篇2020年5月4日发表在BMC Genomics上题为:Transcriptome analysis reveals rapid defence responses in wheat induced by phytotoxic aphid Schizaphis graminum feeding 的文章,详细地论述下2020年转录组文章到底有多难发?怎么发?下面我们先看下这篇文章具体内容: 实验简介: 文章研究的是小麦幼苗在麦二叉蚜采食后的快速防卫反应,分别于采食2、6、12、24、48 h后取幼苗叶片(3次生物学重复),进行转录组测序、叶绿素测定以及H2O2 积累测定以及NADPH抑制剂处理进一步探究小麦在咬食后氧迸发防御机制。 实验结果:
1. 麦二叉蚜采食后小麦转录组分析 这部分结果展示比较套路,主要是通过PCA分析看了下样品相关性及处理效应,介绍了一下差异基因总体情况。如下图:
2. 差异基因GO分析 作者按上调/下调基因集分别进行GO注释,并按时间点分别论述上调/下调基因集富集情况,如下图:
3. 麦二叉蚜采食后小麦叶片叶绿素含量变化 从差异基因GO分析可以看出,蚜虫采食可以负向调控小麦的光合作用过程、光捕获和光系统相关基因,所以作者又测定了采食后小麦叶片叶绿素含量变化,如下图:
4. 麦二叉蚜采食后小麦叶片中水杨酸、茉莉酸相关防御途径的基因表达 参与SA生物合成的苯丙氨酸解氨酶(PAL)基因在不同时间点均显著上调,但表达水平随采食时间的增加而逐渐降低;茉莉酸代谢途径中三种脂氧合酶(LOX)基因均显著上调;受MAPKs调控的WRKY转录因子也显示上调,如下图:
5. 二叉蚜采食后小麦叶片中过氧化氢(H2O2)积累和抗氧化酶活性的变化 蚜虫采食明显上调活性氧清除基因的表达,进一步通过3,3 ' -二氨基联苯胺(DAB)对小麦小麦叶片进行细胞学染色,采食2h后就出现H2O2积累,并且随采食时间的延长,斑点数量和大小逐渐增加,如下图:
6. NADPH氧化酶抑制对小麦叶片H2O2积累和防御反应的影响 NADPH氧化酶抑制剂二苯碘铵(DPI)不仅能明显抑制由采食引起的氧迸发,并且对小麦叶片防御应答基因表达水平也有明显的下调作用。
以上就是该篇文章全部结果,回头来看,这个实验设计并不复杂,内容也不是过多,为啥人家能发表而你却被拒稿呢?要知道,就这个2区3.5分影响因子的BMC Genomics ,也是很多人渴望而不可得的存在。
2020年,转录组类文章到底有多难发?从这篇文章我们可以看到,文章并没有你想像中的难发,我试着从中提炼以下几点,希望对您有所借鉴。
1. 实验设计相对合理,层级递进,取样点与植物防卫三级级联反应基本对应,后续分析论述层次较为分明。
2. 转录组仅是的实验中的一部分,套路式的罗列结果的时代已没过去了,将转录组与其他指标融合在一起,就像本文中,除了转录组,作者还进一步进行了生理指标测定,如叶绿素含量、氧迸发等,基因关联性状,使结果更有说服力。
3. 转录组数据介绍切忌空泛,要结合其他生理生化指标,提炼出某些相关基因加以展示,如本文中叶绿素含量与表达下调的光捕获、光和作用相关的基因;H2O2积累和抗氧化酶活性的变化等。
4. 论文精华都在讨论部分,多引用他人数据佐证自己的结果,能做到旁征博引,论文一般都错不了!精读文献原文,请点击文末“阅读原文” 直达。
2020年,转录组类文章有多难发?其实难的是你不肯转变观念,时代不同了,老套路也就过时了;很多老师目前面对的难题不是手里没数据,也不是不会写论文,而是数据看不明白,分析便无从下手,这个梗不破,怎么发文章?!我给大家推荐一部 《转录组分析结果解读》 视频教程 ,轻松解决您看不懂转录组结果数据的难题。
更多技能学习链接:
更多生物信息课程:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接: 基因家族分析实操课程 、 基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接: 转录组(有参)结果解读 ; 转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接: WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接: 转录组标准分析后的数据挖掘 、 转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读 、 OTU网络图绘制 、 cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课,学习链接: linux系统使用 、 perl入门到精通 、 perl语言高级 、 R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接: TCGA-差异基因分析 、 GEO芯片数据挖掘 、 GSEA富集分析课程 、 TCGA临床数据生存分析 、 TCGA-转录因子分析 、 TCGA-ceRNA调控网络分析
8.其他课程链接: 二代测序转录组数据自主分析 、 NCBI数据上传 、 二代测序数据解读 。
meta分析论文,举例说明写法如下:
1、确定产品
当我们有一个想法,然后确定生产何种产品,就是我们Meta分析论文选题的过程。经过一番调研,我决定生产橙汁,因为现在的橙子是低成本的水果,且目前市面上橙肉含量高的饮品非常少,所以生产出来的橙汁会是一个有竞争力有市场的好产品。
这就意味着,当我们想要写一篇Meta分析论文时,要关注到现在的研究空缺,这样的Meta分析论文会更加容易发表,更具竞争力。
2、寻找原材料
确定生产方向后,接下来我需要走访橙子种植基地,寻找满意的橙子。因为不知道哪一个地方的橙子是最符合我的需求的,所以我将县里每个镇的橙子都买回了家里。这就相当于写Meta分析论文过程中的文献检索环节,全面检索数据库,不遗漏每一篇相关文献。
常见的英文数据库有:PubMed、Embase、webof science、MEDLINE、Ovid、ScienceDirect、Cochrane等,中文数据库主要是万方、维普、知网等,写Meta分析论文,检索这个环节工作量相对比较大,花费的时间较多!
3、筛选品种
尽可能多的寻找到我需要的橙子品种,接下来我需要按照我的规划逐一品尝挑选我需要的橙子品种,确定供货来源。首先,橙子必须果粒饱满,排除掉一批水分不足、口味偏酸、价格偏高的橙子,剩下来的都是我所需要的了。这一步就是写Meta分析论文过程中,制定排纳标准的步骤。这一步需要根据Meta分析论文的选题情况,具体情况具体制定排纳标准。
4、进行采购评估
选择好了原材料的供应商,接下来我需要实地去种植基地采购我所需要的橙子,并为原材料出具一份质量评级表,让我的消费者以后可以放心的饮用我的橙汁。
采购挑选评估橙子的过程,就是我们写Meta分析论文过程中,文献质量评价的步骤,一个橙子的好坏直接影响了一瓶橙汁的品质,被纳入的文献质量同样也会直接影响我们最终写出的Meta分析论文的质量,所以我们必须对每一篇文献进行质量评价,让读者对我们所纳入的文献质量有充分认识,放心“食用”这篇Meta分析论文。
5、生产-削皮剔肉
有了原材料橙子,下一步需要把橙子削皮切块,把果肉取出来。
这一步相当于写Meta分析论文中的信息提取的步骤。写Meta分析论文时,纳入的文献都是完整的论文,而我们实际要使用分析的仅仅是文献中的研究数据和研究方法,所以我们必须要数据通过表格提取出来。
6、生产-榨汁
有了果肉,就很简单啦。直接把材料倒进机器,让机器为我们榨汁即可。
同样,Meta分析论文有了数据就比较简单了,只需要把数据丢进软件,让软件为我们分析即可,这一步就是我们写Meta分析论文中的数据综合步骤。STATA、R语言、RevMan这些软件都可以做到。
7、送检-排除异质性
榨汁完成后,需要将橙汁送检,让相关机构检测我们的橙汁是否含有其他杂质,并为我们出具一个证书,这样就可以让消费者放心购买我们的产品了。
而在写Meta分析论文时,同样也需要进行这一步,通过综合分析得到Meta分析论文的结论后。我们还需要检测各个文献之间的差异性,确定文献之间的异质性有多大,以判断结论是否可信。
因为在综合阶段我们是将数据混合到一起进行分析,如果被我们提取的两个文献本来差异性就很大,那我们的直接将他们混合进行分析,出来的结果误差非常大,这可能导致我们写出来的Meta分析论文没有研究意义。
这一步就是我们Meta分析论文的异质性检验,如果通过异质性检验得出结论存在较大的异质性,我们就需要进一步分析异质性的来源,排除异质性以及选择不同的效应模型进行再一次的数据综合。
8、排除造假风险
到这一步,我得到了一批好喝的橙汁,但是新的问题出现了。我如何保证橙汁口味的稳定性,确定橙汁中没有混入其他影响性因素呢,所以为确保最后批量生产后产品,品质的稳定性,我重新再买入了一批橙子,排除一些看起来不太靠谱的供应商的原材料,或者再加入一条榨汁技术不同的生产线,重新生产橙汁。
如果每一项调整,口味变化都不大,证明我的生产流程是稳定可信的,橙子品质也是统一过关的,我可以实现批量生产;相反,如果改变了其中一项,口味就发生了巨大的变化,过酸或者果肉过细,这些都很大程度上影响了我橙汁的口味,说明其中某项影响因素的影响很大,要实现稳定的批量生产就必须对这些影响因素再做进一步测试。
这也就相当于Meta分析论文中的敏感性分析。敏感性分析是指改变纳入标准(特别是尚有争议的研究)、排除低质量的研究、采用不同统计方法/模型分析同一资料,观察合并指标的变化,如果排除某篇文献对合并效应量有明显影响,即认为该文献对合并RR敏感,反之则不敏感。
9、排除隐瞒风险
最后,我们在测试生产品质时,只购买了一小批橙子,供应商给了我们长得又大又好的橙子,生产出来的结果是稳定可靠口味好的。那其他没有给我们的个头稍小,品质稍次的橘子呢?
不能排除某些供应商为了合作,只向订购商出示品相好的,而刻意隐瞒品相差的。所以最后我们只需再次确定供应商是否品质稳定,刻意展示好的而回避不好的,如果没有,我们就可以实现量产了。
在写Meta分析论文里,这就是最后一步,评价发表偏倚。橙汁好喝可能是因为你选到了供应商可以给你的好橙子,而在实际生产中也许并没有那么品相完美的橙子。
同样因为在医学统计研究中,阳性结果往往比阴性结果更容易发表,所以我们纳入的文献可能本身是因为“品相好”的文献被提供给了我们,我们还需要考虑到那些未发表的“稍次”的文献是否会影响我们的结果。可以通过评价漏斗图是否不对称,识别发表偏倚、Begg和 Egger法是检验漏斗图对称性、Trim法和失安全数法等实现检验。
10、生产调研阶段结束
到此为止,我们基本上完成了工厂的搭建,当然后续还需要拓展市场、营销、售后之类的才能真正意义上实现企业运转,也就类似于Meta分析论文的后续的写作、格式排版等等,但是最重要的“产品”我们已经生产完成,只要产品够硬,后续的都很简单啦~
写Meta分析论文有严格的流程要求,如果你真的想在今年发表一篇Meta分析论文的话,小编还是建议大家,可以试一试安排系统的meta分析学习,避免因为不规范的学习耽误研究进度。
对于科研的主要技能,我从以下几个方面给你总结:
1. 相关研究论文阅读量,毫无疑问,一个科学问题的初始必须去了解相应方向的文章,有人说过要 写一篇中文核心你要读起码50篇论文,要写一篇sci你要读起码100篇论文。
2. 各类软件,比如科研必须的绘图软件,模拟软件,各种科研设备工具软件,没有电脑,没有软 件,相当于一个战士手里没有枪,一个作家手里没有笔。
3. 文章、项目基金写作技巧,这点非常重要,需要潜心学习,多看多学,不是一朝一夕的事情。
4. 最后偷说句,科研圈人脉和关系至关重要,小了说决定了你的论文项目能否高中,大了说决定了你的科研事业道路。
一、文献阅读——科研的基础
毋庸置疑,阅读文献是做科研最基础的工作,思路和灵感都是从文献中来。阅读文献首先要做的就是检索文献,医学科研最常用的文献数据库便是PubMed( )。这里还给大家推荐一个小插件——Scholarscope,这个插件可以方便地显示杂志影响因子以及分区等信息。
安装了Scholarscope插件后PubMed的显示
此外,刚开始读文献时,第一个难迈过去的砍便是单词障碍了。尤其对于本科生来讲,专业词汇积累还不足,这时便需要一些工具来帮助我们了。我个人比较推荐有道词典,它的取词翻译十分方便,对于专业词汇的翻译也还比较准确。此外,我个人非常不推荐使用全文翻译来阅读文献,一是可能因为翻译问题导致我们不能准确地理解文献内容,此外长期以来全文翻译会使我们进步非常慢。其实一个领域的常见专业词汇就那么多,硬着头皮啃几篇之后,就会发现很多词汇都是反反复复出现的。
有道词典PC版
个人觉得阅读文献障碍最大的便是对于实验以及文章思路的理解了。我个人的经验是从简单的文献开始,每次接触大约3个新技术,并积累科研常识(常见分子以及信号通路)。
二、实验操作——绝知此事要躬行,纸上得来亦重要
实验是科研的核心,我们所有的数据都是从实验中得来的。做实验容易陷入两个误区:一是只知道埋头去做,不思考背后的原理,所以在实验做不出来的时候便分析不出是什么原因;二是只纸上谈兵,以为看着师兄师姐做起来很简单,眼高手低。此外,受疫情影响,可能很多同学的湿实验受到影响不能完成,但在家我们还可以学习并完成以生信为代表的干实验。一些生信相关的技能大家不妨趁疫情在家抓紧学一学。
三、数据分析——学好统计学基础,善于运用统计软件在通过实验得到数据之后,我们需要通
过统计分析来得出结论。我们在学校里面学的统计学课程主要是基础理论,离实战还有较大距离。对于刚接触科研的同学,建议学学GraphPad Prism,这个软件的操作比较友好,基本上自己稍微摸索一下就能上手。它的主要功能是绘制统计图,兼带一些统计功能,虽然不是专业的统计软件,但也能基本满足日常需求。
GraphPad Prism
三大专业统计软件,我们用的最多的是SPSS,SAS一般的数学与统计学院那样的非常专业的统计分析时才会用,STATA在meta分析的时候可能用到。
R语言与RStudio
此外,R语言在数据分析和可视化方面有着非常强大的功能,但是因为涉及编程,可能对新手来讲不太友好。
四、图片绘制——从审美开始
得到了一个一个小的结果图之后,在发表文章时我们需要将其整合为一张张大图。此外,现在很多高水平杂志都要求我们绘制一张模式图来总结全文的内容,以达到一图胜千言的目的。首先我们需要学习科研期刊要求的审美风格是怎样的,大家不妨参考CNS上的文章的图片,看看它们是一种怎样的风格样式。
图片整合与模式图绘制示例
对于图片整合与模式图绘制,我们用得最多的便是Adobe Illustrator软件,这个软件可以绘制并导出矢量图。
五、论文撰写——熟读唐诗三百首,不会作诗也会吟
对于论文撰写,我觉得因为科研论文的格式比较固定,多读加上勤于思考,其实不难悟出写作的套路。我觉得在家期间,如果有时间的话,尝试写一篇综述试着发表也是很好的。
六、课题设计——从模仿到创造
一个好的科研成果,离不开最初有一个好的设计。对于研究生来说,帮忙导师写标书可能是难以避免的;对于本科生来说,能申请到大创项目对于自身是有很大帮助的,而这些都离不开课题设计的能力。
我个人认为思路是从文献中来的,我们在阅读文献时,要注重摸清作者构思的思路,并最终将这些思路化为自己所用。解螺旋酸菜老师的三十六策为我们总结了基础科研的基本逻辑体系,可以让我们少走一些弯路。
七、演讲答辩——Practice makes perfect
最后要提的就是演讲答辩的能力了。对于本科生来讲,大创申报与结题需要答辩;对于研究生来讲,作报告或者毕业都需要演讲答辩。
因此,演讲答辩的能力也是非常重要的。个人觉得提升这方面能力最重要的便是把握机会多练习,比如在平时开组会的时候,要能积极分享交流,如果一直畏畏缩缩不敢发言的话,演讲答辩的能力是很难提升的。