就有人问,生信的文章能发到多少分?如果你是像华科薛宇教授一样的大牛,弄一套算法,编一个生信分析工具,十几分妥妥的,引用量杠杠的。但是,那是大牛,一般来说,按「常规套路」出牌的这种生信分析文章分值在 0-2 分之间。但也有些不做实验的生信分析文章能发到个 4-5 分,那么生信分析的文章怎么样能达到一个比较高的层次呢?
这里,我们给大家分享两篇文章来说一说一些进阶的文章思路,一篇是发表在我们的老朋友「Oncotarget」上的,另一篇是发表在「Journal of Proteome Research」(IF = 4.1)上的。
先看 Oncotarget 这篇「Genomic expression differences between cutaneous cells from red hair color individuals and black hair color individuals based on bioinformatic analysis」,文章是做的黑色素瘤的两种不同表型的个体的差异基因的生信分析。
Abstract 里说到 MC1R 这个基因的突变会导致高患癌率的 RHC 表型两种不同的表型,其中 RHC 表型会增加皮肤癌的发生率,那么 MC1R 的突变究竟影响了哪些基因?文章通过 PPI 网络分析,分别对比分析两个不同表型(RHC 和 BHC)的正常皮肤细胞和癌细胞中的差异基因。结果表明,在癌细胞的对比中没有差异,而在正常皮肤细胞中筛选出 23 个 hub 基因,并且其中 8 个基因异常表达,这一结果提示这 8 个基因的异常表达可能是 RHC 表型患癌风险提高的重要原因。
这篇文章利用了 3 个数据包进行综合分析,从而得到了一个 novel 的结论,文章利用 GSE44805 中的差异基因构建 PPI 网络筛选 hub 基因,再利用别的数据包中的测序结果验证这些基因确实存在异常表达,多方验证说明自己生信分析结果是可靠的。虽然作者一点实验也没有做,但是从数据量还有可靠性上来说,可能比自己辛辛苦苦地做小样本量测序还要靠谱。
文章中的分析方法(差异基因以及 PPI 分析)都是我们非常熟悉的。筛选出差异基因,将上调和下调的基因分别构建 PPI 网络,得到文中的 4 张图(不管怎么说,这图的颜值比上一期套路中分析的文章要高得多)。
这张图的构建方法这里不再赘述
小结
这篇文章的方法完全是可以借鉴和复制的,难点在于找到足够多的具有相似性和可比性的数据结果,以及找到一个合适的切入点得到一个相对 novel 的结论。
下面看 Journal of Proteome Research 上的这篇文章「Weighted Protein Interaction Network Analysis of Frontotemporal Dementia」。
一看这流程图就觉得这文章是生信专业的人做的文章。(本宫上学的时候,就觉得我们生命学院的学生都是码农,生物信息专业、生物医疗工程、生物科学这些专业的人天天都在编代码,完全感受不出生物专业的气息。)
这文章讲得啥咧,就是先选出 13 个种子基因,然后根据 PPI 数据库中蛋白质互作关系构建这 13 个种子基因的第一层网络结构。
再以第一层网络为种子构建第二层网络结构(然后电脑就死机了)。
然后分析第二层网络的拓扑学结构,从中筛选出 hub 基因(图中绿点表示最初的 13 个种子基因,蓝点表示第一层的基因)。在构建过程中,随着基因数量的不断增加,最先选出的 13 个种子基因未必就是后来的 hub 基因。文中还设置了对照组,并详细讲述了这 13 个种子基因的筛选方法。因为整个分析过程都是建立在生信分析的基础上,属于完全架空的,所以整个研究过程十分讲究逻辑上的严谨性。
小结
之所向大家介绍这篇文章,是觉得这种思路在生信分析的文章中可以借鉴,种子基因的选择可以通过临床上疾病中基因突变的概率来进行筛选,然后构建两层 PPI 网络,进行 GO,KEGG 分析,从而预测新的未知的疾病相关基因,如果后续能从别的数据包中得到表达量的验证或者是自己在临床样本中进行验证,那么整个文章的内容将会更加丰富。
局限性:PPI 数据库中其实很多蛋白质互作结果是没有意义的,因为在实际生物体中很多蛋白质互作情况是不可能发生的,只有在实验人为干预情况下才会发生。
刚开始写文章的时候,总会是有种恐惧感。脑袋里思绪万千,可是真要表达出来,却总觉得一片空白。虽然看了一肚子的学术文章,但是写下来的文字就跟小说或者散文一样,零零碎碎地弄不成一片。那么多的术语也不知道怎么摆放才好。这种焦虑一开始多多少少都会有一些,都需要用时间和练习去弥补。
写学术文章其实有点像编程。刚开始学习编程语言的时候,不明白语法规则,就不敢乱写。即使写了,编译器老是报错,找原因的时候又觉得语法规则怎么设计得那么复杂,找了半天都不知道是什么原因。但是当最终掌握了这门编程语言之后,写起代码来就是信手拈来了,该定义的自然而然就定义了,该用函数地方的就用函数了。不复杂的流程都可以边想边写了。复杂的流程,只要把逻辑想清楚了,一切似乎就是顺其自然地完成了。这个时候再回头看语法规则,又会觉得有规则限定就是好,要是代码写成了散文,调试起来会疯掉的。
科研写作也是一个技术活,也要经历一个熟能生巧的过程,首先你要熟悉学术写作的基本方式。在能够基本上准确的传达信息的基础上,自然而然地就会开始发展自己的写作风格。不要一开始就去复制导师的写作风格,因为对问题的了解程度肯定是达不到的,强行去模仿别人的风格就会太牵强。
同时在写文章的时候,就把文章当做一段代码来思考就行了,不用想的太复杂。不要把堆砌学术术语当作是写作的目标,成功的作家并不是要把事物用很复杂的方式呈现出来,而是准确的传递自己的信息。就跟写出来的代码主要是能正确的运行,写得好看不好看,那是下一步的要求了。比如读者看科技新闻或者文章的时候,也不会是抱着欣赏艺术的方式,而是能够很快的从中提取到自己有用的信息。
在写作初期,多收集同事或者同行的反馈意见是最有用的,可以帮助自己发现各种各样的问题,然后才能在后续的写作中知道要提高什么。写作後期, 如过是英文论文,可以请专业的论文润色公司如英论阁 提供语言协助 收起
我投过的只有一个没收版面费,是Journal of Bioinformatics and Computational Biology ,收算法类的文章,对英文要求比较高。
生物信息学杂志不收版面费的比较少,就是Bioinformatics 也收。生物信息学在03年出来以后才快速发展的,期刊也是更晚才大量出现的,基本都是要先收费维持杂志的收支,然后过几年几十年之后,杂志名声出来了,数据比较多了,可以卖数据库收钱的时候,才可能免费。
看第几作者,看什么类别,论著还是META还是综述,看该杂志在中科院属于哪个分区。如果是第一作者,那么10分很牛,论著很厉害,meta和综述是回顾性研究所以没有创新性。中科院杂志分区很稳定。有些领域TOP杂志的影响因子仍然只有几分。所以光看分数不行,最好看下分区。是否是1区杂志。
1、第一作者:在创新性作品如科研论文、专利、调研报告等等的署名中,对于多个作者共同完成的情况,对作品贡献最大的人的名字通常署名在最前面。特别对于科研论文的署名,各期刊都有更细致的规定;而当论文署名用于职称评定时,第一作者的分量显然比第二、第三作者要重,而比单独署名的要轻。
2、影响因子:是汤森路透出品的期刊引证报告中的一项数据。 即某期刊前两年发表的论文在该报告年份中被引用总次数除以该期刊在这两年内发表的论文总数。这是一个国际上通行的期刊评价指标。
影响因子现已成为国际上通用的期刊评价指标,它不仅是一种测度期刊有用性和显示度的指标,而且也是测度期刊的学术水平,乃至论文质量的重要指标。影响因子是一个相对统计量。
由于科学研究的复杂化多样化,如生物信息学有几百人署名一篇论文的情况。第一作者指的是署名排在最前面的那个人,有的文章署名也有两个或多个第一作者,称为并列第一作者,这种情况下一般需要在人名上进行标注。
另外,第一作者与通讯作者不同,与创造性贡献不同,通讯作者常由诸作者中在论文所属领域最有权威者所充当。
扩展资料:
美国《科学引文索引》(Science Citation Index, 简称 SCI )于1957 年由美国科学信息研究所(Institute for Scientific Information, 简称 ISI)在美国费城创办,是由美国科学信息研究所(ISI)1961 年创办出版的引文数据库。
SCI(科学引文索引)、EI(工程索引)、ISTP(科技会议录索引)是世界著名的三大科技文献检索系统,是国际公认的进行科学统计与科学评价的主要检索工具,其中以 SCI 最为重要。
科学引文索引以布拉德福(S. C. Bradford)文献离散律理论、以加菲尔德(E. Garfield)引文分析理论为主要基础,通过论文的被引用频次等的统计,对学术期刊和科研成果进行多方位的评价研究,从而评判一个国家或地区、科研单位、个人的科研产出绩效,来反映其在国际上的学术水平。因此,SCI是目前国际上被公认的最具权威的科技文献检索工具。
参考资料:SCI_百度百科