国内外学术造假行为定义的差别去年8月,日本东京大学接到匿名举报材料,举报该校6个实验室的22篇论文存在学术造假情况。近日,东京大学召开新闻发布会公布了最终结果:包括该校具有世界级影响力的著名细胞生物学家渡边嘉典存在学术不端行为,他在发表的5篇论文(包括2篇Science,两篇Nature,1篇Nature子刊)中使用了造假的图片和图表。上述的故意篡改图片和数据是明显的学术不端,但要问以下列举的几项“你是不是敢说这些都是学术造假?”,我个人还真不敢说,因为据我了解,周遭很多科研者都多多少少经历过这些,尤其是数据优化,甚至也许你会和我说:我们的老师就是这么教的。到底这些是“默认的不严谨”还是“实质的学术不端”?或者说一念之差,就会演变成学术不端?或者说他们其中几项已经是学术不端?也是仁者见仁智者见智了。“数据优化”曾经一项针对1000多名博士后的调查发现,四分之一以上(实际应该更多吧)的人会筛选或省略数据。并没有类似针对现有行内科学家的访问,我想是因为大多数人都不愿去过多谈及这一行为吧?事实上,大部分科研者不能说从来没干过的是:每一组实验我做8个甚至更多重复,挑选其中的3个最有利于设想趋势的值,其他都当没做过,这种带有倾向性的数据选择本身不符合客观实验结果,就严谨的科学态度来说显然不妥,但数据又真实存在,那这算不算造假?算不算学术不端?处理组与对照组进行统计比较,去掉那个所谓的异常值后P值变得更有意义,科学的统计学处理和数据造假的界限又如何界定?那在同样实验条件下,不同批次的实验数据叠加作为一次实验来算,这算不算学术不端呢?(如果你觉得这个属于学术不端,那这个和前述的数据挑选是不是只是五十步笑百步的区别呢?)“可重复性”有人认为:某个实验重复不出来只有两种可能:要么数据是不成立的,要么操作有问题。我倒觉得不尽然,生物技术巨头安进公司(Amgen)曾经对53篇具有“里程碑”意义的论文进行过重复性验证,结果只有6篇文章可以重复。事实上,科研上一开始的新现象大都是偶然所得,重复性不好很正常。当然,逻辑漏洞和模型缺陷、人为的数据优化都导致了不可控的低可重复性。当我们自己做这个实验时,我们对数据进行了倾向性的“优化”,但当别人重复时,是带着批判的眼光去的,那就骤然变得极其严谨,他们恐怕也不会帮你去筛选符合结果的数据吧?不可重复的研究就一定是学术造假?数据在那,实验条件在那,但是就是重复不出来,谁知道再重复的时候什么条件改变了,谁知道获得这个实验结果,需要除了我们看得见的实验条件,还有哪些看不见的实验条件呢。只能说他们还没有摸索出合适的条件就发表,不够严谨。当然,这应该与利用数据篡改获得实验结果区分开来,后者是公认的学术不端。有些时候,连你自己都不能很好重复,更何况别人,科研者时常会有这样的体验:某一个实验第一次做,效果非常好,什么都符合自己的预期,P值绝对有意义,但后来重复就再也做不出那么好的结果了。