2022年4月,一起AI界的学术不端事件可谓是“引爆 ”了整个学术圈。涉及到的100位作者,无一不是业内大佬。 谷歌大脑(Google Brain)团队著名科学家Nicholas Carlini 发表的一篇博客中指控:由北京智源人工智能研究院团队牵头,刊登在论文预印网站Arxiv的一篇中国学术综述论文《关于“大模型”的路线图》(“A Roadmap for Big Model”)一文涉嫌严重抄袭。 Nicholas Carlini在博客文章中则详细列举了上述中国团队论文存在大段抄袭其他论文的嫌疑,证据是大规模的文本重叠,疑似被剽窃的论文也包括他更早发布的《去重训练数据使语言模型更好》(Deduplicating Training Data Makes Language Models Better),部分内容一模一样。讽刺的是,后者这篇被抄袭的论文,研究的主题正是数据去重和查重。 资料显示,北京智源人工智能研究院为依托北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评、旷视科技等北京人工智能领域优势单位共建的新型研究机构。 这一篇本意尽可能涵盖国内外关于该领域所有重要文献的综述报告,由智源研究院牵头,负责框架设计和稿件汇总,并邀请国内外100位科研人员分别撰写16篇独立的专题文章,每篇文章分别邀请一组作者撰写并单独署名,共200页。 值得注意的是,联名撰写的这近一百来位作者,分别来自清华、北大、上海交大等顶级名校,及腾讯、华为、京东、字节跳动等互联网大厂。 随后,北京智源人工智能研究院在其官网发布了关于“A Roadmap for Big Model”综述报告涉嫌抄袭的致歉信,确认部分文章存在问题后,已启动独立审查,并进行相关追责。不过不过,Carlini同时也指出,涉嫌抄袭的可能只有小部分作者,在尚未明确多名作者的具体责任前应理性看待,。而且智源研究院决定立即从报告中删除相应内容,并且对报告修订版提交arXiv进行更新。目前已通知所有文章的作者对所有内容进行全面审查,后续将严格审核后再发布新版本。 智源研究院表示,将深刻吸取教训,整改科研管理和论文发表流程,并进一步完善制度管理。 这件事在知乎讨论也从第一天最初的几万浏览量,飞涨到了现在的600多万。 对此,我们可以引用知乎用户、伦敦玛丽皇后大学学子“谢圜不是真名 ”的一句话来进行总结:“ 学术声誉的建立是一辈子的事情,然而要推倒只需要一瞬间。”希望通过更加严格的审核机制和更加明确的惩戒措施,加强学风教育,防范同类事件的再次发生。