研究生论文数据造假会被发现如下:
造假被查出来的大都是生物,材料之类的领域,然而计算机(特指深度学习)才是重灾区,造假容易复现困难随机性强,别说二流论文,顶会论文都没有参考价值。所以除了廉价劳动力够多的大研究室,其他人论文的数量基本取决于不要脸的程度。这也是我再也不想碰ML领域会议的原因。
比如组合优化的性能曲线,所有人都知道是个指数曲线,你搞个新的剪枝条件,水一点咱不求正确解,毕竟大部分应用下并不需要正确解,切掉1%的解换来50%的速度是很合理的思想。什么性能改进不够大?5次实验最好的跟最坏的比啊,还不行用C+SIMD写的跟Java的比啊,再不行说实话你随便编个数也没人看得出来,毕竟理论上行得通,行不通那是他程序写的不好。
要说上面想法毕竟真的,顶多偷懒不想做实验,到了ML领域之后那就是明明白白的造假了。数据集精选到位,想法再烂几百个实验里只要能挑出一个能看的,那就是顶会苗子——normalization + adaptive learning rate + manifold constraint审稿人怎么知道哪个项work?
再进一步,古典ML还要你写程序做实验,到了DL里这些全都可以省了,完全可以画图编数据发顶会一步到位。毕竟就是个人肉Architecture Search,随便找个domain画个图,编个比SOTA高一点的精度,一篇论文就诞生了。需要公开数据集和代码?某国际大厂研究院实习生发的顶会论文也带代码,
最近有些研究都开始明目张胆的把validation dataset的distribution当制约条件,甚至直接sample数据进train loop,好家伙演都不演骑头上侮辱人智商呢是不?人家都把造假上升为novel approach了,就别提被发现了,那是伟大的研究懂不懂。