首先我们要知道的是查重系统检测时,不仅仅只查文字部分,而且图片里的文字也是可以进行识别的了,同时表格,公式等内容都是可以识别和检测的。值得注意的是,在公式这一块,word版和PDF版查重系统会出现不同。在查重系统没有升级前,word文档里的图片是不参与查重的,而PDF文档里图片是与文字融合都一起的,是参与到查重里的。现在查重系统升级后,由于格式的不同产生的查重内容差异已经越来越小,现在可能影响到结果是 文档页眉页脚里的内容以及注释,这些内容部分在word里系统是可以识别出来的,在PDF文档里重就一起会当作正文内容来检测的。如果学校检测的是PDF格式文件,查重检测系统会对PDF文件做一个文本处理的过程,也验证了PDF文件查重时,检测报告的内容是零乱的。对于PDF格式的论文多了一个文本处理过程,一些公式就会被识别成文本文字(字母数字较多)。这样这些文本文字就会参与查重。也就是说PDF格式的论文查重时是有可能检测到重复。