刚写的,也适合回答这个问题。绝对有参考作用,别忘了点个赞,嘿嘿!
========================
作为多年研发检测工具的工程(屌)丝,我给些干货。我告诉原理,希望能看懂。看懂了,方法就随便来了。
查重就是找相同(重复),技术上最早来自搜索,但搜索限制在完全相同的,包含搜索词的,重复不光是完全一致或包含,包括相近或相似也是算的。所以技术采用的是比较技术,比较技术手段有很多,你可以用不同的,只要能找到就都是可以的。
比较有2个突出指标,一个是触发阈值,一个是辨别敏感度。
阈值,这么理解。有时你做知网检测时,发现报告为0%,很多人认为是不是假的啊,这些人基本都有抄袭的内容,所以知道自己有剽窃,认为结果不真。这个很大情况就是阈值的问题。详细的原因,太专业了,改天再说。
敏感度,这么理解,有人发现同样文章,用其他工具测下来30%重复率,而知网测10%,就认为知网不行(知网不行,学术机构会用吗?!)。这个多半和敏感度有关。网上说连续13个字,就是敏感度指标之一,其实早就升级了,不仅仅是连续的才判别。
你想比较技术,是简单到只是文字比对吗?核心还是pattern的相似性算法,但定义pattern,转化成结构化的字符码是最容易处理的,且可靠性精准性高。其实在实验中,图片比对、表格比对、公式已经不是问题了,找相似是很容易的,但是跳失率也高,在辨别敏感度的设定上还要调试,将来会有的。
说个现在就有的,不连续的文字已经在对比了。所以不要机械的13个字,否则每隔12个字,加个字或标点,岂不是太容易过关了。那脑袋一定早就打成猪头了。
所以修改也是蛮简单的,就是怎么能让pattern对不上,要么改头换面,不激发敏感辨别,要么稀释,不睬过阈值。
基本算专业人员,给一些忠告: