您当前的位置:首页 > 教育论文>文教资料

论文检测技术应用问题及解决策略(共5篇)

2023-12-08 09:47 来源:学术参考网 作者:未知

  论文检测是对论文进行重复率检测的工具,对于一些毕业生学术不端都起到了一定的遏制作用,基于大量已发表论文的检测数据,根据检测报告判定出作者、系统等诸多因素造成的检测结果的失真,针对性提出排除影响结果真实性若干干扰因素的应对策略,为图书馆等信息检索机构、编辑部、检测系统开发商、职称部门提供改进意见和建议,客观、公正、理性评价已发表论文作者的学术水平。下面是学术参考网的小编整理的关于论文检测的一些论文范例,欢迎大家阅读欣赏。


  第1篇:国内常用论文检测系统论文检测结果的差异性分析


  毕业论文是对学生大学四年在校学习、实践等专业知识学习的综合考核。为了端正学生毕业论文的撰写态度,督促学生保质保量地完成毕业论文,南京邮电大学通达学院图书馆(以下简称“我馆”)开通论文相似度检测系统对2016级毕业生的论文进行相似度检测。我馆开通试用的是大雅论文相似度检测系统(以下简称“大雅检测系统”)和维普论文检测系统(大学生版)(以下简称“维普检测系统”)。笔者选取40篇毕业生的论文在维普、大雅论文相似度检测系统中进行检测,对检测结果进行了比较分析。


  1.论文样本选择与比较方法


  1.1论文样本选择


  从参与论文相似度检测的同学中选取40位同学的论文,其中20篇选取理工科方向的通信工程、计算机科学与技术、软件工程、微电子工程、信息工程等专业学生的毕业论文,另外20篇选取文科方向的市场营销、物流管理、英语、电子商务等专业学生的毕业论文。


  1.2比较方法


  (1)先使用大雅检测系统和维普检测系统对选取的40篇毕业论文进行检测,检测结果按照理工科组和文科组分别记录;


  (2)理工科组和文科组分别记录大雅检测系统、维普检测系统检测的论文相似度及两个检测系统检测结果差,结果差采用大雅检测系统检测结果减去维普检测系统检测结果;


  (3)对每组的20条结果差进行分析,分别以5条、10条、15条、20条数组统计结果差的平均值;


  2.结果比较


  分别对理工科、文科两组的检测结果差进行比较。


  2.1理工科组比较结果


  2.1.1两个检测系统相似度检测结果比较


  通过大雅、维普检测系统检测理工科组20篇论文发现,相同论文的检测结果存在差异,使用大雅检测结果减去维普检测结果,相似比差异最高为-30.04%,最低为0.55%,具体结果如表1、图1所示。


  表1理工科组大雅检测系统与维普检测系统结果差


  图1理工科组两个检测系统相似度检测结果比较


  2.1.2两个检测系统相似度结果差分段比较


  对20条结果差进行分段求和,首先计算前五条结果差之和,然后分别计算前5组、前10组、15组、20组结果差之和,结果取绝对值,保留两位小数。具体结果如表2、图2所示。


  表2理工科组两个检测系统相似度检测结果分段误差


  图2理工科组两个检测系统检测结果分段误差


  2.2文科科组比较结果


  2.2.1两检测系统相似度检测结果比较


  通过大雅、维普检测系统检测文科组20篇論文发现,相同论文的检测结果存在差异,使用大雅检测结果减去维普检测结果,相似比差异最高为-53.07%,最低为1.68%,具体结果如表3、图3所示。


  表3文科科组大雅检测系统与维普检测系统误差率


  图3文科组两个检测系统相似度检测结果比较


  2.1.2两检测系统相似度结果差分段比较


  从图3可以看出文科组论文在两个检测系统检测的结果误差较大,对文科组20条数据结果差分别按照5组、10组、15组、20组记录进行分段求和,不取绝对值,具体结果表4所示。


  表4文科组两个检测系统相似度检测结果分段平均误差


  2.3结果分析讨论


  通过大雅和维普检测系统对文理科两组数据的比较,可以发现每一篇论文在不同的检测系统的相似度比都有一定差异,只是差异高低不同而已。


  2.3.1理工科组比较结果分析


  从表1、图1可以看出,两个检测系统结果差最高为-30.04%,最低为0.55%,同一篇文章大雅检测相似度高于维普的9篇,反之维普检测相似度高于大雅的11篇。从表2、图2可以看出,分段求结果之和,随着样本数的增加,两个检测系统相似度差异逐渐缩小。说明两个检测系统对不同论文的检测都有相似比高于或低于另外一个检测系统的情况,随着检测样本数的增加,两个检测系统相似度高于或低于对方的情况趋于对等。


  2.3.2文科组比较结果分析


  从表3、图3可以看出,文科组两个检测系统检测结果差最高为-53.07%,最低为1.68%,同一篇文章大雅检测相似度高于维普的4篇,反之维普检测相似度高于大雅的16篇。在文科组维普检测的相似比明显高于大雅检测系统。从表4可以看出,分段求结果差求和,结果没有取绝对值,可以看出大雅检测系统检测的相似比都是低于维普检测系统的,随着样本数的增加使得差异更明显。


  3.结果差异原因


  为何两个检测系统对同一篇文章的检测结果会存在这样的差异呢?我们对两个检测系统及差异比较明显的文章进行了分析。


  3.1检测的资源种类与数量不同


  大雅检测系统和维普检测系统拥有各自的资源对比数据库,它们的资源对比数据涵盖的资源种类和数量是有差异的,两个检测系统资源涵盖情况详见表5。


  表5两个检测系统对比库资源涵盖范围


  从表5可以清晰看出大雅检测系统和维普检系统检测论文相似度所对比的数据库资源的种类及数量。维普检测系统在期刊、学位论文资源方面的数量是高于大雅检测系统的,大雅检测系统相比于维普检测系统最明显的优势是拥有中文图书对比资源。


  3.2论文参考的文献类型影响相似比


  对文理科40篇毕业论文在大雅和维普两检测系统中进行检测,结果从图1、图3可以看出同一篇论文在不同的检测系统的相似比都是有或多或少的差异。在表1、表3中我们可以看到同一篇论文检测,理工科组大雅检测的相似比低于维普检测的结果达到30.04%,相似比高于维普检测的结果为29.75%;文科组大雅检测的相似比低于维普检测的结果达到53.07%,相似比高于维普检测的结果为26.76%;从最高差异来看,理科组两个检测系统的结果差比较接近,文科组大雅检测的最高结果差明显高于维普检测系统。


  笔者与论文在两个系统检测结果差异较大的学生就其所参考的文献类型做了简单的交流,從与学生的交流中获知,在大雅检测系统检测相似比较高的学生多数是偏重参考一些电子图书、杂志报纸等网络资源,而在维普检测系统检测相似比较高的学生偏重于参考的是CNKI、维普期刊数据的期刊、学位论文等。


  从表2、图2可以得出随着检测样本数的增加,理工科组大雅检测系统和维普检测系统两者检测的相似比结果差逐渐接近。而文科组随着检测样本数的增加,结果差异更趋于明显,维普检测系统在文科组的检测结果明显高于大雅检测系统。分析文科组的论文,我校文科专业主要有电子商务、市场营销、物流管理,学生的毕业论文多数是以实际的电子商务平台或者营销案例为主,如淘宝、京东、小米手机营销等,这些方面的写作材料,学生需要参考一些最新数据,一般以期刊论文、网络资源为主。在文科组的相似度检测对比中,拥有期刊数量较多的维普检测系统的检测结果明显高于大雅检测系统。


  4.论文相似度检测的困惑


  不同的论文检测数据库涵盖的资源对比库都不同,一些数据库平台会与电子杂志社签署独家授权的期刊,独家授权就是通过合法许可,授权给被授权方(合法的数字出版商)独家使用,未经期刊与被授权方同意,他人无权使用。这样就造成国内没有一家相似度对比数据是全面的,不存在任何一家论文相似度检测系统的检测结果是最权威的。


  目前国内大多数的论文相似度检测数据库主要有期刊、学位论文等资源的相似度对比,而没有图书资源的对比。大雅相似度检测数据库就有相似图书的检测,但是对于学术期刊的对比就不如维普、CNKI全面。那么我们在做学术科研论文、学生毕业论文相似度检测时,到底需不需要重视与电子图书的对比呢?论文相似度检测系统的选择标准是什么呢?


  学生在毕业论文检测过程中会根据学校选择的相似度检测系统调整自己的参考文献类型,学生可能会花很多心思了解该检测系统的对比资源库的特点,想方设法降低自己论文在该检测系统中的相似比,显然仅通过某一个检测系统检测的相似比判断是否抄袭是有局限的。


  5.结语


  在国内论文相似度检测系统众多,又没有统一标准对比数据库的情况下,指定任何一个系统作为标准进行论文相似检测都无法真正做到公平公正。高校该选择何种论文相似度检测系统是需要根据实际综合考虑的。理想状态是政府科研管理部门能够出面筹建资源对比库涵盖所有数字资源的相似度检测系统,统一论文相似度检测标准。如果没有统一的检测数据库,就需要使用不同的检测平台进行检测,并结合人工评价进行综合评判,从而才能更好地检测毕业论文的质量。


  作者:梅庆林等

  第2篇:论文检测网站轻松解决论文重复率问题


  1.PaperPass论文通行证网


  PaperPass网站诞生于2007年,是全球首个中文文献相似度比对系统,运营多年来,已经发展成为最权威、最可信赖的中文原创性检查和预防剽窃的在线网站。通过这个检测系统,就一定能通过学校的检测系统,包括中国知网学术不端检测系统。


  parperpass的系统检查就是根据它资料库与你的论文不断进行比对,查找相似文段,价格是10元/万字。


  PaperPass系统也推出了免费使用功能。用手机号进行注册验证,可以免费获得3000字的检测量。但由于服务器服务能力有限,网站每天(从零点计算)提供1000个用户申请免费使用,申请完为止,请在每天较早的时候申请。


  2.维普通达检测系统


  该系统采用TONDA公司自主研发的核心算法技术,具有业内领先的检测速度。最大特点就是快!在检测高峰期,别的检测可能需要花费很多时间,这个可以比较快的检测出。价格9元/万字。


  3.Gocheck论文免费检测


  操作比较简单,支持doc、docx、txt等多种格式的文档,如果不想这么检测,还可以使用拷贝粘贴到文本框的形式进行检测,很方便,检查结果比较贴近现实,也比较清晰,比较适合论文自查。


  价格10元/万字。


  也有免费试用版,邮箱注册,可以免费试用3000字。


  4.万方检测系统


  万方数据平台推出的论文相似性检测系统是目前较为热门的检测系统。究其原因,首先万方数据通过近年的发展,在高校中也确立了自己的相应地位。特别是南方部分高校直接将其视为毕业检测系统,其真实性和权威性无可厚非。其次,相对于知网而言,万方检测费用少,上手容易,是学生初次检测文章的首选系统。


  5.知网论文检测系统


  大部分学校都用知网检测。知网的收录范围相对来说是比较广而且是比较权威的,查重结果也比较权威。最普遍的查重方式。推荐大多数人使用。


  知网论文检测又分为:学术不端文献检测系统4.0(大家熟悉的VIP系统)、学位论文学术不端行为检测系统(TMLC2)、科技期刊论文检测、社科期刊论文检测、大学生论文抄袭检测系统等。


  6.PaperRater


  PaperRater论文检测系统(简称PR论文检测系统)简洁、实用、方便的操作系统在对论文进行检测之后,自动生成检测报告,为判断论文性质提供相关依据。它是国内最早也是迄今为止唯一一家根据学术规范要求进行引用识别的论文检测系统。


  对于英文检测,知网,paperrater,维普和gocheck都可以检测带有英文或者是全英文的论文,当然同时也可以检测中文的论文,而万方和paperpass只能检测纯中文的论文。


  不同的系统,检测结果有所差别,要根据学校要求,个人需求合理选择论文检测系统。


  第3篇:本刊提供论文检测、专家评点服务


  当前学术不端之风愈演愈烈。


  从法国雷恩实验室贝尔纳·比安伪造数据进行“肥胖基因”研究、韩国克隆之父黄禹锡的造假风波,到美国贝尔实验室发生的舍恩事件,以及引起人们广泛关注的东京大学教授多比良的研究数据的不可再现问题、我国某大学博士后论文造假等等,令人震惊。


  学术不端指的是在学术研究中违背科学共同体公认的行为规范而作出的种种不良行为。具体来说包括:抄袭,剽窃,夸大和窃取学术荣誉,强行在他人成果上署名,捏造、修改和选择性发表论文数据等等。


  学术论文是一项严谨的科研行为,凭论文参加职称评审的人很大一部分来自一些关乎民生的行业,比如工程、教育、卫生领域,这些人如果弄虚作假,不仅对同行业其他人是一种不公,也会对市民利益构成一种隐性伤害。针对抄袭成风、学术不端行为,不少高校和单位也加强了对论文重复率的检测,一旦相似度过高,轻则延期毕业、论文重写,重则取消学位、取消职称评定。某些地方,在职称评审中学术不端行为一经查实将面临3年内禁止参评的处理。


  为了给读者一组真实可信的数据,本刊有意针对近期一个划定时间内收到的论文进行检测。本刊共检测论文81篇,论文重复率30%以内的有57篇,占总篇数的71%;论文重复率30.1%-50%的有11篇,占论文总数的13%,重复率50.1-100%的有13篇,占16%。更令人咋舌的是,其中有3篇论文的重复率高达90%以上,分别为93%、90.1%和91%。这三篇重复率超过90%的论文经过检测比对发现只有摘要和题目属于作者原创,其正文内容重复率接近100%,由此可见问题的严重性。


  本刊只初审重复率不超过30%的论文。因为30%的重复率的论文内容涉及“引用”和“抄袭”两个概念认定的问题。


  我国《著作权法》第22条规定,为报道、评论、教学、研究或其他正当目的之必要,在合理范围内,得引用已公开发表之著作。所谓合理范围,就是能体现出作品是自己创作的,“引注”、辅佐阐明或回忆别人就同一议题总结与学术作用等,但不能发生“完全代替”作用,即不能到达别人只需观看自己的论文,而无须观看别人论文的程度。


  软件检测毕竟是人工设置的一种机制,在目前的论文检测系统中,通过数据库的比对,如果论文中某些段落或某段文字与数据库里的文字重合,那么就有抄袭的嫌疑,因此,在检测系统中某些引用的部分也将会算入重复率当中。对此,本刊在论文检测的过程中,只针对重复率不超过30%的论文进行每一个重复的段落、句子的认真比对,如果是文章适量地引用研究成果并注明参考文献的,将不会被视为抄袭。


  论文“注水”,产生了无数学术垃圾的同时,也“肥”了商家。为了顺利投稿,许多作者选择花点钱给论文中介“测谎”成了通常采用的方法。据不完全统计,目前在一些电子商务平台上,有近5000多家店铺提供论文查看重复率的服务,月入万元以上的有近百家,有近20家月销售额超百万元。


  某些销售网站上的测试软件泛滥,除了价格相差悬殊外,真真假假也难以分辨。目前各大高校使用率比较高的论文相似度检测的软件为中国知网、万方和paperpass。在万方和paperpass的官方网站上也开通了检测通道,而中国知网则暂未开通个人论文检测业务,只提供给高校、期刊社等相关部门做统一检测之用。


  本刊“中国知网”学术不端文献检测系统的使用权,用于对抄袭与剽窃、伪造、篡改等学术不端行为进行快速的检测。作为省级正规刊物,我们有责任采取多种行之有效的针对性措施,遏制并严厉打击学术造假行为。为了配合全国期刊整顿,为作者提供落到实处的专业服务,本刊决定自2014年7月改版升级起,向法学类论文作者提供论文重复率检测服务,并把检测结果反馈给作者。


  对于希望在本刊投稿的作者的来稿,在经过论文检测并经初审合格后,有需要修改、补充、提高的地方,编辑部会派专业编辑进行一对一联系,把对文章的修改意见及时与作者沟通,使作者的论文更加规范、质量更高。而对于观点新颖、热门领域的研究成果,本刊每期还将精选一篇专家精心点评的优质论文进行推荐,引导更多读者、专家和学界对作者研究成果的关注。


  学术造假和学术腐败已经成为世界学术界之公害,引起社会各界的广泛关注。维护学术尊严是每一个做研究的人的责任。要纠正学术不端行为,不仅需要相关政策的支持,也需要营造良好的社会环境和规范的学术研究规则,更需要研究人员发挥个人的热情和激情。端正学术之风,坚守科学道德,我们愿意以真诚专业的态度为每一位研究人员提供力所能及的服务,共同推动我国学术研究的良性发展。


  第4篇:程序代码相似性检测在论文抄袭判定中的应用


  根据09年年底,汤森路透集团发布的报告《全球科研报告:中国》(GlobalResearchReport:China)中称,近年来,中国的科研论文数量呈爆炸性发展,仅次美国,高居世界第二[1]。而与之形成鲜明相比的是,中国论文的被引用率低,质量不高和原创性内容不多。这一矛盾产生的主要原因在于高校论文互相抄袭的现象。随着网络技术的日益普及,这股学术不端之风更深深的影响了在校学生。学术浮夸和论文抄袭现象大量的出现在应届学生的毕业论文之中。现有的学术不端检测系统主要是针对文字的检测,对纯理论的论文的抄袭判定比较准确。但是与文科学生不同,理工科学生的毕业论文中常会引用一定数量的代码,这些代码的独创性不被判断。致使部分理工科毕业生在毕业论文中大量引用代码,以减少文字部分引用率的百分比。为了解决这个问题,亟需在现有的学生不端检测系统中建立针对理工科学生的程序代码相似性检测模块。


  一、研究背景


  程序代码相似性的检测最早是源于对重复代码的检测和对代码的优化。对于程序代码相似度的度量研究,国外起步的比较早,相关的研究也比较多。早在二十世纪七十年代,国外就有学者开始研究检测代码相似性的理论,和基于理论构建的检测系统。目前常用的代码检测技术有两类:一是最早于1976,由Purdue大学的K.J.Ottenstein提出的基于属性计数法(AttributeCounting)[2];二是1996年,由VercoKL和WiseMJ提出的基于结构度量法(StructureMetrics)[3]。


  二、代码检测在毕业论文中的应用


  (一)相似代码的判定


  代码抄袭定义为:一个程序在经过了若干常规性的修改得到的程序[4]。修改的方法主要归为十类,见表1。学生在毕业论文中的代码的抄袭主要体现在前8种。


  基于这些常规的修改方式,以C语言代码的判定为例,常用的检测思路之一是,将代码视为一系列Token(标记)的集合,由词法分析程序将源代码转换为Token流。记录两份代码为x和y,两者经过分解的Token流集合分别为X和Y,抄袭的判定条件满足表2。


  (二)系统的构建


  1.设计思路。


  对于学生毕业论文中代码抄袭的具体判定包括以下三个方面:识别,检测和确认。


  (1)识别阶段:根据代码中的关键词进行比对,确定代码使用的何种程序语言。


  (2)检测阶段:根据识别的结果,选定特定程序语言的代码数据库,进行检测,判定代码的相似度。


  (3)确认阶段:根据检测阶段对相似度的判定,输出结果。


  与现有的纯代码复制相似性检测,以及纯文字相似检测系统不同,针对理工科学生毕业论文的代码检测的系统必须实现以下功能:


  (1)代码和文字的分离。将代码从论文中分离,对不同的代码段落编号,各段单独存储。将分离代码后的论文的文字部分,形成单个文本,统一存储。


  (2)针对文字和代码建立不同的检测数据库。


  (3)根据不同的代码类型,必须建立有特征识别功能,能针对不同语言分别检测的分析系统和相关数据库。


  2.系统构架。


  根据系统的需求,系统主要功能模块在论文中代码分离基础上,包括两大部分:针对代码检测的模块和针对文字检测的模块。具体见图1


  分离模块主要实现代码和文字的分离,根据代码和文字的不同特征,将其分离为代码部分和文字部分,并将分离后的文字和代码进行存储。后台数据库包括存储数据库和代码特征数据库两个部分。其中存储数据库用来存储预处理之后的文字和代码;代码特征数据库用于存储不同程序语言的特征,以C语言为例,代码特征数据库中需要存储的内容包括有代表性的操作符和关键字。代码特征数据库的主要作用包括两个方面。第一,用于判定一段字母构成的文字是否为程序代码,以及该程序段由何种语言写成。第二,在代码检测时,用于划分代码的结构构成。代码数据库存储用于比对相似性的大量原始代码信息。针对中文论文的检测,分离模块以段落为单位,判定三种情况:纯中文,纯字母和中文字母夹杂。纯中文可以直接判定为论文的文字部分。纯字母的可以比照代码特征数据库,判定是否为代码。如果是代码,以代码的形式单独存储,否则,以文字的形式统一存储。中文字母夹杂的段落,可在去除了中文后,按照纯字母的情况进行处理。


  代码检测模块包括代码预处理、代码相似度检测和代码相似度判定三个功能。预处理用于去除代码中的冗余信息。根据表1中的定义,针对其中的2,3,9项,预处理模块消除了源代码中的注释,空格,换行和对程序输出效果无效的代码。同时,预处理模块还消除了常见代码段,如预处理命令和标准输入输出语句等。预处理之后的代码作为输入,由相应的算法进行检测,并得出相似度评判结果。


  文字检测模块将分离的文字由相应算法进行检测,得出相似度判定结果。


  输出模块根据代码检测判定和文字检测判定,输出最终检测结果:标记所引用或抄袭的部分的出处,以及所站论文总字数的百分比,最后给出综合的判定。


  三、总结和展望


  对代码独创性的判定是一项细化而复杂的任务。要真正形成完善的系统,还要大量工作要做,如对于代码判定的一系列数据库的建立,和更完善的判定算法的选择和实现,并在实际投入使用后进一步完善。


  作者:王明昊

  第5篇:论文抄袭检测技术研究


  随着数字图书馆和互联网的飞速发展,数字化文档唾手可得。近年来学术剽窃现象屡见报端,①公众人物学术造假事件的曝光使得民众对学术不端行为的关注进一步提升,其行为的危害已经引起社会各界的广泛重视。如何有效的防范、遏制抄袭等学习不端行为成为人们研究的热点,随着各种抄袭检测技术的研究不断深入,各种学术不端检测系统应运而生。本文要探讨的是抄袭的识别技术和检测工具。


  1研究背景


  抄袭现象之所以存在有着多层面的原因,首先,各种利益的驱动或者自身能力的限制使得抄袭者产生了主观的故意;毫无疑问,互联网的广泛普及,搜索引擎的强大功能都为抄袭等行为提供了便利;网络及各种全文数据库收藏的海量文献为抄袭者提供了原材料;抄袭检测工具应用不够普及、功能有待提高使得抄袭者心存侥幸;对抄袭行为可能引起的法律问题严重的认知不足等等。


  抄袭应用的领域可能是一篇学术论文、一篇博客、一段程序代码等等,本文关注的是中文学术论文的抄袭。从技术层面上来说,杜绝抄袭可以从两个方面入手:一是在写作过程中阻止;二是在发表过程中检测。“检测”方法的设计思路是这样的:不关心文章以何种方式完成,只是在定稿的文档中进行检测,确定其中是否含有抄袭的内容即可。显然使用检测的方法来判别可操作性更强。


  2抄袭检测技术概述


  对于自然语言的抄袭检测技术的核心就是文档复制检测技术。文档复制检测有两类基本的检测方法:一类是基于字符串比较的方法;另一类是基于词频统计的方法。


  基于字符串比较的方法也称为数字指纹法,这类方法通过某种选取策略在文档中取一些字符串作为“指纹”,把指纹映射到Hash表中,最后统计Hash表中相同的指纹数目或者比率,作为文本相似度依据。


  基于词频统计的方法也称为基于语义的方法。词频统计法源于信息检索技术中的向量空间模型,该类方法首先都要统计每篇文档中各个单词的出现次数,然后根据单词频度构成文档特征向量,最后采用点积、余弦或者类似方式度量两篇文档的特征向量,以此作为文档相似度的依据。


  3抄袭检测技术的发展


  使用计算机开展抄袭识别的研究首先要对数字文档进行分析处理,而数字文档又可分为两种类别,即:自然语言文本和形式语言文本。形式语言文本比较典型的是计算机程序源代码,虽然抄袭的案例较多,但因其具有规范的语法和语句结构特点,相对比较容易分析处理,针对此类抄袭识别的研究也较早。而自然语言文本(如:论文等)复制检测技术的出现比程序复制检测晚了20年。②1993年,美国亚利桑那大学的Manber提出了“近似指纹”概念,基于此提出了sif工具,用基于字符串匹配的方法来度量文件之间的相似性。美国斯坦福大学的Brin等人首次提出了COPS系统与相应算法,其后提出的SCAM原型对此进行了改进了。SCAM借鉴了信息检索技术中的向量空间模型,使用基于词频统计的方法来度量文本相似性。香港理工大学的Si和Leong等人采用统计关键词的方法来度量文本相似性,建立了CHECK原型,并首次在相似性度量中引入文档的结构信息。到了2000年,Monostori等人用后缀树来搜寻字符串之间的最大子串,建立了MDR原型。在此之前,全美国的教育工作者们现已懂得综合运用课堂书写段落样本、互联网搜索工具和反剽窃技术三结合手段遏制欺骗的源头。③


  对于中文论文的抄袭识别,存在更大的困难。汉语与英文不同,它以字为基本的书写单位,词与词之间没有明显的区分标记,因此,中文分词是汉语文档处理的基础。汉语文本抄袭识别系统首先需要分词作为其最基本的模块,因此,中文文本自动分词的好坏在一定程度上影响抄袭识别的准确性。同时计算机在自然语言理解方面有欠缺,而抄袭又不仅仅局限于照抄照搬式的,很难达到准确的抄袭识别。所以解决中文论文抄袭识别问题还不能全盘照搬国外技术。北京邮电大学张焕炯等用编码理论中汉明距离的计算公式计算文本相似度。中科院计算所以属性论为理论依据,计算向量之间的匹配距离,从而得到文本相似度。程玉柱等以汉字数学表达式理论为基础,将文本相似度计算转换为空间坐标系中向量夹角余弦的计算问题。西安交通大学的宋擒豹等人开发了CDSDG系统,采用基于词频统计的重叠度度量算法在不同粒度计算总体语义重叠度和结构重叠度。此算法不但能检测数字正文整体非法复制行为,而且还能检测诸如子集复制和移位局部复制等部分非法复制行为。晋耀红基于语境框架的相似度计算算法,考虑了对象之间的语义关系,从语义的角度给出文本之间的相似关系。大连理工大学的金博、史彦军、滕弘飞针对学术论文的特有结构,对学术论文进行篇章结构分析,再通过数字指纹和词频统计等方法计算出学术论文之间的相似度。张明辉针对重复网页问题提出了基于段落的分段签名近似镜像新算法。鲍军鹏等基于网格的文本复制检测系统提出了语义序列核方法的复制检测技术。金博、史彦军、滕弘飞少给出了一个基于语义理解的复制检测系统架构,其核心是以知网词语相似度计算为基础,并将应用范围扩大到段落。聂规划等基于本体的论文复制检测系统利用语义网本体技术构建论文本体和计算论文相似度。


  4抄袭检测系统的应用


  运用信息技术反剽窃是国内规范学术行为的有效措施之一。④国外从20世纪70年代初,就开始有研究防止程序抄袭的软件,但直至1991年第一个自然语言文本抄袭识别软件WordCheck才诞生,目前广泛应用并具有代表性的软件有很多。如论文作业抄袭检查平台TurnItIn,由iParadigms开发,系统采用基于数字指纹的抄袭检测方法,检测资源包括网络资源ProQuest论文库、论文作业库等。提供的英文反剽窃服务目前已经服务于包括美国加州大学伯克利分校、杜克大学、德国汉堡大学等在内的2500多所高校和科研机构,遍及九十多个国家,检索网页数量超66亿,用户达650万。据称,该网站目前已阻止了世界范围内将近600万的学生和教育者的剽窃行为,在使用的高峰期,每天可以收到2万篇论文。由CrossRef与iParadigms共同开发的抄袭检测平台CrossCheck,于2008年6月19日正式启动。CrossCheck的功能由两部分组成:一个基于全球学术出版物所组成的庞大数据库和一个基于网页的检验工具。这个基于网页的工具可用于编辑过程中去鉴别相似文档,生成对比报告,并通过分析去判断是否存有学术剽窃行为。截止2010年3月,正式会员包括Elsevier,Springer,牛津出版社,美国科学进步协会(AAAS),美国物理学会(APS),植物生物学会、《浙江大学学报》(英文版)等75家单位。


  国内已研发出两款较成熟的专门软件,且两款软件的核心都是基于数字指纹的抄袭检测方法进行文档相似性检测。一款是武汉大学沈阳副教授研制的“ROST反剽窃系统”软件,目前已在全国20多所高校院系推广和100多家期刊社使用。另一款是中国学术期刊电子杂志社与中国知网共同研制的“学术不端文献检测系统”,目前全国已有3000多家期刊和360所高校的研究生院免费使用这个软件。ROST系统和CNKI系统当前的一个主要差异在于其使用的参照文档数据库不同。


  “ROST反剽窃系统”软件通过将切割文档后混合引擎将其与188亿个网页和490万篇文献进行模糊匹配,标示出每个文本块与文献库中的某些文献的最大相似度。


  中国知网从2006年开始立项研发基于全文的“学术不端文献检测系统”,以《中国学术文献网络出版总库》为全文比对数据库,采用基于数字指纹的多阶快速检测方法,支持从词到句子、篇章级别的数字指纹,可对图、表等特殊检测对象进行基于标题、上下文、图表内容结合的相似性检测处理,还可根据特定的概念、观点、结论等内容进行智能信息分类处理,实现语义级别内容的检测。中国知网拥有文献量居国际国内同类产品之首,这为其进行检测提供了丰富的对比文献资源。科技期刊检测系统已经检测的10多万篇科技文献中,文字复制比超过30%的超过1万篇;学位论文检测系统检测5000篇学位论文,重合字数超过1万篇的论文约1000篇。


  目前Internet上还有一些提供文本抄袭检测服务的网站和工具。例如,Plagiarism、mydropbox、WordCheck等。针对中文的paperpass提供法学论文和教育社科类论文的免费检测服务;中国搜网站的文章照妖镜工具基于谷歌和百度提供免费的检测服务;拷克提供针对网页内容抄袭的免费检测服务。


  5抄袭检测技术存在的问题


  到目前为止,抄袭检测技术主要集中在文档复制检测上,针对图像、音频、视频的抄袭检测还有赖于基于内容的检索技术更进一步的发展。各系统集中解决在同一语种范围内的抄袭检测问题,对于中、外文间经过翻译后进行的抄袭行为还没有很好的检测解决方案。针对文档的抄袭研究已经取得了很多成果,但是针对论点(或创意)进行的抄袭一般难以直接断定出来,还需要进一步进行人工判定。另外,对已经明确在参考文献中列出的部分,有的检测系统在判定抄袭的时候并未进行特别处理。


  作者:赵春燕等

相关文章
学术参考网 · 手机版
https://m.lw881.com/
首页