首页

> 学术发表知识库

首页 学术发表知识库 问题

论文查重检测英文翻译吗

发布时间:

论文查重检测英文翻译吗

会查到,即使将英文文献翻译为中文,只要文献翻译部分在论文内容中,查重系统就会按照连续出现13个字符类似就会判为重复的标准计算文献重复率。

因为查重系统在识别引用参考文献时是根据文献内容是否和自己的数据库一致作为判断标准,如果将原文献进行翻译后,那么翻译后的内容和知网收录的文献内容不一致,因此查重系统不能判断这部分内容为引用文献部分,从而计算其重复率。

英文论文翻译成中文顺利通过论文查重方法?(拓展资料)

1、坚持原创性为原则。尽量多地参考外文文献,通过翻译的方式增加论文的“原创性”,另外在参考中文文献时,要注重对文章内容的理解,引用时用自己的语言表达出来。切记不要直接引用原文,那样查重会标红的。

另外,选择网络资源要慎重,知网查重系统也会进行网络搜索,特别是一些网络学术资料比较多的网站,在搜索资料时不要直接引用。

2、修改重合部分最好用的修改方法就是把内容转化成自己的语言表述出来。例如把关键词变换成同义词,长句变成短句,短句变成长句,改变下描述的方式,打乱抄袭的段落的顺序,多找些资料,

把英文翻译成中文,再翻译成英文,一定要英语专业性较好的才能用这个方法,语句不通顺就不好了。

3、修改时多加引号,尤其是真的要引用一些句子的时候一定要加citation,这样可以很好的帮你解决这一关句子被判为抄袭的好方法,所以记得要加citation。

4、关于引用,即使有时候做了正确的标注,也有可能计入重复率的,所以我们在引用的时候最好把引用部分转换成自己的语言去重新描述。

5、如果论文里的字数比学校的要求的字数多,那么可以适当的删除一些重复率过高的句子,这是直接降低重复率最好的方法。

这样也行,但是中文翻译才英文,然后再英文在翻译成中文,有很多字眼会发生变化或者句子会变得不顺,所以需要直接去认真去看,吧句子改通顺了就可以。

是可以的。如果文献是英文或其他语言,当翻译成中文时,数据库中没有类似的内容供比较。因此,该系统包含了你的英文文本抄袭,对于中文翻译内容并不是有效的检测。但是,如果像你这样的其他人翻译了这份文件并被包括在网上,请注意是否有人使用过抄袭的英语文章。一旦别人用过,那么当你查重的时候会出现剽窃他的文章,系统到底查不查的出来,我们要查证知道,并不意味着没有其他人翻译的可能性。

不会被检测出来

一般来说,这些部分不会被检测出来。使用中英文翻译的方法,这种方法可以有效地降低论文的重复率

论文中文变成英语查重会发现吗? 一般来说,这些部分不会被检测出来。 使用中英文翻译的方法,这种方法可以有效地降低论文的重复率,所以即使把中文变成英语也不会被检测出来。 一般来说,将论文中的中文翻译成英语基本上是英语论文,英语中的表现方式比中文的表现方式复杂,因此将中文翻译成英语很可能发生语病,所以在进行论文查重之前,必须检测论文是否有语病问题和逻辑关系问题。

论文检测查重翻译

会的。尤其是在关键词、关键数据是无法修改、挪移的情况下。文科类文章,可以用替换、诠释、转述等方法避免查重,但理科类就比较难了。因为理工科的数据是通过实验完成的,参数,变量,实验方法是固定的,很难移动修改,文科类,可以将自己的观点,思想在主要观点的思想基础上完善、添加,但总体结构无法改变,所以照样会被查重。翻译成英文,关键词还是那些,只不过转换了语言,依旧会被查重。况且现在国人英文水平很高。在云计算、大数据的时代,只有原创的才最有保障。

以前不会,但是现在随着查重网站和查重技术的升级,这种手段不一定会有效果。以前的部分中国留学生,因为欠缺写作能力,就会从知网上下载一些英文文章,然后用谷歌翻译或者有道翻译把文章从英文变成中文,或者找英语外国语专业的学生代为翻译,以前的这种方式确实是查不出来,但是随着这样的人越来越多,道高一尺魔高一丈,建议论文还是正常撰写,尽量不要使用一些小手段。尤其是在关键词、关键数据是无法修改、挪移的情况下。文科类文章,可以用替换、诠释、转述等方法避免查重,但理科类就比较难了。因为理工科的数据是通过实验完成的,参数,变量,实验方法是固定的,很难移动修改,文科类,可以将自己的观点,思想在主要观点的思想基础上完善、添加,但总体结构无法改变,所以照样会被查重。翻译成英文,关键词还是那些,只不过转换了语言,依旧会被查重。况且现在国人英文水平很高。在云计算、大数据的时代,只有原创的才最有保障。在论文写作过程中,如果参考的是英文或者是其他语种的文献,查重系统也已经收录了这篇英文文献,那么我们再将其翻译成中文嵌入到我们的论文进行查重时,对于翻译成中文的内容部分查重系统是无法检测出来的。但要注意的是,我们所参考这篇外文文献是否已经被别人借鉴过。如果他人也翻译过这篇文献,而且被知网查重系统收录了,那么你在进行论文查重时很有可能被判定为抄袭他人论文。

查重的话应该是可以过的,不过看你怎么翻译了,建议去找北京译顶科技那边人工翻译,让他们给你翻译,查重是肯定可以过的

如果导师比较nice,一开始论文方向、方法模型什么的安排的清楚,那么可能修改的过程比较困难。但如果像我导师一样,啥支持都不给,可能从0开始比较难吧……北京译顶科技价格比较合理,我就是在那边做的,没花多少钱知道更多可以加速去知道了解下。

英文论文翻译查重吗

根据学术堂的了解,英文论文和中文论文一样,在投稿时也是需要查重的,很多杂志社在收到作者文章后,首先要做的就是查重,如果论文重复率较高,可能直接会拒稿,因此作者想要顺利的发表英文论文都应该提前掌握论文查重率,并自行查重,提高投稿的成功率。在进行论文查重的时候,很多人在查重的部分存有疑惑,当然也有一点侥幸心理。比如英文论文会进行查重吗?答案是肯定的。以前可能由于检测工具的局限不会进行查重,不过现在paperpaper查重可以将论文进行翻译,之后加入文章中肯定会查重的。大家一般都是用知网检测中文汉语论文查重,可能很少有同学能用知网进行英文论文查重,用过知网论文查重检测英文的同学可能会发现,英文的查重结果显示重复率是比较低的,所以也不要惊慌!实际上,中国知网英文毕业论文查重和一般的知网论文检测中间各有不同,取决于数据库查询不一样。中英互译技术还是有一个桥梁的,虽然中国知网英文毕业论文查重和别的毕业论文查重测算标准上基本一致,都是要以持续十三个字符数的重复为测算关键。显而易见持续十三个左右的字符数重复,则中国知网会判断为该一部分为剽窃部分,在知网论文检测报告之中用到红色字体标明出去。作者发表英文论文,建议使用跟学校、期刊杂志社一样的系统进行检测修改,这样出来的结果才更为准确,并且查重前先要了解每个检测系统的属性、针对人群。自己检测和学校检测的时间间隔不要太长,系统的数据库总是在更新中,但自己多次查重是不会被系统收录的。在查重好英文论文后,下面就需要安排投稿事宜了,应该把握好论文投稿时间,每家英文杂志社都有固定的征稿、审核、发表时间,如不安排好时间,碰上投稿高峰期,很容易导致没有版面,无法发表的情况发生。英语论文不同于中文的论文,在字体结构上会有些许的变化与不同,在进行英语论文查重修改的时候,更是让人苦恼。这里分享一些英语论文查重修改技巧,希望对大家有所帮助。首先,变化措辞法论文或按照意思重写,或变换句式结构,更改主被动语态,或更换关键词,或通过增减。当然如果却属于经典名句,还是按照经典的方法加以引用。其次,减头去尾,中间换语序将论文,头尾换掉中间留下,留下的部分改成被动句,句式和结构就会发生改变,再自行修改下语病。然后,转换图片法将别人论文里的文字,截成图片,放在自己的论文里。因为paperpaper查重系统目前只能查文字,而不能查图片和表格。

不一定,如今大家最常用的是知网,大学本科论文、研究生论文和期刊论文均有相应的论文检测系统,知网收录的数据库十分庞大,已支持主流中英文及小语种的检测,突破了语言障碍。如果在正文中翻译或引用了外国文献,知网是会对其进行检测的。

知网检测报告中有一个“跨语言检测”,如果你把一篇外文文献完全翻译过来放进自己的论文里,知网也能检测到,所以可以借鉴但不要直接抄袭

如今大家最常用的是知网。大学本科论文、研究生论文和期刊论文均有相应的论文检测系统,知网收录的数据库十分庞大,已支持主流中英文及小语种的检测,突破了语言障碍。如果在正文中翻译或引用了外国文献,知网是会对其进行检测的。

哪怕找中文论文,也不要随便看个合适的文章就写,国内学术体系的风格是天下文章一大抄,不太在乎出处和查重,但是海外的学术体系可不惯你这毛病。

论文讲究原创性,不建议直接翻译他人成果的行为,英文论文固然难写,自己写成中文,翻译自己的文章,比翻译他人的成果要安全太多。

英文论文的重复类型

英文论文重复按照重复级别高低排序,主要包括想法重复、翻译式重复、改写式重复、伪装式重复和复制粘贴重复几种:

把中文论文翻译成英文会被查重的。

现在知网已经重新更新升级了,类似图片、翻译等都能被被查重,以前的大学生因为在写作能力欠缺,就会从知网上下载一些中文文章,然后用百度翻译或者有道翻译把文章从中文改成中文,或者找英语外国语专业的学生代为翻译,也可以请代写或者在淘宝上去买文章,避免查重。

以前确实查不出来,时代在进步,工具也在更新,所以不是原创的文章都有可能被查重。

文科类文章,可以用相近、类似的词语代替原有的意思,同时也可以将自己的观点,思想上完善、修改,但是整体的结构、脉络上还是有所相似,被查重的几率还是存在。

理科类的文章就比较困难,因为理工科的数据是通过实验分析、定量检测、模具分析等实验的结果来进行填补的,数据是不会人的,所以数值是不变的,翻译成英文,主心词汇还是那些,不过就是换了英文罢了,依旧会有被查重的可能。

论文的格式:

题目:应简洁、明确、有概括性,字数不宜超过20个字。

摘要:要有高度的概括力,语言精练、明确,中文摘要约100—200字。

关键词:从论文标题或正文中挑选3~5个最能表达主要内容的词作为关键词。

目录:写出目录,标明页码。

正文:论文正文字数一般应在1000字以上。主要说明论文写作的目的、现实意义、对所研究问题的认识,并提出论文的中心论点等。前言要写得简明扼要,篇幅不要太长。

以上内容参考:AEIC-论文的格式

要查重的!

最先人们来解读一下英语论文查重系统软件,我国知网查重入口作为现如今最权威性的论文检测系统软件,知网检测系统软件是逐渐升级的,现阶段的知网检测系统软件早已网站收录了大量英文数据信息,涉及到范畴包含本硕博,专本科,学术期刊等每一层面,还统一网站收录了好几个现阶段社会发展上网站收录量数最多的外文数据库,荷兰Springer、英国Taylor&Francis期刊数据库,因此现如今的知网检测系统软件是特别适合英语论文查重的。

大学毕业生不但要了解英文论文查重系统软件,英语论文查重标准都是大学毕业生务必要掌握的,大学毕业生能够跟踪知网检测系统软件的检验标准对毕业论文开展改动,保证避开一切学术造假个人行为。

知网检测系统软件会对提交的英文毕业论文进行自动检索论文格式,分段进行论文检测,在中国知网识别英文论文格式时,大学毕业生非常必须留意,知网检测系统软件是依照英文毕业论文的目录格式开展论文检测的,因此大学毕业生一定要确保论文格式是完成正确的。

论文语言检测英文翻译

可以,但是不建议,并不能完美躲避论文查重,反而费时费力。1、你需要阅读多篇论文,才能选取到自己需要的题材和思路,还要逐句翻译通读,才能确定是否可用,费时费力,效果还不好。2、如果运气好正好找到一篇可用的,那也只建议你借鉴原文思路,搜索中文材料自行进行写作,这样答辩老师即使读过原文也不会说你什么。最后想说论文还是好好写,写完后用PaperPP查重系统查一下,最后用知网定稿,心里有底。再根据查重报告进行修改,这样通过的可能性会大很多,只要用心,通过知网查重系统问题不大。

会的,但是不一定能查出重复,因为翻译过后的内容语义有可能会发生变化,查重系统即使翻译回来,翻译后的句子也不可能和原句一模一样,因此大概率是不会被检测出重复内容。但是翻译后的句子逻辑不通顺,如果论文中大量存在翻译的内容,即便能通过查重,在后续的答辩或者导师检查中也会暴露出问题,影响毕业,建议学生不要使用翻译的方法来降低重复率。

毕业论文查重把知网上的英文文章翻译成中文还会重查吗?中国知网早就已经添加了中英文互译检测。在报告里面有一项叫做“跨语言检测”的结果,所以不要觉得可以!

是可以的。如果文献是英文或其他语言,当翻译成中文时,数据库中没有类似的内容供比较。因此,该系统包含了你的英文文本抄袭,对于中文翻译内容并不是有效的检测。但是,如果像你这样的其他人翻译了这份文件并被包括在网上,请注意是否有人使用过抄袭的英语文章。一旦别人用过,那么当你查重的时候会出现剽窃他的文章,系统到底查不查的出来,我们要查证知道,并不意味着没有其他人翻译的可能性。

目标检测论文中英翻译

The first day of school our professor

原文: Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems. MIT Press, 2015:91-99.

译文参考: Faster R-CNN论文翻译——中英文对照

目标检测网络依赖于Region Proposal算法假设目标位置,通过引入Region Proposal(网络RPN),与检测网络共享全图像卷积特征,使得Region Proposals的成本近乎为零。

如下图所示,图a采用的是图像金子塔(Pyramids Of Images)方法;图b采用的是滤波器金字塔(Pyramids Of Filters)方法;图c引入“锚”盒("Anchor" Boxes)这一概念作为多尺度和长宽比的参考,其可看作回归参考金字塔(Pyramids Of Regression References)方法,该方法可避免枚举图像、多尺度滤波器和长宽比。

为了将RPN与Fast R-CNN相结合,本文提出了一种新的训练策略:在region proposal任务和目标检测任务之间交替进行微调,同时保持proposals的固定。该方案能够快速收敛,两个任务之间并共享具有卷积特征的统一网络。

Faster R-CNN由两个模块组成:

RPN以任意大小的图像作为输入,输出一组矩形的目标proposals,每个proposals都有一个目标得分。在实验中,假设两个网络(RPN和Fast R-CNN)共享一组共同的卷积层,并研究了具有5个共享卷积层的 Zeiler和Fergus模型(ZF) ,以及具有13个共享卷积层的 Simonyan和Zisserman模型(VGG-16) 。

为了生成region proposals,对最后的共享卷积层输出的卷积特征图谱使用一个小网络。该网络以卷积特征图谱的 空间窗口作为输入,且每个滑动窗口映射到一个低维特征,所有空间位置共享全连接层。

该低维特征作为两个子全连接层———边界框回归层(box-regression layer, reg)和边界框分类层(box-classification layer, cls)的输入,其卷积核均为 大小。

对于每个滑动窗口位置,可同时预测多个region proposals,最大region proposals数为 。因此,reg层具有 个输出,用于编码k个边界框的坐标;cls层具有 个得分,用于估计每个proposal是目标或不是目标的概率。

Anchors:k个proposals相对于 个参考框是参数化形式。

anchor位于滑动窗口的中心,并与尺度和长宽比相关。默认情况,使用3个尺度和3个长宽比,在每个滑动位置产生 个anchors。对于大小为 的卷积特征图谱,共产生 个anchors。

基于anchor的方法建立在anchors金字塔(pyramid of anchors)上,参考多尺度和长宽比的anchor盒来分类和回归边界框,用于解决多尺度和多长宽比问题。

为了训练RPN,为每个anchor分配一个二值标签。

正标签:

负标签:IoU值低于0.3。

对Fast R-CNN中的多任务损失进行最小化。图像的损失函数为:

其中, 是mini-batch数据中anchor的索引, 是第i个anchor作为目标的预测概率。若anchor为正标签,真值 ;反之, 。 是表示预测边界框4个参数化坐标的向量, 是正真值框的向量。分类损失 为两个类别的对数损失;回归损失 ,其中 为在 Fast R-CNN 一文中定义的鲁棒损失函数(平滑 )。 表示回归损失仅对正anchor激活,否则被禁用( )。cls和rge层的输出分别由 和 组成。该两项使用 和 进行标准化,并使用平衡参数 加权处理。等式中cls项根据mini-batch的大小进行归一化,而reg项根据anchor位置的数据进行归一化。默认情况下, 从而使得cls和reg项的权重大致相等。

对于边界框回归,采用 Rich feature hierarchies for accurate object detection and semantic segmentation 一文中的4个坐标参数化方法:

其中, 和 表示边界框的中心坐标及其宽和高。变量 和 分别表示预测边界框、anchor和真值框。

采样策略:以图像为中心。

在图像中随机采样256个anchors,用于mini-batch数据中损失函数的计算,正负样本的比例为 。

从标准差为0.01的零均值高斯分布中提取权重来随机初始化所有的新网络层,而共享卷积层通过预训练ImageNet分类模型来初始化。同时,调整ZF网络的所有网络层,以及VGG网络的conv3_1之上的网络,用于节省内存的使用。对于60k的mini-batch数据,学习率为0.001;对于PASCAL VOC数据集中的20k的mini-bacth数据,学习率为0.0001。随机梯度下降算法的动量设置为0.9,重量衰减率为0.0005。

训练具有共享特征网络的三个方法:

版权印版权标识

场景文本检测器由文本检测和识别模块组成。已经进行了许多研究,以将这些模块统一为端到端的可训练模型,以实现更好的性能。典型的结构将检测和识别模块放置在单独的分支中,并且RoI pooling通常用于让分支共享视觉特征。然而,当采用识别器时,仍然有机会在模块之间建立更互补的连接,该识别器使用基于注意力的解码器和检测器来表示字符区域的空间信息。这是可能的,因为两个模块共享一个共同的子任务,该任务将查找字符区域的位置。基于这些见解,我们构建了紧密耦合的单管道模型。通过使用检测输出作为识别器输入,并在检测阶段传播识别损失来形成此结构。字符得分图的使用有助于识别器更好地关注字符中心点,并且识别损失传播到检测器模块会增强字符区域的定位。此外,增强的共享阶段允许对任意形状的文本区域进行特征校正和边界定位。大量实验证明了公开提供的直线和曲线基准数据集的最新性能。

场景文本定位,包括文本检测和识别,由于在即时翻译,图像检索和场景解析中的各种应用,最近引起了广泛的关注。尽管现有的文本检测器和识别器在水平文本上很有效,但是在场景图像中发现弯曲的文本实例时,仍然是一个挑战。

为了在图像中发现弯曲的文本,一种经典的方法是将现有的检测和识别模型进行级联,以管理每一侧的文本实例。检测器[32、31、2]尝试通过应用复杂的后处理技术来捕获弯曲文本的几何属性,而识别器则应用多向编码[6]或采用修正模块[37、46、11]来增强弯曲文本上识别器的准确性。

随着深度学习的发展,已经进行了将检测器和识别器组合成可共同训练的端到端网络的研究[14,29]。拥有统一的模型不仅可以提高模型的尺寸效率和速度,还可以帮助模型学习共享功能,从而提高整体性能。为了从该属性中受益,还尝试使用端到端模型[32、34、10、44]处理弯曲文本实例。但是,大多数现有的工作仅采用RoI pooling 在检测和识别分支之间共享底层特征。在训练阶段,不是训练整个网络,而是使用检测和识别损失来训练共享特征层。

如图1所示,我们提出了一种新颖的端到端字符区域注意文本定位模型,称为CRAFTS。而不是将检测和识别模块隔离在两个单独的分支中,我们通过在模块之间建立互补连接来建立一个单一的pipline。我们观察到,使用基于注意力的解码器的识别器[1]和封装字符空间信息的检测器[2]共享一个公用的子任务,该子任务用于定位字符区域。通过将两个模块紧密集成,检测级的输出可帮助识别器更好地识别字符中心点,并且从识别器传播到检测器级的损失会增强字符区域的定位。而且,网络能够使在公共子任务中使用的特征表示的质量最大化。据我们所知,这是构建紧密耦合损失的首个端到端工作。 我们的贡献总结如下: (1)我们提出了一种可以检测和识别任意形状的文本的端到端网络。 (2)通过利用来自修正和识别模块上检测器的空间字符信息,我们在模块之间构造互补关系。 (3)通过在整个网络的所有特征中传播识别损失来建立单个pipline。 (4)我们在包含大量水平,弯曲和多语言文本的IC13,IC15,IC19-MLT和TotalText [20、19、33、7]数据集中实现了最先进的性能。

文本检测和识别方法 检测网络使用基于回归的[16、24、25、48]或基于分割的[9、31、43、45]方法来生成文本边界框。诸如[17,26,47]之类的一些最新方法将Mask-RCNN [13]作为基础网络,并通过采用多任务学习从回归和分割方法中获得了优势。就文本检测的单元而言,所有方法还可以依赖单词级别或字符级别[16,2]预测的使用进行子分类。

文本识别器通常采用基于CNN的特征提取器和基于RNN的序列生成器,并按其序列生成器进行分类。连接主义的时间分类(CTC)[35]和基于注意力的顺序解码器[21、36]。 检测模型提供了文本区域的信息,但是对于识别器而言,要提取任意形状的文本中的有用信息仍然是一个挑战。 为了帮助识别网络处理不规则文本,一些研究[36、28、37]利用 空间变换器网络(STN) [18]。而且,论文[11,46]通过迭代执行修正方法进一步扩展了STN的使用。这些研究表明,递归运行STN有助于识别器提取极端弯曲文本中的有用特征。在[27]中,提出了循环RoIWarp层, 在识别单个字符之前对其进行裁剪。这项工作证明,找到字符区域的任务与基于注意力的解码器中使用的注意力机制密切相关。

构造文本定位模型的一种方法是依次放置检测和识别网络。众所周知的两阶段结构将TextBox ++ [24]检测器和CRNN [35]识别器耦合在一起。简单来说,该方法取得了良好的效果。

端到端的使用基于RNN的识别器 EAA [14]和FOTS [29]是基于EAST检测器[49]的端到端模型。这两个网络之间的区别在于识别器。 FOTS模型使用CTC解码器[35],而EAA模型使用注意力解码器[36]。两项工作都实现了仿射变换层来合并共享功能。提出的仿射变换在水平文本上效果很好,但在处理任意形状的文本时显示出局限性。 TextNet [42]提出了一种在特征池化层中具有透视RoI变换的空间感知文本识别器, 网络保留RNN层以识别2D特征图中的文本序列,但是由于缺乏表现力的四边形,在检测弯曲文本时,网络仍然显示出局限性。

Qin等[34]提出了一种基于Mask-RCNN [13]的端到端网络。给定box proposals,从共享层合并特征,并使用ROI遮罩层过滤掉背景杂波。提出的方法通过确保注意力仅在文本区域中来提高其性能。Busta等提出了Deep TextSpotter [3]网络,并在E2E-MLT [4]中扩展了他们的工作。该网络由基于FPN的检测器和基于CTC的识别器组成。该模型以端到端的方式预测多种语言。

端到端的使用基于CNN的识别器 在处理任意形状的文本时,大多数基于CNN的模型在识别字符级文本都具有优势。 MaskTextSpotter [32]是使用分割方法识别文本的模型。尽管它在检测和识别单个字符方面具有优势, 但由于通常不会在公共数据集中提供字符级别的注释,因此很难训练网络。 CharNet [44]是另一种基于分割的方法,可以进行字符级预测。该模型以弱监督的方式进行训练,以克服缺乏字符级注释的问题。在训练期间,该方法执行迭代字符检测以创建伪ground-truths。

尽管基于分割的识别器已经取得了巨大的成功,但是当目标字符的数量增加时,该方法会受到影响。随着字符集数量的增加,基于分割的模型需要更多的输出通道,这增加了内存需求。journal版本的MaskTextSpotter [23]扩展了字符集以处理多种语言,但是作者添加了基于RNN的解码器,而不是使用他们最初提出的基于CNN的识别器。 基于分割的识别器的另一个限制是识别分支中缺少上下文信息。 由于缺少像RNN这样的顺序建模,在嘈杂的图像下,模型的准确性下降。

TextDragon [10]是另一种基于分割的方法,用于定位和识别文本实例。但是, 不能保证预测的字符段会覆盖单个字符区域。为了解决该问题,该模型合并了CTC来删除重叠字符。 该网络显示出良好的检测性能,但是由于缺少顺序建模而在识别器中显示出局限性。

由于CRAFT检测器[2]具有表示字符区域语义信息的能力,因此被选作基础网络。 CRAFT网络的输出表示字符区域以及它们之间的连接的中心概率。由于两个模块的目标是定位字符的中心位置,我们设想此字符居中信息可用于支持识别器中的注意模块。 在这项工作中,我们对原始的CRAFT模型进行了三处更改;骨干替换,连接表示和方向估计。

骨干置换 最近的研究表明,使用ResNet50可以捕获检测器和识别器定义的明确的特征表示[30,1]。因此,我们将骨干网络由VGG-16 [40]换成ResNet50 [15]。

连接表示 垂直文本在拉丁文本中并不常见,但是在东亚语言(例如中文,日语和韩语)中经常出现。在这项工作中,使用二进制中心线连接顺序字符区域。进行此改变的原因是,在垂直文本上使用原始的亲和力图经常会产生不适定的透视变换,从而生成无效的框坐标。为了生成 ground truth连接图,在相邻字符之间绘制一条粗细为t的线段。这里,t = max((d 1 + d 2)/ 2 *α,1),其中d 1和d 2是相邻字符盒的对角线长度,α是缩放系数。使用该方程式可使中心线的宽度与字符的大小成比例。我们在实现中将α设置为0.1。

方向估计 重要的是获取文本框的正确方向,因为识别阶段需要定义明确的框坐标才能正确识别文本。为此,我们在检测阶段增加了两个通道的输出,通道用于预测字符沿x轴和y轴的角度。为了生成定向图的 ground truth.

共享阶段包括两个模块:文本纠正模块和字符区域注意力( character region attention: CRA)模块。为了纠正任意形状的文本区域,使用了薄板样条(thin-plate spline:TPS)[37]转换。受[46]的启发,我们的纠正模块结合了迭代式TPS,以更好地表示文本区域。通过有吸引力地更新控制点,可以改善图像中文本的弯曲几何形状。 通过实证研究,我们发现三个TPS迭代足以校正。

典型的TPS模块将单词图像作为输入,但是我们提供了字符区域图和连接图,因为它们封装了文本区域的几何信息。我们使用二十个控制点来紧密覆盖弯曲的文本区域。为了将这些控制点用作检测结果,将它们转换为原始输入图像坐标。我们可以选择执行2D多项式拟合以平滑边界多边形。迭代TPS和最终平滑多边形输出的示例如图4所示。

识别阶段的模块是根据[1]中报告的结果形成的。 识别阶段包含三个组件:特征提取,序列建模和预测。 由于特征提取模块采用高级语义特征作为输入,因此它比单独的识别器更轻便。

表1中显示了特征提取模块的详细架构。提取特征后,将双向LSTM应用于序列建模,然后基于注意力的解码器进行最终文本预测。

在每个时间步,基于注意力的识别器都会通过屏蔽对特征的注意力输出来解码文本信息。 尽管注意力模块在大多数情况下都能很好地工作,但是当注意点未对齐或消失时,它无法预测字符[5,14]。 图5显示了使用CRA模块的效果。 适当放置的注意点可以进行可靠的文本预测。

用于训练的最终损失L由检测损失和识别损失组成,取L = Ldet + Lreg。 识别损失的总体流程如图6所示。损失在识别阶段流经权重,并通过字符区域注意模块传播到检测阶段。 另一方面,检测损失被用作中间损失,因此使用检测和识别损失来更新检测阶段之前的权重。

English datasets IC13 [20]数据集由高分辨率图像组成,229张图像用于训练和233张图像用于测试。 矩形框用于注释单词级文本实例。 IC15 [20]包含1000个训练图像和500个测试图像。 四边形框用于注释单词级文本实例。 TotalText [7] 拥有1255个训练图像和300张测试图像。与IC13和IC15数据集不同,它包含弯曲的文本实例,并使用多边形点进行注释。

Multi-language dataset IC19 [33]数据集包含10,000个训练和10,000个测试图像。 数据集包含7种不同语言的文本,并使用四边形点进行注释。

我们联合训练CRAFTS模型中的检测器和识别器。为了训练检测阶段,我们遵循[2]中描述的弱监督训练方法。通过在每个图像中进行批随机采样的裁剪单词特征来计算识别损失。每个图像的最大单词数设置为16,以防止出现内存不足错误。检测器中的数据增强应用了诸如裁剪,旋转和颜色变化之类的技术。对于识别器来说,ground truth框的角点在框的较短长度的0%到10%之间的范围内受到干扰。

该模型首先在SynthText数据集[12]上进行了50k迭代训练,然后我们进一步在目标数据集上训练了网络。使用Adam优化器,并应用在线困难样本挖掘On-line Hard Negative Mining(OHEM) [39]来在检测损失中强制使用正负像素的1:3比例。微调模型时,SynthText数据集以1:5的比例混合。我们采用94个字符来覆盖字母,数字和特殊字符,对于多语言数据集则采用4267个字符。

水平数据集(IC13,IC15) 为了达到IC13基准,我们采用在SynthText数据集上训练的模型,并在IC13和IC19数据集进行微调。在;推理过程中,我们将输入的较长边调整为1280。 结果表明,与以前的最新技术相比,性能显着提高。

然后在IC15数据集上对在IC13数据集上训练的模型进行微调。在评估过程中,模型的输入大小设置为2560x1440。请注意,我们在没有通用词汇集的情况下执行通用评估。表2中列出了IC13和IC15数据集的定量结果。

使用热图来说明字符区域图和连接图,并且在HSV颜色空间中可视化了加权的像素角度值。 如图所示,网络成功定位了多边形区域并识别了弯曲文本区域中的字符。左上角的两个图显示成功识别了完全旋转和高度弯曲的文本实例。

由字符区域注意辅助的注意力 在本节中,我们将通过训练没有CRA的单独网络来研究字符区域注意(CRA)如何影响识别器的性能。

表5显示了在基准数据集上使用CRA的效果。没有CRA,我们观察到在所有数据集上性能均下降。特别是在远景数据集(IC15)和弯曲数据集(TotalText)上,我们观察到与水平数据集(IC13)相比,差距更大。这意味着在处理不规则文本时,送入字符注意力信息可以提高识别器的性能。(?表格中的实验数据是对远景文本更有效,不知道这个结论如何得出来的?)

方向估计的重要性 方向估计很重要,因为场景文本图像中有许多多方向文本。我们的逐像素平均方案对于识别器接收定义良好的特征非常有用。当不使用方向信息时,我们比较模型的结果。在IC15数据集上,性能从74.9%下降到74.1%(-0.8%),在TotalText数据集上,h-mean值从78.7%下降到77.5%(-1.2%)。 结果表明,使用正确的角度信息可以提高旋转文本的性能。

推理速度 由于推理速度随输入图像大小而变化,因此我们在不同的输入分辨率下测量FPS,每个分辨率的较长边分别为960、1280、1600和2560。测试结果得出的FPS分别为9.9、8.3、6.8和5.4。对于所有实验,我们使用Nvidia P40 GPU和Intel®Xeon®CPU。与基于VGG的CRAFT检测器的8.6 FPS [2]相比,基于ResNet的CRAFTS网络在相同大小的输入上可获得更高的FPS。而且,直接使用来自修正模块的控制点可以减轻对多边形生成进行后期处理的需要。

粒度差异问题 我们假设 ground-truth与预测框之间的粒度差异导致IC15数据集的检测性能相对较低。 字符级分割方法倾向于基于空间和颜色提示来概括字符连接性,而不是捕获单词实例的全部特征。 因此,输出不遵循基准测试要求的框的注释样式。图9显示了IC15数据集中的失败案例,这证明了当我们观察到可接受的定性结果时,检测结果被标记为不正确。

在本文中,我们提出了一种将检测和识别模块紧密耦合的端到端可训练单管道模型。 共享阶段中的字符区域注意力充分利用了字符区域图,以帮助识别器纠正和更好地参与文本区域。 此外,我们设计了识别损失通过在检测阶段传播并增强了检测器的字符定位能力。 此外,共享阶段的修正模块可以对弯曲的文本进行精细定位,并且无需开发手工后期处理。 实验结果验证了CRAFTS在各种数据集上的最新性能。

相关百科

热门百科

首页
发表服务