首页

> 学术发表知识库

首页 学术发表知识库 问题

论文检测查重翻译

发布时间:

论文检测查重翻译

会的。尤其是在关键词、关键数据是无法修改、挪移的情况下。文科类文章,可以用替换、诠释、转述等方法避免查重,但理科类就比较难了。因为理工科的数据是通过实验完成的,参数,变量,实验方法是固定的,很难移动修改,文科类,可以将自己的观点,思想在主要观点的思想基础上完善、添加,但总体结构无法改变,所以照样会被查重。翻译成英文,关键词还是那些,只不过转换了语言,依旧会被查重。况且现在国人英文水平很高。在云计算、大数据的时代,只有原创的才最有保障。

以前不会,但是现在随着查重网站和查重技术的升级,这种手段不一定会有效果。以前的部分中国留学生,因为欠缺写作能力,就会从知网上下载一些英文文章,然后用谷歌翻译或者有道翻译把文章从英文变成中文,或者找英语外国语专业的学生代为翻译,以前的这种方式确实是查不出来,但是随着这样的人越来越多,道高一尺魔高一丈,建议论文还是正常撰写,尽量不要使用一些小手段。尤其是在关键词、关键数据是无法修改、挪移的情况下。文科类文章,可以用替换、诠释、转述等方法避免查重,但理科类就比较难了。因为理工科的数据是通过实验完成的,参数,变量,实验方法是固定的,很难移动修改,文科类,可以将自己的观点,思想在主要观点的思想基础上完善、添加,但总体结构无法改变,所以照样会被查重。翻译成英文,关键词还是那些,只不过转换了语言,依旧会被查重。况且现在国人英文水平很高。在云计算、大数据的时代,只有原创的才最有保障。在论文写作过程中,如果参考的是英文或者是其他语种的文献,查重系统也已经收录了这篇英文文献,那么我们再将其翻译成中文嵌入到我们的论文进行查重时,对于翻译成中文的内容部分查重系统是无法检测出来的。但要注意的是,我们所参考这篇外文文献是否已经被别人借鉴过。如果他人也翻译过这篇文献,而且被知网查重系统收录了,那么你在进行论文查重时很有可能被判定为抄袭他人论文。

查重的话应该是可以过的,不过看你怎么翻译了,建议去找北京译顶科技那边人工翻译,让他们给你翻译,查重是肯定可以过的

如果导师比较nice,一开始论文方向、方法模型什么的安排的清楚,那么可能修改的过程比较困难。但如果像我导师一样,啥支持都不给,可能从0开始比较难吧……北京译顶科技价格比较合理,我就是在那边做的,没花多少钱知道更多可以加速去知道了解下。

论文查重检测英文翻译吗

会查到,即使将英文文献翻译为中文,只要文献翻译部分在论文内容中,查重系统就会按照连续出现13个字符类似就会判为重复的标准计算文献重复率。

因为查重系统在识别引用参考文献时是根据文献内容是否和自己的数据库一致作为判断标准,如果将原文献进行翻译后,那么翻译后的内容和知网收录的文献内容不一致,因此查重系统不能判断这部分内容为引用文献部分,从而计算其重复率。

英文论文翻译成中文顺利通过论文查重方法?(拓展资料)

1、坚持原创性为原则。尽量多地参考外文文献,通过翻译的方式增加论文的“原创性”,另外在参考中文文献时,要注重对文章内容的理解,引用时用自己的语言表达出来。切记不要直接引用原文,那样查重会标红的。

另外,选择网络资源要慎重,知网查重系统也会进行网络搜索,特别是一些网络学术资料比较多的网站,在搜索资料时不要直接引用。

2、修改重合部分最好用的修改方法就是把内容转化成自己的语言表述出来。例如把关键词变换成同义词,长句变成短句,短句变成长句,改变下描述的方式,打乱抄袭的段落的顺序,多找些资料,

把英文翻译成中文,再翻译成英文,一定要英语专业性较好的才能用这个方法,语句不通顺就不好了。

3、修改时多加引号,尤其是真的要引用一些句子的时候一定要加citation,这样可以很好的帮你解决这一关句子被判为抄袭的好方法,所以记得要加citation。

4、关于引用,即使有时候做了正确的标注,也有可能计入重复率的,所以我们在引用的时候最好把引用部分转换成自己的语言去重新描述。

5、如果论文里的字数比学校的要求的字数多,那么可以适当的删除一些重复率过高的句子,这是直接降低重复率最好的方法。

这样也行,但是中文翻译才英文,然后再英文在翻译成中文,有很多字眼会发生变化或者句子会变得不顺,所以需要直接去认真去看,吧句子改通顺了就可以。

是可以的。如果文献是英文或其他语言,当翻译成中文时,数据库中没有类似的内容供比较。因此,该系统包含了你的英文文本抄袭,对于中文翻译内容并不是有效的检测。但是,如果像你这样的其他人翻译了这份文件并被包括在网上,请注意是否有人使用过抄袭的英语文章。一旦别人用过,那么当你查重的时候会出现剽窃他的文章,系统到底查不查的出来,我们要查证知道,并不意味着没有其他人翻译的可能性。

不会被检测出来

一般来说,这些部分不会被检测出来。使用中英文翻译的方法,这种方法可以有效地降低论文的重复率

论文中文变成英语查重会发现吗? 一般来说,这些部分不会被检测出来。 使用中英文翻译的方法,这种方法可以有效地降低论文的重复率,所以即使把中文变成英语也不会被检测出来。 一般来说,将论文中的中文翻译成英语基本上是英语论文,英语中的表现方式比中文的表现方式复杂,因此将中文翻译成英语很可能发生语病,所以在进行论文查重之前,必须检测论文是否有语病问题和逻辑关系问题。

论文检测谷歌翻译

工具不需要太多,有一款得心应手的足够。如果涉及到专业的术语,软件就不行了,可以找北京译顶科技。

1、全文翻译 按照PDF的原始排版模式进行翻译,翻译成中文后可以另存为PDF。缺点是它是按行翻译的,段落内的语义联系欠佳,有些地方翻译不够准确。2、正文翻译 通过算法,从PDF文件中提取出正文(Introduction和Reference之间的内容),按照段落翻译,虽然没有排版了,但翻译更准确了。中文翻译结果也可以另存为PDF。3、段落翻译 翻译用户手工选中的段落,翻译准确度最高,接近人类手工翻译。4、单词翻译 有词义、常用词组、词形变化、发音、同义词、反义词等。英文写作应该是让万千人头疼的一件事情。和中文一样,写完文章都要检查一下有没有错别字和语句不通顺的地方,不同的是,检查非母语写作中的错误会困难得多。这时你可能会想起 Word 的拼写检查,但稍微难的错误它就已经没法发现了。当你写长文,尤其是论文写到头昏脑胀的时候,如果没有工具协助检查,在几千字的文章里面,你可能很难快速地发现错误,这时一款顺手的语法检查应用可以帮你迅速脱离原始人般的纠错过程。GrammarlyGrammarly是于2009年发布,当前使用最普遍和准确的英语语法检查(grammar checker)、拼写、校对(proofreading)检查和抄袭(plagiarism)检测软件工具,其中Grammarly校对检查超过250条语法规则。而且无论使用什么方式写作-社交媒体、电子邮件、Microsoft Word等等,Grammarly都能对整个英文写作过程提供实时检查。对于查出来的拼写和语法错误,Grammarly用highlight红色、黄色下划线标识出来,然后将鼠标悬停在指定的单词或短语上,可以直接修改错误或了解该处错误的详细说明。Grammarly用其自有算法来标记文本中的各种潜在问题,同时根据上下文给出各种错误的自动修改建议,其人工智能有效的提高了文字沟通。除了检查上下文拼写错误、不规则动词错误之外,还包括常见的语法错误,例如主语 动词使用以及修饰符放置。同时,Grammarly还提供同义词建议,使写作更具可读性和精确性。Grammarly可以我们放心地进行英文写作。目前,超过1000万全球用户正在使用此工具来修复其社交媒体帖子、电子邮件和文章。此外,它还通过识别和纠正上下文错误来增加英文词汇量,该工具有助于改善写作风格,使书面文字更具吸引力和有效性。1、检查英文语法Grammarly最首要的功能就是检查英文语法,例如,不规则动词错误,以及常见的语法错误:主语 、谓语的应用,正确的动词时态、修饰符的位置等。Grammarly还提供同义词建议,使写作更具可读性和精确性。2、英语单词拼写错误检查英语单词出现拼写错误,这是写作者最常出现的问题,也是最基本的问题。不管你的英语文写作水平如何,这个错误是最不应该出现的,在这方面,Grammarly是一个强大的拼写检查工具,要比Microsoft Word中内置的拼写检查更全面。3、英文内容剽窃检查网络与现实世界抄袭、剽窃现象,比比皆是。谁也不想自己辛辛苦苦的写作成为别人不劳而获的成果。Grammarly在这方面的Plagiarism检查功能也很不错,可以将文本与网络上的数十亿页面进行比对,这有两个方面:一是,别人是否抄袭了你的内容;二是,你的写作内容是否也同样存在抄袭。4、英文写作风格检查Grammarly还会检查文章是否存在写作风格中的任何错误,其中包括使用被动时态等,这样有助于避免词语和句子的重复和冗长,以便可以根据特定受众调整自己的英文写作风格。5、句子结构检查在英文写作时,因为中英文语言、甚至思维模式的差异,很难形成正确的英语句子结构。虽然有时候别人能大致看明白你想说什么意思,但是句子结构、语法是错误的,这样会非常不严谨,Grammarly可以有效地解决这个问题。6、标点符号检查Grammarly帮助你在完美的地方给出正确的标点符号,这样文章给读者看起来很专业的样子。

论文查重可以根据需求选择自己需要的查重系统,比如初稿用一些免费的查重软件,定稿了再用和学校一样的查重系统!论文查重的目的是查出抄袭内容,进行修改论文,论文降重更重要。所有可以分成两步进行,论文查重,然后是论文降重。

一、论文查重方法

Paperbye目前分两个版本,一个是标准版(不限制篇数免费版),一个是旗舰版(收费版),标准版8个比对数据库,旗舰版12比对数据库。

使用方法如下:

第一步,打开paperbye官网用微信扫码关注公众号登录

第二步,登录成功后,初稿选择免费标准版本,或旗舰版,上传需要查重的论文;

第三步,提交成功后,点击“查看检测报告”即可;

第四步,如果需要进行论文在线改重或机器降重,可以在查看报告列表查看

根据自己需求,在线改重,如果报告比例较高,自己进行修改的话,可以在报告里一边修改一边查重,及时反馈修改结果;机器改重,就是软件辅助自动修改文章降重,可以辅助自己提供论文修改效率。

二、人工降重方法:

1、变换表达。先理解原句的意思,用自己的话复述一遍。

2、词语替换,在变换表达方式的基础上结合同义词替换,效果更好。

3、变换句式,通过拆分合并语句的方式进行修改,把长句变短句,短句变长句。

4、图片法,针对专业性太强不好修改的语句或段落(比如计算机代码,法律条款,原理理论等),可以适当把文字写在图片上展现,但是这种方法不宜用的太多。知网查重系统不太合适,可以识别图片,公式,表格,其他查重系统可以适当使用。

5、翻译法,用百度翻译或谷歌翻译,中文翻译成英文,英文翻译成日语或其他语种,再从日语翻译成中文,这种看似不错,还得需要人工润色,感觉效果还是鸡肋,适当用用也无妨。

美赛翻译论文可以用谷歌翻译,百度翻译,也可以下知云翻译,重点是要保证翻译内容的信达雅。

论文语言检测英文翻译

可以,但是不建议,并不能完美躲避论文查重,反而费时费力。1、你需要阅读多篇论文,才能选取到自己需要的题材和思路,还要逐句翻译通读,才能确定是否可用,费时费力,效果还不好。2、如果运气好正好找到一篇可用的,那也只建议你借鉴原文思路,搜索中文材料自行进行写作,这样答辩老师即使读过原文也不会说你什么。最后想说论文还是好好写,写完后用PaperPP查重系统查一下,最后用知网定稿,心里有底。再根据查重报告进行修改,这样通过的可能性会大很多,只要用心,通过知网查重系统问题不大。

会的,但是不一定能查出重复,因为翻译过后的内容语义有可能会发生变化,查重系统即使翻译回来,翻译后的句子也不可能和原句一模一样,因此大概率是不会被检测出重复内容。但是翻译后的句子逻辑不通顺,如果论文中大量存在翻译的内容,即便能通过查重,在后续的答辩或者导师检查中也会暴露出问题,影响毕业,建议学生不要使用翻译的方法来降低重复率。

毕业论文查重把知网上的英文文章翻译成中文还会重查吗?中国知网早就已经添加了中英文互译检测。在报告里面有一项叫做“跨语言检测”的结果,所以不要觉得可以!

是可以的。如果文献是英文或其他语言,当翻译成中文时,数据库中没有类似的内容供比较。因此,该系统包含了你的英文文本抄袭,对于中文翻译内容并不是有效的检测。但是,如果像你这样的其他人翻译了这份文件并被包括在网上,请注意是否有人使用过抄袭的英语文章。一旦别人用过,那么当你查重的时候会出现剽窃他的文章,系统到底查不查的出来,我们要查证知道,并不意味着没有其他人翻译的可能性。

目标检测论文中英翻译

The first day of school our professor

原文: Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems. MIT Press, 2015:91-99.

译文参考: Faster R-CNN论文翻译——中英文对照

目标检测网络依赖于Region Proposal算法假设目标位置,通过引入Region Proposal(网络RPN),与检测网络共享全图像卷积特征,使得Region Proposals的成本近乎为零。

如下图所示,图a采用的是图像金子塔(Pyramids Of Images)方法;图b采用的是滤波器金字塔(Pyramids Of Filters)方法;图c引入“锚”盒("Anchor" Boxes)这一概念作为多尺度和长宽比的参考,其可看作回归参考金字塔(Pyramids Of Regression References)方法,该方法可避免枚举图像、多尺度滤波器和长宽比。

为了将RPN与Fast R-CNN相结合,本文提出了一种新的训练策略:在region proposal任务和目标检测任务之间交替进行微调,同时保持proposals的固定。该方案能够快速收敛,两个任务之间并共享具有卷积特征的统一网络。

Faster R-CNN由两个模块组成:

RPN以任意大小的图像作为输入,输出一组矩形的目标proposals,每个proposals都有一个目标得分。在实验中,假设两个网络(RPN和Fast R-CNN)共享一组共同的卷积层,并研究了具有5个共享卷积层的 Zeiler和Fergus模型(ZF) ,以及具有13个共享卷积层的 Simonyan和Zisserman模型(VGG-16) 。

为了生成region proposals,对最后的共享卷积层输出的卷积特征图谱使用一个小网络。该网络以卷积特征图谱的 空间窗口作为输入,且每个滑动窗口映射到一个低维特征,所有空间位置共享全连接层。

该低维特征作为两个子全连接层———边界框回归层(box-regression layer, reg)和边界框分类层(box-classification layer, cls)的输入,其卷积核均为 大小。

对于每个滑动窗口位置,可同时预测多个region proposals,最大region proposals数为 。因此,reg层具有 个输出,用于编码k个边界框的坐标;cls层具有 个得分,用于估计每个proposal是目标或不是目标的概率。

Anchors:k个proposals相对于 个参考框是参数化形式。

anchor位于滑动窗口的中心,并与尺度和长宽比相关。默认情况,使用3个尺度和3个长宽比,在每个滑动位置产生 个anchors。对于大小为 的卷积特征图谱,共产生 个anchors。

基于anchor的方法建立在anchors金字塔(pyramid of anchors)上,参考多尺度和长宽比的anchor盒来分类和回归边界框,用于解决多尺度和多长宽比问题。

为了训练RPN,为每个anchor分配一个二值标签。

正标签:

负标签:IoU值低于0.3。

对Fast R-CNN中的多任务损失进行最小化。图像的损失函数为:

其中, 是mini-batch数据中anchor的索引, 是第i个anchor作为目标的预测概率。若anchor为正标签,真值 ;反之, 。 是表示预测边界框4个参数化坐标的向量, 是正真值框的向量。分类损失 为两个类别的对数损失;回归损失 ,其中 为在 Fast R-CNN 一文中定义的鲁棒损失函数(平滑 )。 表示回归损失仅对正anchor激活,否则被禁用( )。cls和rge层的输出分别由 和 组成。该两项使用 和 进行标准化,并使用平衡参数 加权处理。等式中cls项根据mini-batch的大小进行归一化,而reg项根据anchor位置的数据进行归一化。默认情况下, 从而使得cls和reg项的权重大致相等。

对于边界框回归,采用 Rich feature hierarchies for accurate object detection and semantic segmentation 一文中的4个坐标参数化方法:

其中, 和 表示边界框的中心坐标及其宽和高。变量 和 分别表示预测边界框、anchor和真值框。

采样策略:以图像为中心。

在图像中随机采样256个anchors,用于mini-batch数据中损失函数的计算,正负样本的比例为 。

从标准差为0.01的零均值高斯分布中提取权重来随机初始化所有的新网络层,而共享卷积层通过预训练ImageNet分类模型来初始化。同时,调整ZF网络的所有网络层,以及VGG网络的conv3_1之上的网络,用于节省内存的使用。对于60k的mini-batch数据,学习率为0.001;对于PASCAL VOC数据集中的20k的mini-bacth数据,学习率为0.0001。随机梯度下降算法的动量设置为0.9,重量衰减率为0.0005。

训练具有共享特征网络的三个方法:

版权印版权标识

场景文本检测器由文本检测和识别模块组成。已经进行了许多研究,以将这些模块统一为端到端的可训练模型,以实现更好的性能。典型的结构将检测和识别模块放置在单独的分支中,并且RoI pooling通常用于让分支共享视觉特征。然而,当采用识别器时,仍然有机会在模块之间建立更互补的连接,该识别器使用基于注意力的解码器和检测器来表示字符区域的空间信息。这是可能的,因为两个模块共享一个共同的子任务,该任务将查找字符区域的位置。基于这些见解,我们构建了紧密耦合的单管道模型。通过使用检测输出作为识别器输入,并在检测阶段传播识别损失来形成此结构。字符得分图的使用有助于识别器更好地关注字符中心点,并且识别损失传播到检测器模块会增强字符区域的定位。此外,增强的共享阶段允许对任意形状的文本区域进行特征校正和边界定位。大量实验证明了公开提供的直线和曲线基准数据集的最新性能。

场景文本定位,包括文本检测和识别,由于在即时翻译,图像检索和场景解析中的各种应用,最近引起了广泛的关注。尽管现有的文本检测器和识别器在水平文本上很有效,但是在场景图像中发现弯曲的文本实例时,仍然是一个挑战。

为了在图像中发现弯曲的文本,一种经典的方法是将现有的检测和识别模型进行级联,以管理每一侧的文本实例。检测器[32、31、2]尝试通过应用复杂的后处理技术来捕获弯曲文本的几何属性,而识别器则应用多向编码[6]或采用修正模块[37、46、11]来增强弯曲文本上识别器的准确性。

随着深度学习的发展,已经进行了将检测器和识别器组合成可共同训练的端到端网络的研究[14,29]。拥有统一的模型不仅可以提高模型的尺寸效率和速度,还可以帮助模型学习共享功能,从而提高整体性能。为了从该属性中受益,还尝试使用端到端模型[32、34、10、44]处理弯曲文本实例。但是,大多数现有的工作仅采用RoI pooling 在检测和识别分支之间共享底层特征。在训练阶段,不是训练整个网络,而是使用检测和识别损失来训练共享特征层。

如图1所示,我们提出了一种新颖的端到端字符区域注意文本定位模型,称为CRAFTS。而不是将检测和识别模块隔离在两个单独的分支中,我们通过在模块之间建立互补连接来建立一个单一的pipline。我们观察到,使用基于注意力的解码器的识别器[1]和封装字符空间信息的检测器[2]共享一个公用的子任务,该子任务用于定位字符区域。通过将两个模块紧密集成,检测级的输出可帮助识别器更好地识别字符中心点,并且从识别器传播到检测器级的损失会增强字符区域的定位。而且,网络能够使在公共子任务中使用的特征表示的质量最大化。据我们所知,这是构建紧密耦合损失的首个端到端工作。 我们的贡献总结如下: (1)我们提出了一种可以检测和识别任意形状的文本的端到端网络。 (2)通过利用来自修正和识别模块上检测器的空间字符信息,我们在模块之间构造互补关系。 (3)通过在整个网络的所有特征中传播识别损失来建立单个pipline。 (4)我们在包含大量水平,弯曲和多语言文本的IC13,IC15,IC19-MLT和TotalText [20、19、33、7]数据集中实现了最先进的性能。

文本检测和识别方法 检测网络使用基于回归的[16、24、25、48]或基于分割的[9、31、43、45]方法来生成文本边界框。诸如[17,26,47]之类的一些最新方法将Mask-RCNN [13]作为基础网络,并通过采用多任务学习从回归和分割方法中获得了优势。就文本检测的单元而言,所有方法还可以依赖单词级别或字符级别[16,2]预测的使用进行子分类。

文本识别器通常采用基于CNN的特征提取器和基于RNN的序列生成器,并按其序列生成器进行分类。连接主义的时间分类(CTC)[35]和基于注意力的顺序解码器[21、36]。 检测模型提供了文本区域的信息,但是对于识别器而言,要提取任意形状的文本中的有用信息仍然是一个挑战。 为了帮助识别网络处理不规则文本,一些研究[36、28、37]利用 空间变换器网络(STN) [18]。而且,论文[11,46]通过迭代执行修正方法进一步扩展了STN的使用。这些研究表明,递归运行STN有助于识别器提取极端弯曲文本中的有用特征。在[27]中,提出了循环RoIWarp层, 在识别单个字符之前对其进行裁剪。这项工作证明,找到字符区域的任务与基于注意力的解码器中使用的注意力机制密切相关。

构造文本定位模型的一种方法是依次放置检测和识别网络。众所周知的两阶段结构将TextBox ++ [24]检测器和CRNN [35]识别器耦合在一起。简单来说,该方法取得了良好的效果。

端到端的使用基于RNN的识别器 EAA [14]和FOTS [29]是基于EAST检测器[49]的端到端模型。这两个网络之间的区别在于识别器。 FOTS模型使用CTC解码器[35],而EAA模型使用注意力解码器[36]。两项工作都实现了仿射变换层来合并共享功能。提出的仿射变换在水平文本上效果很好,但在处理任意形状的文本时显示出局限性。 TextNet [42]提出了一种在特征池化层中具有透视RoI变换的空间感知文本识别器, 网络保留RNN层以识别2D特征图中的文本序列,但是由于缺乏表现力的四边形,在检测弯曲文本时,网络仍然显示出局限性。

Qin等[34]提出了一种基于Mask-RCNN [13]的端到端网络。给定box proposals,从共享层合并特征,并使用ROI遮罩层过滤掉背景杂波。提出的方法通过确保注意力仅在文本区域中来提高其性能。Busta等提出了Deep TextSpotter [3]网络,并在E2E-MLT [4]中扩展了他们的工作。该网络由基于FPN的检测器和基于CTC的识别器组成。该模型以端到端的方式预测多种语言。

端到端的使用基于CNN的识别器 在处理任意形状的文本时,大多数基于CNN的模型在识别字符级文本都具有优势。 MaskTextSpotter [32]是使用分割方法识别文本的模型。尽管它在检测和识别单个字符方面具有优势, 但由于通常不会在公共数据集中提供字符级别的注释,因此很难训练网络。 CharNet [44]是另一种基于分割的方法,可以进行字符级预测。该模型以弱监督的方式进行训练,以克服缺乏字符级注释的问题。在训练期间,该方法执行迭代字符检测以创建伪ground-truths。

尽管基于分割的识别器已经取得了巨大的成功,但是当目标字符的数量增加时,该方法会受到影响。随着字符集数量的增加,基于分割的模型需要更多的输出通道,这增加了内存需求。journal版本的MaskTextSpotter [23]扩展了字符集以处理多种语言,但是作者添加了基于RNN的解码器,而不是使用他们最初提出的基于CNN的识别器。 基于分割的识别器的另一个限制是识别分支中缺少上下文信息。 由于缺少像RNN这样的顺序建模,在嘈杂的图像下,模型的准确性下降。

TextDragon [10]是另一种基于分割的方法,用于定位和识别文本实例。但是, 不能保证预测的字符段会覆盖单个字符区域。为了解决该问题,该模型合并了CTC来删除重叠字符。 该网络显示出良好的检测性能,但是由于缺少顺序建模而在识别器中显示出局限性。

由于CRAFT检测器[2]具有表示字符区域语义信息的能力,因此被选作基础网络。 CRAFT网络的输出表示字符区域以及它们之间的连接的中心概率。由于两个模块的目标是定位字符的中心位置,我们设想此字符居中信息可用于支持识别器中的注意模块。 在这项工作中,我们对原始的CRAFT模型进行了三处更改;骨干替换,连接表示和方向估计。

骨干置换 最近的研究表明,使用ResNet50可以捕获检测器和识别器定义的明确的特征表示[30,1]。因此,我们将骨干网络由VGG-16 [40]换成ResNet50 [15]。

连接表示 垂直文本在拉丁文本中并不常见,但是在东亚语言(例如中文,日语和韩语)中经常出现。在这项工作中,使用二进制中心线连接顺序字符区域。进行此改变的原因是,在垂直文本上使用原始的亲和力图经常会产生不适定的透视变换,从而生成无效的框坐标。为了生成 ground truth连接图,在相邻字符之间绘制一条粗细为t的线段。这里,t = max((d 1 + d 2)/ 2 *α,1),其中d 1和d 2是相邻字符盒的对角线长度,α是缩放系数。使用该方程式可使中心线的宽度与字符的大小成比例。我们在实现中将α设置为0.1。

方向估计 重要的是获取文本框的正确方向,因为识别阶段需要定义明确的框坐标才能正确识别文本。为此,我们在检测阶段增加了两个通道的输出,通道用于预测字符沿x轴和y轴的角度。为了生成定向图的 ground truth.

共享阶段包括两个模块:文本纠正模块和字符区域注意力( character region attention: CRA)模块。为了纠正任意形状的文本区域,使用了薄板样条(thin-plate spline:TPS)[37]转换。受[46]的启发,我们的纠正模块结合了迭代式TPS,以更好地表示文本区域。通过有吸引力地更新控制点,可以改善图像中文本的弯曲几何形状。 通过实证研究,我们发现三个TPS迭代足以校正。

典型的TPS模块将单词图像作为输入,但是我们提供了字符区域图和连接图,因为它们封装了文本区域的几何信息。我们使用二十个控制点来紧密覆盖弯曲的文本区域。为了将这些控制点用作检测结果,将它们转换为原始输入图像坐标。我们可以选择执行2D多项式拟合以平滑边界多边形。迭代TPS和最终平滑多边形输出的示例如图4所示。

识别阶段的模块是根据[1]中报告的结果形成的。 识别阶段包含三个组件:特征提取,序列建模和预测。 由于特征提取模块采用高级语义特征作为输入,因此它比单独的识别器更轻便。

表1中显示了特征提取模块的详细架构。提取特征后,将双向LSTM应用于序列建模,然后基于注意力的解码器进行最终文本预测。

在每个时间步,基于注意力的识别器都会通过屏蔽对特征的注意力输出来解码文本信息。 尽管注意力模块在大多数情况下都能很好地工作,但是当注意点未对齐或消失时,它无法预测字符[5,14]。 图5显示了使用CRA模块的效果。 适当放置的注意点可以进行可靠的文本预测。

用于训练的最终损失L由检测损失和识别损失组成,取L = Ldet + Lreg。 识别损失的总体流程如图6所示。损失在识别阶段流经权重,并通过字符区域注意模块传播到检测阶段。 另一方面,检测损失被用作中间损失,因此使用检测和识别损失来更新检测阶段之前的权重。

English datasets IC13 [20]数据集由高分辨率图像组成,229张图像用于训练和233张图像用于测试。 矩形框用于注释单词级文本实例。 IC15 [20]包含1000个训练图像和500个测试图像。 四边形框用于注释单词级文本实例。 TotalText [7] 拥有1255个训练图像和300张测试图像。与IC13和IC15数据集不同,它包含弯曲的文本实例,并使用多边形点进行注释。

Multi-language dataset IC19 [33]数据集包含10,000个训练和10,000个测试图像。 数据集包含7种不同语言的文本,并使用四边形点进行注释。

我们联合训练CRAFTS模型中的检测器和识别器。为了训练检测阶段,我们遵循[2]中描述的弱监督训练方法。通过在每个图像中进行批随机采样的裁剪单词特征来计算识别损失。每个图像的最大单词数设置为16,以防止出现内存不足错误。检测器中的数据增强应用了诸如裁剪,旋转和颜色变化之类的技术。对于识别器来说,ground truth框的角点在框的较短长度的0%到10%之间的范围内受到干扰。

该模型首先在SynthText数据集[12]上进行了50k迭代训练,然后我们进一步在目标数据集上训练了网络。使用Adam优化器,并应用在线困难样本挖掘On-line Hard Negative Mining(OHEM) [39]来在检测损失中强制使用正负像素的1:3比例。微调模型时,SynthText数据集以1:5的比例混合。我们采用94个字符来覆盖字母,数字和特殊字符,对于多语言数据集则采用4267个字符。

水平数据集(IC13,IC15) 为了达到IC13基准,我们采用在SynthText数据集上训练的模型,并在IC13和IC19数据集进行微调。在;推理过程中,我们将输入的较长边调整为1280。 结果表明,与以前的最新技术相比,性能显着提高。

然后在IC15数据集上对在IC13数据集上训练的模型进行微调。在评估过程中,模型的输入大小设置为2560x1440。请注意,我们在没有通用词汇集的情况下执行通用评估。表2中列出了IC13和IC15数据集的定量结果。

使用热图来说明字符区域图和连接图,并且在HSV颜色空间中可视化了加权的像素角度值。 如图所示,网络成功定位了多边形区域并识别了弯曲文本区域中的字符。左上角的两个图显示成功识别了完全旋转和高度弯曲的文本实例。

由字符区域注意辅助的注意力 在本节中,我们将通过训练没有CRA的单独网络来研究字符区域注意(CRA)如何影响识别器的性能。

表5显示了在基准数据集上使用CRA的效果。没有CRA,我们观察到在所有数据集上性能均下降。特别是在远景数据集(IC15)和弯曲数据集(TotalText)上,我们观察到与水平数据集(IC13)相比,差距更大。这意味着在处理不规则文本时,送入字符注意力信息可以提高识别器的性能。(?表格中的实验数据是对远景文本更有效,不知道这个结论如何得出来的?)

方向估计的重要性 方向估计很重要,因为场景文本图像中有许多多方向文本。我们的逐像素平均方案对于识别器接收定义良好的特征非常有用。当不使用方向信息时,我们比较模型的结果。在IC15数据集上,性能从74.9%下降到74.1%(-0.8%),在TotalText数据集上,h-mean值从78.7%下降到77.5%(-1.2%)。 结果表明,使用正确的角度信息可以提高旋转文本的性能。

推理速度 由于推理速度随输入图像大小而变化,因此我们在不同的输入分辨率下测量FPS,每个分辨率的较长边分别为960、1280、1600和2560。测试结果得出的FPS分别为9.9、8.3、6.8和5.4。对于所有实验,我们使用Nvidia P40 GPU和Intel®Xeon®CPU。与基于VGG的CRAFT检测器的8.6 FPS [2]相比,基于ResNet的CRAFTS网络在相同大小的输入上可获得更高的FPS。而且,直接使用来自修正模块的控制点可以减轻对多边形生成进行后期处理的需要。

粒度差异问题 我们假设 ground-truth与预测框之间的粒度差异导致IC15数据集的检测性能相对较低。 字符级分割方法倾向于基于空间和颜色提示来概括字符连接性,而不是捕获单词实例的全部特征。 因此,输出不遵循基准测试要求的框的注释样式。图9显示了IC15数据集中的失败案例,这证明了当我们观察到可接受的定性结果时,检测结果被标记为不正确。

在本文中,我们提出了一种将检测和识别模块紧密耦合的端到端可训练单管道模型。 共享阶段中的字符区域注意力充分利用了字符区域图,以帮助识别器纠正和更好地参与文本区域。 此外,我们设计了识别损失通过在检测阶段传播并增强了检测器的字符定位能力。 此外,共享阶段的修正模块可以对弯曲的文本进行精细定位,并且无需开发手工后期处理。 实验结果验证了CRAFTS在各种数据集上的最新性能。

相关百科

热门百科

首页
发表服务