目标检测特征金字塔论文翻译

最近，端到端场景文本识别已成为一个流行的研究主题，因为它具有全局优化的优点和在实际应用中的高可维护性。大多数方法试图开发各种感兴趣的区域（RoI）操作，以将检测部分和序列识别部分连接到两阶段的文本识别框架中。然而，在这样的框架中，识别部分对检测到的结果高度敏感（例如，文本轮廓的紧凑性）。为了解决这个问题，在本文中，我们提出了一种新颖的“Mask Attention Guided One-stage”文本识别框架，称为MANGO，在该框架中无需RoI操作就可以直接识别字符序列。具体而言:

值得注意的是，MANGO自有地适应于任意形状的文本识别，并且仅使用粗略的位置信息（例如矩形边界框）和文本注释就可以进行端到端的训练。实验结果表明，该方法在规则和不规则文本识别基准（即ICDAR 2013，ICDAR 2015，Total-Text和SCUT-CTW1500）上均达到了有竞争力甚至最新性能。

场景文本识别由于其各种实际应用而备受关注，例如发票/收据理解中的关键实体识别，电子商务系统中的产品名称识别以及智能运输系统中的车牌识别。传统的场景文字识别系统通常分三步进行：定位文字区域，从原始图像中裁剪文字区域并将其识别为字符序列。然而尽管这种文本识别模型带来了许多可考虑的问题，例如：（1）错误将在多个单独的任务之间累（2）维护多个单独的模型的成本很高（3）该模型难以适应各种应用程序。

因此，提出了许多工作以端到端的方式来最终优化文本识别过程。这些方法通常使用各种兴趣区域（RoI）操作以可微分的方式桥接文本检测和识别部分，从而形成了两阶段框架。粗略地说，早期的端到端方法将轴对齐的矩形RoI用作连接模块。这些方法处理不规则的（例如，透视图或弯曲的）文本实例能力有限，因为这种类型的RoI可能会带来背景或其他文本的干扰。为了解决这个问题，后来的方法（设计了一些形状自适应RoI机制来提取不规则物体。文本实例并将其校正为规则形状。

图1：传统的两阶段文本识别过程和提出的MANGO的图示。图（a）显示了通过RoI操作连接检测和识别部分的两阶段文本识别策略。图（b）是一种提出的单阶段文本识别方法，它可以直接输出最终的字符序列。

在两阶段方法中，识别部分高度依赖于定位结果，这就要求检测部分必须能够捕获准确的文本边界以消除背景干扰。因此，训练鲁棒的文本检测模型依赖于准确的检测注释，例如在不规则文本识别中使用的多边形或蒙版注释。自然地，标记这种注释是费力且昂贵的。另一方面，要确保紧紧封闭的文本区域（由检测注释进行监督）对于以下识别任务而言是最佳形式，这并不容易。例如，在图1（a）中，紧密的文本边界可能会擦除字符的边缘纹理并导致错误的结果。通常，需要手动扩展这些严格的检测结果，以适应实际应用中的识别。此外，在proposals之后执行带有非极大抑制（NMS）的复杂RoI操作也很耗时，尤其是对于任意形状的区域。尽管（Xing et ）提出了一种单阶段采用字符分割策略的字符级别的识别框架，但很难扩展到具有更多字符类别（例如汉字）的情况。它还会丢失角色之间的关键上下文信息。

实际上，当人们阅读时，他们不需要描绘文本实例的准确轮廓。通过视觉注意力关注的粗略文本位置来识别文本实例就足够了。在这里，我们将场景文本识别重新考虑为注意力和阅读的问题，即，一次直接读出粗略注意的文本区域的文本内容。

在本文中，我们提出了一种名为MANGO的“Mask Attention Guided One stage”文本监视程序，称为MANGO，这是一种紧凑而强大的单阶段框架，可直接从图像中同时预测所有文本，而无需进行任何RoI操作。具体来说，我们引入了一个位置感知蒙版注意力（PMA）模块以在文本区域上生成空间注意力，该模块包含实例级蒙版注意力（IMA）部分和字符级蒙版注意力（CMA）部分。 IMA和CMA分别负责感知图像中文本和字符的位置。可以通过位置感知注意力谱直接提取文本实例的特征，而不必进行显式的裁剪操作，这尽可能保留了全局空间信息。在这里，使用动态卷积将不同文本实例的特征映射到不同的特征谱通道（Wang等人，2020c），如图1（b）所示。之后，应用轻量级序列解码器一次批量生成字符序列特征。

请注意，MANGO可以仅使用粗略的位置信息（例如，矩形边界框，甚至是文本实例的中心点）进行端到端优化，还可以使用序列注释。受益于PMA，该框架可以自适应地识别各种不规则文本，而无需任何纠正机制，并且还能够了解任意形状的文本的阅读顺序。

本文的主要贡献如下：（1）我们提出了一种名为MANGO的紧凑而强大的一阶段文本识别框架, 该框架可以以端到端的方式进行训练。（2）我们开发了位置感知蒙版注意力模块，以将文本实例特征生成为一个batch，并与最终字符序列建立一对一的映射。只能使用粗略的文本位置信息和文本注释来训练该模块。（3）广泛的实验表明，我们的方法在规则和不规则文本基准上均获得了有竞争甚至最新的性能。

早期场景文本发现方法（Liao，Shi，and Bai 2018; Liao et ; Wang et ）通常首先使用训练有素的检测器来定位每个文本，例如（Liao et ; Zhou et ; He et ; Ma et ; Xu et ; Baek et ），然后使用序列解码器识别裁剪后的文本区域（Shi et ; Shi，Bai和Yao 2017; Cheng et ; Zhan and Lu 2019; Luo，Jin and Sun 2019）。为了充分利用文本检测和文本识别之间的互补性，已经提出了一些工作以端到端的方式优化场景文本发现框架，其中使用了模块连接器（例如RoI Pooling（Ren等人，2015a））在（Li，Wang，and Shen 2017; Wang，Li，and Shen 2019）中，（He等人2018）中使用的RoI-Align和（Liu等人2018）中使用的RoI-Rotate的开发是为了文本检测和文本识别部分。请注意，这些方法无法发现任意形状的文本。为了解决不规则问题，已经提出了许多最近的工作来设计各种自适应RoI操作以发现任意形状的文本。 Sun等人（2018年）采用了透视图RoI转换模块来纠正透视图文本，但是该策略仍然难以处理弯曲度较大的文本。（Liao et ）提出了受两阶段Mask-RCNN启发的mask textspotter，用于逐个字符地检测任意形状的文本，但是这种方法会丢失字符的上下文信息，并且需要字符级位置注释。 Qin等人（2019）直接采用Mask-RCNN和基于注意力的文本识别器，该模型使用RoI-Masking模块在识别之前消除了背景干扰。（Feng et ）将文本实例视为一组特征块，并采用RoI-Slide操作来重建直线特征图。（Qiao et al。2020）和（Wang et al。2020a）都检测到文本周围的关键点，并应用薄板样条变换（Bookstein 1989）纠正不规则实例。为了获得弯曲文本的平滑特征（Liu et ），使用Bezier曲线表示文本实例的上下边界，并提出了Bezier-Align操作以获取校正后的特征图。上述方法在两阶段框架中实现了端到端场景文本点，其中需要设计基于RoI的连接器（例如RoI-Align，RoI-Slide和Bezier-Align等），以实现以下目的：明确裁剪特征图。在两阶段框架中，性能很大程度上取决于RoI操作获得的文本边界精度。但是，这些复杂的多边形注释通常很昂贵，并且并不总是适合识别部分，如前所述。

在一般的对象定位领域，许多最新进展证明了在对象检测中研究的一阶段框架的效率和有效性（Redmon等人2016; Liu等人2016; Lin等人2017b; Tian等人2019;段等人（2019）或实例分割（Wang等人2019b; Tian，Shen和Chen 2020; Wang等人2020c; Xie等人2020; Chen等人2020）。但是，场景文本发现是一项更具挑战性的任务，因为它涉及序列识别问题而不是单个对象分类。这是因为场景文本具有许多特殊特征：任意形状（例如，曲线，倾斜或透视图等），数百万个字符组合，甚至是不受限制的阅读顺序（例如，从右到左）。最近，（Xing et ）提出了一种通过直接分割单个字符的一种舞台场景文本识别方法。但是，它丢失了各个字符之间的序列上下文信息，并且很难传递给更多的字符类。据我们所知，以前没有工作可以在一个阶段的框架中处理序列级别的场景文本发现任务。

图2：MANGO的工作流程。我们以S ＝ 6为例。将输入特征输入到位置感知蒙版注意力模块中，以将实例/字符的不同特征映射到不同通道。识别器最终一次全部输出字符序列。 Centerline Segmentation分支用于生成所有文本实例的粗略位置。前缀“ R-”和“ C-”分别表示网格的行和列。

我们提出了一个名为MANGO的单阶段场景文本查找器，如图2所示。其深层特征是通过ResNet-50（He等人，2016）和特征金字塔网络（FPN）（Lin等人，2017a）的主干提取的。然后将生成的特征图馈送到三个可学习的模块中：（1）用于学习单个文本实例的位置感知蒙版注意力（PMA）模块，其中包括实例级蒙版注意力（ IMA）子模块和字符级掩码注意力（CMA）子模块。（2）识别器用于将注意力实例特征解码为字符序列。（3）全局文本中心线分割模块，用于在推理阶段提供粗略的文本位置信息。

单阶段的文本识别问题可以视为原始图像中的纯文本识别任务。关键步骤是在文本实例到最终字符序列之间以固定顺序建立直接的一对一映射。在这里，我们开发了位置感知注意力（PMA）模块，以便为接下来的序列解码模块一次捕获所有表示文本的特征。受（Wang等人2019b）中使用的网格映射策略的启发，我们发现可以将不同的实例映射到不同的特定通道中，并实现实例到特征的映射。也就是说，我们首先将输入图像划分为S×S的网格。然后，通过提出的PMA模块将网格周围的信息映射到特征图的特定通道中。

具体来说，我们将特征提取后获得的特征图表示为x∈R C×H×W ，其中C，H和W分别表示为特征图的通道数量，宽度和高度。然后我们将特征图x送入PMA（包括IMA和CMA模块）模块，以生成文本实例的特征表示（如下所述）。

Instance-level Mask Attention MA负责生成实例级注意力蒙版遮罩，并将不同实例的特征分配给不同的特征图通道。它是通过在切片网格上操作一组动态卷积内核（Wang等人2020c）来实现的，表示为G S×S×C 。卷积核大小设置为1×1。

因此可以通过将这些卷积核应用于原始特征图来生成实例级注意力掩码：

Character-level Mask Attention 正如许多工作（Chenget等人2017; Xing等人2019）所表明的那样，字符级位置信息可以帮助提高识别性能。这激励我们设计全局字符级注意力子模块，以为后续的识别任务提供细粒度的特征。

如图2所示，CMA首先将原始特征图x和实例级注意力蒙版x ins 连接在一起，然后是两个卷积层（卷积核大小= 3×3）遵循下式来预测字符级注意力蒙版：

由于将不同文本实例的注意蒙版分配给不同的特征通道，因此我们可以将文本实例打包为一批。一个简单的想法是进行（Wang等人2020b）中使用的注意力融合操作，以生成批处理的连续特征x seq ，即

该模型现在能够分别输出S 2 网格的所有预测序列。但是，如果图像中有两个以上的文本实例，我们仍然需要指出哪个网格对应于那些识别结果。

由于我们的方法不依赖准确的边界信息，因此我们可以应用任何文本检测策略（例如RPN（Ren等人2015b）和YOLO（Redmon等人。 2016）），以获取文本实例的粗略的几何信息。考虑到场景文本可能是任意形状的，我们遵循大多数基于分割的文本检测方法（Long等人2018; Wang等人2019a）来学习单个文本实例的全局文本中心线区域分割（或缩小ground truth）。

IMA和CMA模块都用于使网络聚焦于特定的实例和字符位置，这在理论上只能通过最后的识别部分来学习。但是，在复杂的场景文本场景中，如果没有位置信息的辅助，网络可能难以收敛。但是，我们发现，如果模型已经在合成数据集上进行了预先的字符级监督，则可以轻松转移模型。因此，可以分两步对模型进行优化。

首先，我们可以将IMA和CMA的学习视为纯分割任务。结合中心线区域分割，所有分割任务都使用二进制Dice系数损失进行训练（Milletari，Navab和Ahmadi 2016），而识别任务仅使用交叉熵损失。全局优化可以写成

请注意，预训练步骤实际上是一次性的任务，然后将主要学习CMA和IMA以适应该识别任务。与以前需要平衡检测和识别权重的方法相比，MANGO的端到端结果主要由最终识别任务监督。

在推断阶段，网络输出一批（S×S）概率矩阵（L×M）。根据中心线分割任务的预测，我们可以确定哪些网格应视为有效。我们首先进行“广度优先搜索”（BFS），以找到各个相连的区域。在此过程中，可以过滤许多类似文本的纹理。由于每个连接区域可能与多个网格相交，因此我们采用字符加权投票策略来生成最终的字符串，如图3所示。

具体来说，我们计算连接区域i与网格j之间的连接率o i,j 作为每个字符的权重。对于实例i的第k个字符，其字符加权投票结果通过

我们列出了本文使用的数据集如下：训练数据。我们使用SynthText 800k（Gupta，Vedaldi和Zisserman 2016）作为预训练数据集。利用实例级注释和字符级注释对PMA模块进行预训练。在微调阶段，我们旨在获得一个支持常规和非常规场景文本读取的通用文本点。在这里，我们构建了一个用于微调的通用数据集，其中包括来自Curved SynthText的150k图像（Liu等人2020），从COCO-Text过滤的13k图像（Veitet等人2016），从ICDAR-MLT过滤的7k图像（Nayefet等人2019）以及ICDAR2013（Karatzas等人2013），ICDAR2015（Karatzas等人2015）和Total-Text（Ch'ng and Chan 2017）中的所有训练图像。请注意，这里我们仅使用实例级别的注释来训练网络。测试数据集。我们在两个标准文本点标基准ICDAR2013（Karatzas等人2013）（IC13）和ICDAR2015（Karatzas等人2015）（IC15）中评估了我们的方法，其中主要包含水平和透视文本，以及两个不规则的基准Total-Text（Ch'ng和Chan 2017）和SCUT-CTW1500（Liu等人2019）（CTW1500），其中包含许多弯曲文本。车牌识别数据集CCPD中我们方法的能力（Xuet ）。

所有实验均在Pytorch中使用8×32 GB-Tesla-V100 GPU进行。网络详细信息。特征提取器使用ResNet-50（He等人2016）和FPN（Lin等人2017a）从不同的特征图中获取融合特征水平。这里，C = 256的（4×）特征图用于执行后续的训练和测试任务.Lis设置为25以覆盖大多数场景文本单词。 BiLSTM模块有256个隐藏单元，训练详细信息，所有模型均由SGDoptimizer进行训练，批处理大小= 2，动量= 和重量衰减= 1×10−4。在预训练阶段，以10个周期的初始学习比率1×10-2训练网络。每3个周期将学习率除以10.在微调阶段，初始学习率设置为1×10-3。为了平衡每批中的合成图像和真实图像的数量，我们将Curved SynthText数据集与其他真实数据集的采样比率保持为1：1。微调过程持续250k次迭代，其中学习率在120k迭代和200k迭代时除以10.我们还对所有训练过程进行数据扩充，包括1）将输入图像的较长边随机缩放为长度在[720,1800]范围内，2）将图像随机旋转[-15°，15°]范围内的角度，以及3）对输入图像应用随机的亮度，抖动和对比度。在不同的数据集中，我们将IC15的评估值设置为S = 60，将IC13，Total-Text和CTW1500的评估值设置为S = 40。我们将所有权重参数简单地设置为λ1=λ2=λ3=λ= 1。测试细节。由于输入图像的尺寸是重要的重要影响性能，因此我们将报告不同输入比例下的性能，即保持原始比例和将图像的较长边调整为固定值。所有图像都在单一尺度上进行测试。由于当前的实现方式仅提供了粗略的定位，因此，我们通过考虑IoU> 的所有检测结果，修改（Wang，Babenko和Belongie 2011）的端到端评估指标。在这种情况下，由于某些低等级的建议匹配而导致精度下降，先前方法的性能甚至会下降。

常规文本的评估我们首先根据常规评估指标（Karatzas等，2015）对IC13和IC15的方法进行评估，然后基于三种不同的lexi-cons（强）对两个评估项目（端到端''和单词斑点''）进行评估，弱和通用）。表1显示了评估结果。与使用常规词典评估的先前方法相比，我们的方法在“通用”项目上获得了最佳结果（除了IC15的端到端通用结果之外），并在其余评估项目上获得了竞争结果（强”和“弱”）。与最近使用特定词典的最新MaskMaskTextSpotter（Liao et ）相比，我们的方法在所有评估项目上均明显优于该方法。尽管推理速度很高，但FOTS的FPS最高（帧数第二），它无法处理不正常的情况。与基于不规则的方法相比，我们的方法获得了最高的FPS。不规则文本的评估我们在Total-Text上测试了我们的方法，如表2所示。我们发现我们的方法比最先进的方法高出％和 “无”和“满”指标中的百分比。请注意，即使没有明确的纠正机制，我们的模型也只能在识别监督的驱动下才能很好地处理不规则文本。尽管在1280的测试规模下，推理速度约为ABCNet的1/2，但我们的方法取得了显着的性能提升。我们还在CTW1500上评估了我们的方法。报告端到端结果的作品很少，因为它主要包含行级文本注释。为了适应这种情况，我们在CTW1500的训练集上对检测分支进行了重新训练，以学习线级中心线分割，并确定主干和其他分支的权重。请注意，识别不会受到影响，仍然会输出单词级序列。最终结果将根据推断的连接区域简单地从左到右连接起来。汉字设置为NOT CARE。结果如表3所示。我们发现，在“无”和“满”度量标准下，我们的方法明显比以前的提升了％和％。因此，我们相信，如果只有行级注解的数据足够多，我们的模型就可以很好地适应这种情况。

图4可视化了IC15和Total-Text上的端到端文本发现结果。我们详细显示了字符投票之前每个正网格（oi，j> ）的预测结果。我们看到我们的模型可以正确地专注于相应的位置并学习任意形状（例如弯曲或垂直）文本实例的字符序列的复杂读取顺序。采取字符投票策略后，将生成具有最高置信度的单词。我们还用可视化的CMA演示了CTW1500的一些结果，如图5所示。请注意，我们仅根据数据集的位置微调线级分割部分标签，同时固定其余部分。在这里，我们通过将所有网格的注意图覆盖在相同的字符位置（k）上来可视化CMA的特征图：

网格编号的消除网格编号S2是影响最终结果的关键参数。如果太小，则占据相同网格的文本太多。否则，太大的S会导致更多的计算成本。在这里，我们进行实验以找到不同数据集的S的可行值。从表4中，我们发现IC13和TotalText的bestS均为40。 IC15的值为60。这是因为IC15包含更多密集和较小的实例。总而言之，当S> = 40时，总体性能随沙的增加而稳定。当然，FPS随S的增加而略有下降。信息。为了证明这一点，我们还进行了实验，以矩形边框的形式转移所有本地化注释。我们仅采用RPN头作为检测分支。表5显示了IC15和Total-Text的结果。即使进行严格的位置监控，MANGO的性能也只能降低0％到3％，并且可以与最新技术相比。请注意，粗略位置仅用于网格选择，因此可以根据特定任务的要求尽可能简化它。

为了证明模型的泛化能力，我们进行了实验以评估CCPD公共数据集上的端到端车牌识别结果（Xu et ）。为了公平起见，我们遵循相同的实验设置，并使用带有250k图像的数据集的初始版本。 CCPD-Base数据集分为两个相等的部分：用于训练的100k样本和用于测试的100k样本。有6个复杂的测试集（包括DB，FN，旋转，倾斜，天气和挑战）用于评估算法的鲁棒性，总共有50k张图像。由于CCPD中的每个图像仅包含一个板，因此可以通过删除来进一步简化我们的模型检测分支直接预测最终字符序列。因此，网格数减少为S = 1，最大序列长度设置为L =8。我们直接对模型进行微调（已通过SynthText进行了预训练）在CCPD训练集上仅使用序列级注释，然后评估上述七个测试数据集的最终识别准确性。测试阶段是对尺寸为720×1160的原始图像执行的。表6显示了端到端识别结果。尽管所提出的方法不是为车牌识别任务设计的，但仍然可以轻松地转移到这种情况下。我们看到，提出的模型在7个测试集中的5个中优于以前的方法，并达到了最高的平均精度。图6显示了CCPD测试集的一些可视化结果。故障样本主要来自图像太模糊而无法识别的情况。该实验表明，在许多情况下，只有一个文本实例（例如，工业印刷识别或仪表拨盘识别），可以使用良好的端到端模型无需检测注释即可获得。

在本文中，我们提出了一种名为MANGO的新颖的单阶段场景文本查找器。该模型删除了RoI操作，并设计了位置感知注意模块来粗略定位文本序列。之后，应用轻量级序列解码器以将所有最终字符序列成批获取。实验表明，我们的方法可以在流行基准上获得具有竞争力的，甚至最先进的结果。

论文名称：Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间：2014年论文地址：针对问题：从Alexnet提出后，作者等人思考如何利用卷积网络来完成检测任务，即输入一张图，实现图上目标的定位（目标在哪）和分类（目标是什么）两个目标，并最终完成了RCNN网络模型。创新点： RCNN提出时，检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢，作者采用的是Selective Search候选区域提取算法，来获得当前输入图上可能包含目标的不同图像块，再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。参考博客：。论文题目：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间：2014年论文地址：针对问题：该论文讨论了，CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后，在网络后端组织两组卷积或全连接层，一组用于实现定位，输出当前图像上目标的最小外接矩形框坐标，一组用于分类，输出当前图像上目标的类别信息。也是以此为起点，检测网络出现基础主干网络(backbone)+分类头或回归头（定位头）的网络设计模式雏形。创新点：在这篇论文中还有两个比较有意思的点，一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的，而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制，那用1x1卷积来替换FC层，是否可行呢？作者在测试时通过将全连接层替换为1x1卷积核证明是可行的；二是提出了offset max-pooling，也就是对池化层输入特征不能整除的情况，通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练，然后切换分类头为回归头，再训练回归头的参数，最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。参考博客：论文题目：Scalable Object Detection using Deep Neural Networks 提出时间：2014年论文地址：针对问题：既然CNN网络提取的特征可以直接用于检测任务（定位+分类），作者就尝试将目标框（可能包含目标的最小外包矩形框）提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。创新点：本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心，（800个anchor box）然后学习预测不考虑目标类别的二分类网络，背景or前景。用到了多尺度下的检测。参考博客：论文题目：DeepBox: Learning Objectness with Convolutional Networks 提出时间：2015年ICCV 论文地址：主要针对的问题：本文完成的工作与第三篇类似，都是对目标框提取算法的优化方案，区别是本文首先采用自底而上的方案来提取图像上的疑似目标框，然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序；而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点：本文作者想通过CNN学习输入图像的特征，从而实现对输入网络目标框是否为真实目标的情况进行计算，量化每个输入框的包含目标的可能性值。参考博客：论文题目：AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间：2015年ICCV 论文地址：主要针对的问题：对检测网络的实现方案进行思考，之前的执行策略是，先确定输入图像中可能包含目标位置的矩形框，再对每个矩形框进行分类和回归从而确定目标的准确位置，参考RCNN。那么能否直接利用回归的思路从图像的四个角点，逐渐得到目标的最小外接矩形框和类别呢？创新点：通过从图像的四个角点，逐步迭代的方式，每次计算一个缩小的方向，并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。参考博客：论文题目：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间：2014年论文地址：针对问题：如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络，在处理过程中就造成了图像块信息的损失。在实际的场景中，输入网络的目标尺寸很难统一，而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点：作者提出的SPPnet中，通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸，在训练的时候，池化的操作还是通过滑动窗口完成的，池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。参考博客：论文题目：Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间：2015年论文地址：针对问题：既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位，本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点：作者通过对输入网络的region进行一定的处理（通过数据增强，使得网络利用目标周围的上下文信息得到更精准的目标框）来增加网络对目标回归框的精度。具体的处理方式包括：扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置，使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性，从而提高了回归框的精度。参考博客：论文题目：Fast-RCNN 提出时间：2015年论文地址：针对问题： RCNN中的CNN每输入一个图像块就要执行一次前向计算，这显然是非常耗时的，那么如何优化这部分呢？创新点：作者参考了SPPNet（第六篇论文），在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸，从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图，再将原图上用Selective Search算法得到的目标框映射到特征图上，避免了特征的重复提取。参考博客：论文题目：DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间：2015年论文地址：主要针对的问题：本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文，作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。创新点：作者在不同的激活层上以滑动窗口的方式生成了假设，并表明最终的卷积层可以以较高的查全率找到感兴趣的对象，但是由于特征图的粗糙性，定位性很差。相反，网络的第一层可以更好地定位感兴趣的对象，但召回率降低。论文题目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间：2015年NIPS 论文地址：主要针对的问题：由multibox（第三篇）和DeepBox（第四篇）等论文，我们知道，用CNN可以生成目标待检测框，并判定当前框为目标的概率，那能否将该模型整合到目标检测的模型中，从而实现真正输入端为图像，输出为最终检测结果的，全部依赖CNN完成的检测系统呢？创新点：将当前输入图目标框提取整合到了检测网络中，依赖一个小的目标框提取网络RPN来替代Selective Search算法，从而实现真正的端到端检测算法。参考博客：

原文： Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems. MIT Press, 2015:91-99.

译文参考： Faster R-CNN论文翻译——中英文对照

目标检测网络依赖于Region Proposal算法假设目标位置，通过引入Region Proposal（网络RPN），与检测网络共享全图像卷积特征，使得Region Proposals的成本近乎为零。

如下图所示，图a采用的是图像金子塔（Pyramids Of Images）方法；图b采用的是滤波器金字塔（Pyramids Of Filters）方法；图c引入“锚”盒（"Anchor" Boxes）这一概念作为多尺度和长宽比的参考，其可看作回归参考金字塔（Pyramids Of Regression References）方法，该方法可避免枚举图像、多尺度滤波器和长宽比。

为了将RPN与Fast R-CNN相结合，本文提出了一种新的训练策略：在region proposal任务和目标检测任务之间交替进行微调，同时保持proposals的固定。该方案能够快速收敛，两个任务之间并共享具有卷积特征的统一网络。

Faster R-CNN由两个模块组成：

RPN以任意大小的图像作为输入，输出一组矩形的目标proposals，每个proposals都有一个目标得分。在实验中，假设两个网络（RPN和Fast R-CNN）共享一组共同的卷积层，并研究了具有5个共享卷积层的 Zeiler和Fergus模型（ZF），以及具有13个共享卷积层的 Simonyan和Zisserman模型（VGG-16）。

为了生成region proposals，对最后的共享卷积层输出的卷积特征图谱使用一个小网络。该网络以卷积特征图谱的空间窗口作为输入，且每个滑动窗口映射到一个低维特征，所有空间位置共享全连接层。

该低维特征作为两个子全连接层———边界框回归层（box-regression layer, reg）和边界框分类层（box-classification layer, cls）的输入，其卷积核均为大小。

对于每个滑动窗口位置，可同时预测多个region proposals，最大region proposals数为。因此，reg层具有个输出，用于编码k个边界框的坐标；cls层具有个得分，用于估计每个proposal是目标或不是目标的概率。

Anchors：k个proposals相对于个参考框是参数化形式。

anchor位于滑动窗口的中心，并与尺度和长宽比相关。默认情况，使用3个尺度和3个长宽比，在每个滑动位置产生个anchors。对于大小为的卷积特征图谱，共产生个anchors。

基于anchor的方法建立在anchors金字塔（pyramid of anchors）上，参考多尺度和长宽比的anchor盒来分类和回归边界框，用于解决多尺度和多长宽比问题。

为了训练RPN，为每个anchor分配一个二值标签。

正标签：

负标签：IoU值低于。

对Fast R-CNN中的多任务损失进行最小化。图像的损失函数为：

其中，是mini-batch数据中anchor的索引，是第i个anchor作为目标的预测概率。若anchor为正标签，真值；反之，。是表示预测边界框4个参数化坐标的向量，是正真值框的向量。分类损失为两个类别的对数损失；回归损失，其中为在 Fast R-CNN 一文中定义的鲁棒损失函数（平滑）。表示回归损失仅对正anchor激活，否则被禁用（）。cls和rge层的输出分别由和组成。该两项使用和进行标准化，并使用平衡参数加权处理。等式中cls项根据mini-batch的大小进行归一化，而reg项根据anchor位置的数据进行归一化。默认情况下，从而使得cls和reg项的权重大致相等。

对于边界框回归，采用 Rich feature hierarchies for accurate object detection and semantic segmentation 一文中的4个坐标参数化方法：

其中，和表示边界框的中心坐标及其宽和高。变量和分别表示预测边界框、anchor和真值框。

采样策略：以图像为中心。

在图像中随机采样256个anchors，用于mini-batch数据中损失函数的计算，正负样本的比例为。

从标准差为的零均值高斯分布中提取权重来随机初始化所有的新网络层，而共享卷积层通过预训练ImageNet分类模型来初始化。同时，调整ZF网络的所有网络层，以及VGG网络的conv3_1之上的网络，用于节省内存的使用。对于60k的mini-batch数据，学习率为；对于PASCAL VOC数据集中的20k的mini-bacth数据，学习率为。随机梯度下降算法的动量设置为，重量衰减率为。

训练具有共享特征网络的三个方法：

版权印版权标识

目标检测跟踪论文笔记翻译

论文原文：

YOLO（you only look once）是继RCNN、faster-RCNN之后，又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下，解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比：

如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测，那么yolo则是更进一步，将目标区域预测与目标类别判断整合到单个神经网络模型中。各检测算法结构见下图：

每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息，其值是这样计算的：

其中如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

每个bounding box要预测(x, y, w, h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。即SxS个网格，每个网格除了要预测B个bounding box外，还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。（注意：class信息是针对每个网格的，即一个网格只预测一组类别而不管里面有多少个bounding box，而confidence信息是针对每个bounding box的。）

举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示：

在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score:

等式左边第一项就是每个网格预测的类别信息，第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率，也有该box准确度的信息。

得到每个box的class-specific confidence score以后，设置阈值，滤掉得分低的boxes，对保留的boxes进行NMS（非极大值抑制non-maximum suppresssion）处理，就得到最终的检测结果。

1、每个grid因为预测两个bounding box有30维（30=2*5+20），这30维中，8维是回归box的坐标，2维是box的confidence，还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间，w,h除以图像的width和height也归一化到0-1之间。

2、对不同大小的box预测中，相比于大box预测偏一点，小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题，作者用了一个比较取巧的办法，就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解，小box的横轴值较小，发生偏移时，反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。

3、一个网格预测多个box，希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大，就负责哪个。这种做法称作box predictor的specialization。

4、损失函数公式见下图：

在实现中，最主要的就是怎么设计损失函数，坐标（x,y,w,h），confidence，classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足：

解决方法：

只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候，才会对box的coordinate error进行惩罚，而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。

作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段，采用网络中的前20卷积层，外加average-pooling层和全连接层。模型训练了一周，获得了top-5 accuracy为（ImageNet2012 validation set），与GoogleNet模型准确率相当。

然后，将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层，提高了模型输入分辨率（224×224->448×448）。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation，其它层使用 leaky rectified linear。

作者采用sum-squared error为目标函数来优化，增加bounding box loss权重，减少置信度权重，实验中，设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮，batch size为64，动量为，学习速率延迟为。Learning schedule为：第一轮，学习速率从缓慢增加到（因为如果初始为高学习速率，会导致模型发散）；保持速率到75轮；然后在后30轮中，下降到；最后30轮，学习速率为。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为；data augmentation包括：random scaling，translation，adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点：

1、 YOLO检测物体非常快

因为没有复杂的检测流程，只需要将图像输入到神经网络就可以得到检测结果，YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且，YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、 YOLO可以很好的避免背景错误，产生false positives

不像其他物体检测系统使用了滑窗或region proposal，分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息，因此YOLO在检测物体时能很好的利用上下文信息，从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比，YOLO的背景错误不到Fast-R-CNN的一半。

3、 YOLO可以学到物体的泛化特征

当YOLO在自然图像上做训练，在艺术作品上做测试时，YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征，从而迁移到其他领域。

尽管YOLO有这些优点，它也有一些缺点：

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好（尤其是密集的小物体，因为一个栅格只能预测2个物体）。

本文作为OC-SORT的论文阅读记录，中间可能会加入自己的看法，由于是tracking这块的初学者，文中若有错误的认识麻烦读者帮忙修正。

OC-SORT是来自 CVPR2022 的一篇文章，采用的范式是MOT中的TBD（Tracking by Detection）。虽然学术界中JDE的研究越来越多，2022年开始也有很多基于Transformer的方法效果非常不错，但是目前工业界还是使用TBD这种方式比较多，类似还有Bytetrack等等，基本都可以满足跟踪的需求。

TBD范式中比较出名的一系列就是SORT系列，这其中笔者了解的有最初的鼻祖SORT，还有后期衍生出来的DeepSORT, StrongSORT, StrongSORT++, ByteTrack，还有本文要讨论的OC-SORT。

关于SORT系列方法具体解析可以参考下面的博客和帖子，个人认为写的很详细和易懂，方便随时查阅：

通过回顾SORT方法，作者提出三个问题作为方法设计的动机：

文章提出三项改进：

这种在线平滑方式通过当前帧检测到的结果和之前帧的轨迹位置，来生成更多的虚拟点，以此辅助KF做预测。具体通过⼀个虚拟的轨迹对参数进行在线平滑，回溯到目标检测丢失的时候，可以修复在时间间隔内累积的误差。

在计算IOU度量矩阵的时候，把速度/方向计算成代价矩阵放在原来的度量矩阵中，（个人理解类似模型训练的trick）：

这部分看的不是很懂…

OCR用于恢复轨迹，这部分依赖于检测值而不是错误的估计值。当轨迹丢失后检测目标再出现时，直接将丢失轨迹时检测值和重新出现的检测值相关联以恢复轨迹。

论文检测英文翻译

这样也行，但是中文翻译才英文，然后再英文在翻译成中文，有很多字眼会发生变化或者句子会变得不顺，所以需要直接去认真去看，吧句子改通顺了就可以。

不会被检测出来

一般来说，这些部分不会被检测出来。使用中英文翻译的方法，这种方法可以有效地降低论文的重复率

论文中文变成英语查重会发现吗？一般来说，这些部分不会被检测出来。使用中英文翻译的方法，这种方法可以有效地降低论文的重复率，所以即使把中文变成英语也不会被检测出来。一般来说，将论文中的中文翻译成英语基本上是英语论文，英语中的表现方式比中文的表现方式复杂，因此将中文翻译成英语很可能发生语病，所以在进行论文查重之前，必须检测论文是否有语病问题和逻辑关系问题。

可以paperyy进行论文检测，而且这个软件可以采用多语言的论文检测，不仅仅针对汉语和英语，其他语言也是可以使用的，但是英语的文献较多，其英语论文查重网站查重的重复率也能够在一定程度上提升帮助毕业生的英语论文写作。英语论文查重网站这个软件在进行英语论文检测是大部分采用外文文献的翻译法，很多人都会为了保证自己的论文水平较高，也会采用一定的外文文献的摘抄，但是他们不会将外文文献中的英语片段直接摘抄下来，而是通过一定的软件进行直译，虽然直译中有些错误，但是对于英语专业的学生来说，他们很容易更改这样的错误，能够理论是正确的，但其他句子有所不同是不需要在意的，因此论文在查重过程中也能够保证该理论的正确性。

质量检测用英语怎么说你好。质量检测，翻译成英语是：Quality inspections ——————希望帮到你，满意请采纳。检查英语怎么说 examine和check 这两个词用作动词时都有“检查”的意思，但具体用法有所不同：check一般指用检查或调查的方法去印证某事、核对、核实（不用于被动语态）等，相当于to see if it is right or not；而examine强调仔细观察、察看、检查、测试、审问、诊察等，相当于to see if there is something wrong。检查用英语怎么说 check upinspect examine review censor 检查用英语怎么说 inspect 已检查的英文怎么写 checked 测试英文怎么说 test 求助第三方检测方面的用英语怎么说啊 Third party inspection 不懂用有道词典，万能翻译！Shenzhen Sino Asses *** ent Group Co.,Ltd 百度下检测的标准用英语怎么说检测的标准 File Open and Close; [例句] 结合电感等离子离子源，质谱是水中重金属等元素的检测的标准方法。 bined with inductive coupled pla *** a source, MS can determine if water ispolluted by elements like As or Pb. 抽样检测用英文怎么说抽样检测 Sampling inspection+ . 抽样检测 Sampling inspection 仔细检查用英语怎么说 check up carefully check up 词组是检查的意思 carefully是副词的仔细地

气体检测论文翻译

With the rapid development of China's economy, the traditional coal energy demand is increasing. But most of China's coal mines are underground, high concentrations of gas, mining more difficult, technical requirements, in the slightest mistake in the mining process, it could trigger a major accident, a gas explosion in China coal mine safety has become the "first Killer. " Therefore, the coal mine gas concentration in real-time monitoring of particular importance. The subject of gas through the gas monitoring mechanism analysis, to Visual Basic for development tools, using C / S software development model, the establishment of SQL Server2000 database as a platform for gas monitoring system. The system's design and development process, giving full consideration to the mine gas monitoring the needs of gas, the gas concentration to achieve real-time data collection, database management and gas to the monitoring data processing. And to achieve a gas monitoring information on a monthly, quarterly and annual actual changes in the display interface and data statements, according to data collected by the gas to map out changes in the trend curve, the unusual situation of the data generated warning. Related personnel can grasp the system time to change the concentration of gas underground, mine gas against the defense work to provide strong technical support.

试着翻译如下，参考： In accordance to the coming of "Information Era", sensor technology has increasingly progressed, and its coverage is more and more extensive,meanwhile, the demand for it is also becoming more urgent and monitoring system for indoor hazardous gas we are designing now is in purpose of pre-detecting and alarming of any harmful gas indoors,thus help prevent and reduce risk aiming at protecting security of human health as well as article is based on the core technology of resistor-based air sensor and TMS320F2812 DSP, it fulfills the function to display the gas density and enable communication of the upper serial ports, makes the significant exploration and study on the operating technology of alarming for hazardous gas, and holds a referring value in the area of monitoring implementation.

With the diversity of social and economic development, buildings, structures, Applied Materials, the development of various industrial and science and technology, increase in combustible materials, coupled with people's living environment and lifestyle changes, the risk of fire is increasing, the number of firescasualties and economic losses caused by fire is gradually increasing. Fire as the enemy of endangering the survival of mankind, more attention has been paid. With the growing number of high-rise buildings, fire hazards increase. Event of fire, will people's lives and property caused great harm, so people began to seek a method of early detection of fire, in order to control and extinguish fires and to minimize losses, protect life the development of electronic science and technology, electronics technology has become a powerful means of security, many security aspects of electronic products, the right-hand man of the people's lives. This design uses a microcontroller technology with A / D conversion chip to build a combustible gas detector alarm. When the leak of flammable or toxic gases in the environment to the critical point of the combustible gas concentration reaches the alarm set, when the gas alarm detection, combustible gas alarm will send alarm signal to remind staff to take safety measures. This paper briefly describes the design combustible gas detection alarm as well as the advantages of the SCM system; then details the design flow of the combustible gas detection alarm, as well as hardware and software systems design and software programming detailed steps, including the various modules of the program design and system debugging and simulation steps, design uses the MQ-2 gas sensor signal acquisition tool as a combustible gas, the collected analog voltage after the ADC0809 converted into digital signals. Single-chip digital signal acquisition to the ADC0809 has been calculated, if the combustible gas concentration reaches the critical point when the alarm is set microcontroller will drive the LED and buzzer alarm signal. In the case of non-combustible gases, the occurrence of unknown danger, the alarm can artificially control buttons to change the fire alarm initial value. 希望能帮到你

推荐楼主用机译,因为这个文章实在很长.

对植物特征快速检测论文

植物在生长过程中，如果适当的添加一些科学技术，对于植物的健康成长是有一定的帮助的。下文是我为大家整理的关于植物生长的科学论文，希望能对大家有所帮助。

摘要：在长期的进化过程中，植物通过体内水分平衡即根系吸收水和叶片蒸腾水之间的平衡来适应周围的水环境。不同的水体对于水生植物的影响不尽相同，本文通过水体与水生植物的发展过程，分析了不同水体对水生植物的生长的影响。

关键词：水体;水生植物;水位;波浪;生长;影响

1水体与水生植物

概念

水体指的是液态和固态水体所覆盖的地球空间。水圈中的水上界可达大气对流层顶部，下界至深层地下水的下限。包括大气中的水汽、地表水、土壤水、地下水和生物体内的水。各种水体参加大小水循环，不断交换水量和热量。水圈中大部分水以液态形式储存于海洋、河流、湖泊、水库、沼泽及土壤中;部分水以固态形式存在于极地的广大冰原、冰川、积雪和冻土中;水汽主要存在于大气中。三者常通过热量交换而部分相互转化。

水生植物一般指能在水中生长的植物。水生植物主要分为挺水植物、浮叶植物、漂浮植物和沉水植物四大类，有时把一些水缘植物和喜湿植物也划归水生植物。水生植物具有保存生物多样性、净化水质、美化水景和固坡护岸的作用。

水体和水生植被的发展阶段

描述水生植被演替系列多通过植物群落的空间排列顺序(生态系列)来推断时间演替系列。水体沿岸带有沉水植物群落、挺水植物群落和湿生植物群落，它们代表了淡水水生植物群落演替的不同阶段。水生植被的演替以植被优势种的演替为代表。水生境中的原生演替是从藻类开始，路径是：藻类→沉水植被→浮叶植被→挺水植被→湿生植被→陆生植被，最终结局是水生植物和水体消失。逆向演替也称为退化，表现为其演替方向与原生演替相反。演替的结果是植被结构趋于简化，生物多样性下降。

任何水体一经产生就开始了在物理、化学和生物因子等方面的相互作用，早期环境因子起主导作用，到后期生物因子又占主导作用。同一生活型的不同水生植物可能是水体和水生植被不同发展阶段的代表性种类。例如，沉水植物苦草和竹叶眼子菜是水体发展早期的优势种，适宜水位波动大的环境，它们呈稀疏分布，群落生物量低。当水位逐步稳定后，水生植物的优势种可能更替为微齿眼子菜、黑藻和穗花狐尾藻等，水底密闭起来，群落生物量增加。

2水体水位对水生植物的影响

在自然生境中，水位很少保持不变，面对这种动态条件，植物通常会产生形态可塑性以及改变地下生物量和地上生物量的分配方式确保生存。对于整个群落而言，水位变动产生的影响也很显著。

植物形态的改变

以无性繁殖为主的水生植物，尤其是具有较遗传延展性的个体，能够通过改变植物本身的形态来适应水深在时空上较大的变化。如在深水里，蓖齿眼子菜的生活型从原来的毛刷型变为聚合型。这是有利的，能够增强植物的功能。各种生活型植物对于水深的变动呈现不同的形态。挺水植物对水位梯度的形态改变，主要包括生长形态、繁殖和生物量分配模式的改变。形态方面，主要包括叶柄伸长、异型叶的产生，茎长、茎数、茎直径、匍匐茎直径和匍匐茎等级的改变。如芦苇幼苗在淹没状态下其节间距会增长。这种增长有2个可能的机制，由于向周围水体释放的截短而导致乙烯浓度升高的或是由于溶氧减少导致乙烯产生增高的一种协调。在淹没期间，部分淹水植物所有的被淹没的叶子都会衰老，只有末端的叶子会偶尔幸存。繁殖的变化主要包括花期、花序长度、花瓣宽度以及繁殖器官干重等的改变。如芦苇在水位下降后其种子有很高的萌发率。浮叶根生植物改变的形态主要表现在叶和花。如水位上升，浮叶植物荇菜的叶柄迅速伸长，但是支撑叶片的叶柄和茎变得更脆弱。浮叶植物菱有相对发达的根系统，在一定范围内的水位变动下，菱仍能固定在底泥中，而且幼叶能通过叶柄的伸长维持在表面。水位的升高导致花以及芽苞被水淹，无法形成种子，水位降低并不会影响花和果实的产生。沉水植物的也很显著，如苦草在深水中具有较高的株高，叶更长更薄，因为在光强较弱的深水中合成单位干物质需要更多叶面积去获得光资源。而在水较浅时，光强太大会抑制其生长，叶子变成紫红色来调节对所需光资源的摄取。

植物数量的增加

水位对植物产生的另一个显著影响是改变其数量。对于不同生活型的植物而言，水深影响其生物量的机理是不一样的。水深直接地影响挺水植物群落的数量，通过减小光照强度间接地影响沉水植物群落数量。对于同种植物，水位的变动能改变地下数量和地上数量的分配比例。挺水植物随着水位的增加，茎重在整株数量中的比例上升，地下部分比例就会降低，分配到根和根状茎的数量降低，在风浪的作用下更容易被连根拔起。

植物物种的多样性

在沿岸带，通常水生植物生物多样性很高，其原因之一是水位波动使得沿岸带一直处于干扰状态。根据中度干扰法则，适度的干扰有利于物种多样性的提高。水位波动引起湿地种子库的再生也是重要原因，而且这种作用与洪涝和干旱发生的频率以及持续时间相关。水位的短期变动和长期变动，特别是水位下降，通过建立和破坏低多样性集群的外来物种入侵，从而影响物种多样性。水位下降是多种植物成功萌发和存活的先决条件，为适应浅水生活的物种建立创造了机会，也能支持新的外来物种的成功入侵。水位下降会阻止优势种控制整个群落，从而增加物种多样性。然而，在高水位条件下，很多湿地植物种的根茎萌发受抑制，降低了物种的多样性;如莱茵河畔在河流低泄量期间，夏季特大洪水会引起水生植物物种多样性减少。可见高水位和低水位对物种多样性的影响是不同的，相对于高水位，低水位的作用更显著而且有利。

3波浪形态的水体对水生植物的影响

江、河、湖岸浪蚀是这些水体顺向演替的自然过程，浪蚀淤积也是影响这些水体寿命的重要因素。在自然界随着水体的演替，岸坡趋缓并沉积土壤，为水生植物的生存繁衍创造了条件，植物的生长减缓了水岸的侵蚀，是演替的阻力，但植物体的腐烂沉积、水中有机质含量的大幅度提高，丰富了水体营养，提高了水体生物量，从这个角度说水生植物对整个水体的演替是有贡献的。

商住区和公共绿地内部的小水系一般来说范围小、禁航、水流缓慢，对岸线冲刷、侵蚀较小，对水生植物的种植生长影响不大。江河湖泊等水体由于风浪、船形波或水流急速冲刷给水生植物的种植、生存带来很大困难。如风浪和船形波将会直接或通过堤岸反射，强烈地直接拍打或摇动植物体，从而使植物叶片破碎、茎被折断，甚至植物体被连根拔起，影响植物的生长甚或导致其死亡。

4沼泽地对水生植物的影响

沼泽是指地表过湿或有薄层常年或季节性积水，土壤水分几达饱和，生长有喜湿性和喜水性沼生植物的地段。由于沼泽地土壤水多、缺氧，故沼生植物有发达的通气组织，有不定根和特殊的繁殖能力。沼泽可生长的水生植物很多，如萱草、泽泻、慈菇、海芋、花菖蒲、千屈菜、梭鱼草、小婆婆纳等。沼泽植被以挺水植物为主，多属于莎草科、禾本科及藓类和少数木本植物。

5结束语

水生植物具有观赏、净化以及生物多样性高的特点。水生植物及其环境是许多鸟类、鱼类和其他动物的栖息地和繁殖场所，在生物多样性保护方面具有重要意义。另一方面，水生植物及其环境又是一种脆弱的生态系统，易受到人类活动的影响。水体与水生植物关系也随着人类的活动影响，变得互动起来，水体的污染问题在水生植物的作用下也得到了很好的解决。

摘要：植物生长三维动画已经越来越广泛地应用在各个领域，如城市规划、影视娱乐、广告宣传等。对植物生长三维动画的研究内容、演示方式、动画特点进行归纳与概括。从软件技术的角度对植物生长三维动画的表现形式、研究现状、关键技术、制作方法、适用对象、优缺点进行研究、分析和比较，对该领域未来的发展趋势进行了展望。为有效推进植物数字可视化建设和提高动画创作效率提供参考。

关键词：三维技术; 植物; 生长; 动画

0 引言

植物是大自然的重要组成部分，随着计算机三维动画技术的发展，植物生长三维动画被广泛应用于教育、科研、遥感、游戏、数字影视等众多领域。

1 植物生长三维动画的生长方式

经过大量的理论和实证研究，总结了植物生长三维动画方式，主要有以下几种。

⑴ 破土而出式

植物最初是生长在暗地里的一颗种子，慢慢破土而出，拔节而长，枝繁叶茂，开花结果。这类生长动画便于演示植物动态的生长过程，营造出生命和希望爆发的活力。

⑵ 藤蔓伸展式

不少影视作品和建筑艺术动画中都能看到藤蔓植物慢慢伸展，绝强地依附攀援，增加场景生机和活力的景象。除了绿化的作用，这类动画给人以在逆境中不屈服，顽强展示生命力和活力之意。

⑶ 层叠上升式

层叠上升式比较符合林木类植物的生长规律。植物按照一定的层次从地面节节往上拉升，叶子、花、果等则以粒子形态般急剧增长，就像地面赋予无穷无尽的生命力和活力一样，给人以强烈的视觉冲击和神奇的创意享受。

⑷ 迷幻障眼式

迷幻障眼式是植物生长中比较虚幻、神化的方式，好比变魔术，往往借助于强烈光效、迷幻烟雾等效果来实现，光效、烟雾之后植物出现在面前。

图1 植物生长三维动画方式

2 植物生长三维动画关键技术

植物生长三维动画有许多方法。3ds max、MAYA等三维软件都带有植物模型，粒子系统也能实现植物生长动画效果。但是三维软件自带的植物模型种类较少，粒子系统又难以实现较为真实、自然的生长动画效果。植物插件的出现，能有效解决动画效果和创作效率上的问题，成为三维动画创作的热门工具。下面就几款主要的植物插件进行分析和比较，以助于提高应用者的动画创作效率。

Ivy Generator和Guruware Ivy插件

Ivy Generator是德国康斯坦茨大学开发的一款藤本三维软件，主要用于模拟以攀爬为主的藤本或草本植物的生长。通过对生长参数的调节，可随机生成不同形态的藤本植物模型。其特点是不需要应用复杂的植物生长机理模型，侧重于计算机图形学，迅速生成逼真的植物模型，追求基于视觉效果的真实性[1]。但Ivy Generator不能直接实现植物生长动画，只有将模型输出成OBJ和MLT材质物体，再导入3ds max等三维软件中制作动画效果。该插件的系统耗用较大，不适合表现大规模的植物场景[2]。

Guruware Ivy是Ivy Generator的改进版本。Guruware Ivy使用更方便，功能亦有增强，通过为Age(藤蔓年龄)属性设置关键帧可以轻松实现藤蔓生长、攀爬的动画效果[3]。

XFrog

XFrog是德国Greenworks公司开发的三维植物软件，可实现植物的直观交互建模和生长模拟。XFrog所有的树叶、枝干、花朵等都采用实物扫描，使得模型更加真实，开放的光年系统和层级的表现方式，使其操作性更简便，可控性更强[4]。XFrog在植物生长模拟过程中，通过关键帧动画实现，有两种方法。①起始和结束关键帧为同一关键帧。可以保证模型拥有相同的拓扑结构，生成动画较为平滑。但应尽量减少直接修改植物参数的操作，否则会大大降低动画的真实感。②起始和结束关键帧为不同关键帧。可以把起始关键帧的模型细化，缺点是XFrog插补的部分较多，不如第一种方法的动画效果平滑自然[5]。 GrowFX

GrowFX是俄罗斯Exlevel公司基于3ds max平台开发的一款植物插件，可创建参数化的树木、花草及其他植物模型，自由创建风力和生长动画效果，前提是要有GrowFX调节出来的未塌陷的文件[6]。GrowFX除了可使用官方的植物库资源，还有灵活的自由度。通过植物年龄、生长方向、风效、动画效果等随机参数的调节，快捷得到植物的其他形态。

Vue

Vue是一个专业的CG景观设计工具套组，可以制作出逼真的自然环境，还可以和3ds max等三维软件套用。Vue可以在现有植物库基础上进行再加工和改造，容易产生新的植物形态和物种，根据用户实际需要自由形成植物生长、形态变化等动画效果。Vue操作简便、场景表现逼真。云计算的建模方式、快速的渲染时间等特点，使得它特别适合表现自然空间大场景，主要用于中、远景表现[7-8]。

T-Gen插件

T-Gen是第一个完全整合进SoftImage|XSI的植物生成插件，拥有强大的灵活性和无穷的可能性。可以使用几乎所有XSI工具对其产生的植物模型、材质、层级结构做进一步修改。T-Gen各类参数几乎都可用于设置动画效果，强大的优化工具使其在植物生长动画方面有着快速、高效的优势。

SpeedTree、TreeStorm和Forest Pack Pro

SpeedTree、TreeStorm和Forest Pack Pro都是目前在建筑漫游动画和园林设计中比较常用的植物插件，拥有强大的植物库，模型真实感强，绘制效率高，支持植物动力学，可模拟风吹植物动画效果，分别适宜表现中近景和大片的远景植物[9-10]。但它们没有植物生长动画功能，凭借丰富的软件开发接口可以和3ds max等三维软件结合使用，以实现植物生长动画效果。

3 结束语

植物生长三维动画将缓慢的植物生长过程动态化、形象化展现。本文所介绍的几种植物三维生长动画关键技术，因各自不同的特点和优势，在表现一些大型的自然场景中，往往需要把多种方式相结合。

由于植物结构复杂，表面细节丰富，使其无论在三维建模、动态模拟方面都存在较大难度，以下问题有待进一步深入研究：①当前主要实现单株植物的三维模拟，缺乏对于大规模植物生长动画场景的模拟研究;②植物形态受到光照、风力、温度等自然环境因素影响，对更为复杂、逼真的植物生长交互模拟将是未来的一个重要研究方向。

参考文献：

[1] 王海，林杉，黄心渊.植物生成软件的评价和比较[J].计算机仿真，：177-180

[2] 王媛等.An ivy Generator三维藤本植物建模技术应用研究[J].安徽农业科学，(08)：3196-3197

[3] 孙楠.藤蔓可以这么“种”出来――Groupware Ivy插件牛刀小试[J].现代电视技术，：127-129

[4] 胡逊之.面向树木科普知识的三维游戏设计[D].北京林业大学，：27-28

[5] 王忠芝，胡逊之，伍艳莲，梁敬东.基于XFrog的树木建模及生长模拟[J].北京林业大学学报，：64-68

[6] Grow FX定制树[EB/OL].[2012-10-29

[7] 于淼，杨立新.基于Vue软件的景观场景表现技术的应用研究[J].中国园艺文摘，：94

[8] 贾勇，于淼.VUE软件在园林设计应用中的构成要素分析[J].中国园艺文摘，：116-117

[9] 赵塘滨.基于3ds max的自然场景制作技术[J].美术学刊，：57-58

[10] 刘颖，罗岱，黄心渊.基于OSG的SpeedTree植物模型绘制研究[J].计算机工程与设计，：2406-2407

（植物学研究）里面有~像一些中草药或者稀有植物都有~你对什么感兴趣你就写什么呗

天童山植物鉴赏作为一名大学生，实习，是必不可少的重要一课。它可以考验一个人理论联系实际的能力，也可以为以后走上工作岗位打好坚实的基础。短短的实习期间在人生长河中不算什么，但他对我的影响却是巨大的。实习给我提供了一个能力多方面锻炼的机会。实习期间包括着专业知识的具体应用，也镶嵌着人生哲学的探测，也让我有机会融入大自然，而这一切都是在浓浓的师生情，学友情的烘托下，在美丽大自然的呵护下，以及天童寺浓郁佛教氛围气息的笼罩中完成的。天童实习注定是我大学生活里比较生动的一页，也将是我人生长河里一波深刻的浪花，这浪花打在心田，将留下清凉剔透的清爽和熨帖般的安逸。我对此次实习非常满意，以学术科研为主，又揉合了很多的生活情趣，很适合我们这个年龄阶段的去感受，下面我就此次实习所体验的植物鉴赏方面做简要描述和感悟。实习的地点是浙江宁波天童山。天童山距宁波市区三十公里，相传西晋永康元年（公元300年）有个义兴法师在此山结茅开山，建造精舍，感动了玉帝，随派太白金星化作童子为他服侍，功成而去。因此称为天童。实习的具体地点是天童国家森林公园，天童山国家森林公园位于宁波市鄞县东郊的太白山麓，距宁波28公里，面积707公顷，是我国最早建立的3个森林公园之一。公园以寺庙、森林、奇石、怪洞、云海、晚霞著称，形成古刹、丛林两大特色，既是游览胜地，也是植物生态学的科普教育基地。是亚热带林区。这里生态环境优美和谐，资源丰富。园内已形成拥有8个植物群的天然植物园，其中不少是国家珍贵树木。天童森林公园文物古迹众多，主要有听涛亭、水月亭、甲寿泉、甲寿坊、玲珑岩、盘陀石、飞来峰、观音洞、洞外天、拜经台、密祖塔等。"天童千重秀，丛林十里深"。天童森林公园内植物资源丰富，形成了江南独特的高大茂密的多种植被群落和森林景观，已被国际植被学会主席称为不可多得的"浙江植物基因宝库"。据调查鉴定，有种子植物148科506属968种，蕨类植物24科49属114种，苔藓植物48科93属165种。另外，有陆生脊椎动物96种，鸟类20多种。森林公园不仅以"大树华盖"闻名于世，而且拥有8个典型森林植被群落，其中木荷、栲树常绿阔叶林群落和江南酸枣、大叶楠落叶阔叶林群落，是亚热带北部生长最好最典型的植被顶极群落，具有很高的观赏和科研价值。天童林场(即天童森林公园)从1958年起由天童林场管辖，1981年经林业部批准建立国家森林公园。该地森林由于历史上受到天童寺的保护和林场的护管而发育良好，是浙江省东北部保存较好的亚热带北部典型的常绿阔叶林生态系统。森林植被以木荷、栲树、米槠占优势的常绿阔叶林外，还有南酸枣、薄叶润楠、披针叶茴香等构成了山谷常绿落叶阔叶混交林，山脊、山麓分布的次生落叶阔叶林、马尾松、杉木、金钱松、毛竹林以及落叶灌木丛等。主要的树种有：木荷(Schima superba)、栲树(Castanopsis fargesii)、米槠(Castanopsis carlesii)、枫香（Liquidamber formosana）、香樟、冬青(Ilex purpurea)、马尾松(Pinus massoniana)、杉木(Cnnniinghamia lanceolata)、映山红(Rhododendron simsii)、继木(Loropetalum chinense)、白栎(Quercus fabri)等。学习实践：学习是学生的天职，虽然置身于美丽的大自然怀抱中让人忘乎所以，但学习仍是第一位的，在风景秀美的天童山专心学习相对枯燥的专业知识是一种较大的考验。专业实习给我最大的启示是让我更好的理解了“细节彰显魅力”这句话。植物学是一门比较宏观的学科，但他所体现的微观细节知识让人不得不严谨细致的对待，在辨认植物的时候，品种繁多的植物在我看来是千篇一律的。科学是严谨的，生活同样是严谨的，不管以后我从事什么职业也不管我选择怎样的人生道路，注意细节将伴我一生，这不是什么高尚的个人素质，而是作为一个人应当具有的本能。植物实习主要内容是植物样方标本的统计，这需要植物辨认的基本功过硬，要对每一种植物的特征和生长特征做到准确的掌握。植物样方采样统计是植物实习最基本的野外实习技能。在植物实习的后期，老师带我们观察了不同生境植被的特点以及相同生境里不同植被类型的演替痕迹和特征，其中有一块植被是遭受火灾后重新发育的，在这片林子里，树木比较细长稠密，物种种类比较少，这和它的发育晚，物种间竞争激烈有关，植物为了争取更多的阳光，争取往上延展，所以比较细长。结语：实习就这样结束了，这也许是我人生当中的最后一次实习，尽管对天童山植物鉴赏是肤浅的，但我感觉认识植物与自然是值得的，真正的实习才刚刚开始，并且将会一直延续下去。相信我的朋友和同学也会有同样的感受。

首页

> 学术期刊知识库

目标检测特征金字塔论文翻译