三维点云目标检测论文

本文介绍了一种基于激光雷达数据的激光网络自动驾驶三维目标检测方法——LaserNet。高效的处理结果来自于在传感器的自然距离视图中处理激光雷达数据。在激光雷达视场范围内的操作有许多挑战，不仅包括遮挡和尺度变化，还有基于传感器如何捕获数据来提供全流程信息。

LaserNet通过以下几个步骤实现三维检测：

上图为深层聚合网络架构。列表示不同的分辨率级别，行表示聚合阶段。

上图为特征提取模块(左)和特征聚合模块(右)。虚线表示对特征图进行了卷积。

上图为自适应NMS。在两辆车并排放置的情况下，左边的虚线描述了产生的一组可能的预测。为了确定边界框是否封装了唯一的对象，使用预测的方差(如中间所示)来估计最坏情况下的重叠（如右图所示）。在本例中，由于实际重叠小于估计的最坏情况重叠，因此将保留这两个边界框。

上图为在训练集和验证集上的边界框上的预测分布的校准的图。结果表明，该模型不能学习KITTI上的概率分布，而能够学习较大的ATG4D上的分布。

【实验结果】

上表显示了与其他最先进的方法相比，LaserNet在验证集上的结果。像KITTI基准一样，我们计算了汽车 IoU和自行车及行人0:5 IoU的平均精度(AP)。在这个数据集上，LaserNet在0-70米范围内表现优于现有的最先进的方法。此外，LaserNet在所有距离上都优于LiDAR-only方法，只有在附加图像数据提供最大价值的长距离上，车辆和自行车上的LiDAR-RGB方法优于LaserNet。

对ATG4D数据集进行消融研究，结果如上表所示。

预测概率分布。预测概率分布最大的改进是预测边界框架的分布。当仅预测平均边界框时，公式(6)为简单平均，公式(9)为框角损失。此外，边界框的得分在本例中是类概率。实验结果表明，性能上的损失是由于概率与边界框架的准确性没有很好地相关性导致的。

图像形成： Velodyne 64E激光雷达中的激光器并不是均匀间隔的。通过使用激光id将点映射到行，并在传感器捕获数据时直接处理数据，可以获得性能上的提高。

均值漂移聚类：每个点独立地预测边界框的分布，通过均值漂移聚类将独立的预测组合起来实现降噪。

非极大值抑制：当激光雷达的点稀疏时，有多个边界框的配置可以解释观测到的数据。通过预测各点的多模态分布，进一步提高了该方法的查全率。在生成多模态分布时，使用具有严格阈值的NMS是不合适的。或者，我们可以使用软NMS来重新评估置信度，但是这打破了对置信度的概率解释。通过自适应NMS算法，保持了概率解释，并获得了更好的性能。

对于自动驾驶而言，运行时性能同样重要。上表比较了LaserNet(在NVIDIA 1080Ti GPU上测量)和KITTI上现有方法的运行时的性能。Forward Pass是指运行网络所花费的时间，除Forward Pass外，总时间还包括预处理和后处理。由于在一个小的密集的范围视场内处理，LaserNet比目前最先进的方法快两倍。

使用训练集中的5,985个扫描点训练网络，并保留其余的扫描以进行验证。使用与之前相同的学习时间表对网络进行5万次迭代训练，并在单个GPU上使用12个批处理。为了避免在这个小的训练集上过度拟合，采用数据增强手段随机翻转范围图像，并在水平维度上随机像素移动。在这样一个小的数据集中，学习边界框上的概率分布，特别是多模态分布是非常困难的。因此，训练网络只检测车辆并预测边界框上的单峰概率分布。如上表所示，我们的方法在这个小数据集上的性能比当前最先进的鸟瞰图检测器差。

论文传送门：

【欢迎大家提供行业新闻热点，商业合作请联系：】

在达摩院做3d目标检测，简单调研一下。使用RGB图像、RGB-D深度图像和激光点云，输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。在无人驾驶、机器人、增强现实的应用场景下，普通2D检测并不能提供感知环境所需要的全部信息，2D检测仅能提供目标物体在二维图片中的位置和对应类别的置信度，但是在真实的三维世界中，物体都是有三维形状的，大部分应用都需要有目标物体的长宽高还有偏转角等信息。例如下图中，在自动驾驶场景下，需要从图像中提供目标物体三维大小及旋转角度等指标，在鸟瞰投影的信息对于后续自动驾驶场景中的路径规划和控制具有至关重要的作用。3DOP这篇文章是当下使用双目相机进行3D bounding-box效果做好的方法，其是Fast RCNN方法在3D领域之内的拓展。由于原论文发表于NIPS15，出于Fast RCNN的效果并没有Faster RCNN和基于回归的方法好，且远远达不到实时性，因此其处理一张图片的时间达到了。它使用一个立体图像对作为输入来估计深度，并通过将图像平面上像素级坐标重新投影回三维空间来计算点云。3DOP将候选区生成的问题定义为Markov随机场(MRF)的能量最小化问题，该问题涉及精心设计的势函数(例如，目标尺寸先验、地平面和点云密度等)。随着获得了一组不同的3D目标的候选框，3DOP利用FastR-CNN[11]方案回归目标位置。论文主要基于FCOS无锚点2D目标检测做的改进，backbone为带有DCN的ResNet101，并配有FPN架构用于检测不同尺度的目标，网络结构如图1所示：基于iou 3d，可以定义出TP和FP 通过绘制精确性×召回率曲线（PRC），曲线下的面积往往表示一个检测器的性能。然而，在实际案例中，"之 "字形的PRC给准确计算其面积带来了挑战。KITTI采用AP@SN公制作为替代方案，直接规避了计算方法。 NuScenes consists of multi-modal data collected from 1000 scenes, including RGB images from 6 cameras, points from 5 Radars, and 1 LiDAR. It is split into 700/150/150 scenes for training/validation/testing. There are overall annotated 3D bounding boxes from 10 categories. In addition, nuScenes uses different metrics, distance-based mAP and NDS, which can help evaluate our method from another perspective.

点云补全目标检测论文

可以使用 Meshlab 中的 Cleaning and Repairing 功能来补全点云，操作步骤如下： 1. 打开 Meshlab，然后点击“File”菜单，选择打开要补全的点云文件。 2. 点击“Filter”菜单，在弹出的对话框中，依次选择“Cleaning and Repairing” -> “Remove Isolated Pieces”，再勾选“Unselect Isolated Pieces”，然后点击“Apply”按钮。 3. 再点击“Filter”菜单，依次选择“Selection” -> “Select Connected Comp.”，再勾选“Connected Components”，它会根据连接的部分来提取一整块拼图，然后点击“Apply”按钮。 4. 点击“Filter”菜单，依次选择“Smoothing” -> “Ball Pivoting”，勾选“Remesh selected pieces”，然后点击“Apply”按钮。 5. 此时，可以看到补全后的点云，如果还不满意，可以再重复上述步骤直至达到理想的补全效果。

论文原文：

YOLO（you only look once）是继RCNN、faster-RCNN之后，又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下，解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比：

如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测，那么yolo则是更进一步，将目标区域预测与目标类别判断整合到单个神经网络模型中。各检测算法结构见下图：

每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息，其值是这样计算的：

其中如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

每个bounding box要预测(x, y, w, h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。即SxS个网格，每个网格除了要预测B个bounding box外，还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。（注意：class信息是针对每个网格的，即一个网格只预测一组类别而不管里面有多少个bounding box，而confidence信息是针对每个bounding box的。）

举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示：

在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score:

等式左边第一项就是每个网格预测的类别信息，第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率，也有该box准确度的信息。

得到每个box的class-specific confidence score以后，设置阈值，滤掉得分低的boxes，对保留的boxes进行NMS（非极大值抑制non-maximum suppresssion）处理，就得到最终的检测结果。

1、每个grid因为预测两个bounding box有30维（30=2*5+20），这30维中，8维是回归box的坐标，2维是box的confidence，还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间，w,h除以图像的width和height也归一化到0-1之间。

2、对不同大小的box预测中，相比于大box预测偏一点，小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题，作者用了一个比较取巧的办法，就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解，小box的横轴值较小，发生偏移时，反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。

3、一个网格预测多个box，希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大，就负责哪个。这种做法称作box predictor的specialization。

4、损失函数公式见下图：

在实现中，最主要的就是怎么设计损失函数，坐标（x,y,w,h），confidence，classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足：

解决方法：

只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候，才会对box的coordinate error进行惩罚，而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。

作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段，采用网络中的前20卷积层，外加average-pooling层和全连接层。模型训练了一周，获得了top-5 accuracy为（ImageNet2012 validation set），与GoogleNet模型准确率相当。

然后，将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层，提高了模型输入分辨率（224×224->448×448）。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation，其它层使用 leaky rectified linear。

作者采用sum-squared error为目标函数来优化，增加bounding box loss权重，减少置信度权重，实验中，设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮，batch size为64，动量为，学习速率延迟为。Learning schedule为：第一轮，学习速率从缓慢增加到（因为如果初始为高学习速率，会导致模型发散）；保持速率到75轮；然后在后30轮中，下降到；最后30轮，学习速率为。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为；data augmentation包括：random scaling，translation，adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点：

1、 YOLO检测物体非常快

因为没有复杂的检测流程，只需要将图像输入到神经网络就可以得到检测结果，YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且，YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、 YOLO可以很好的避免背景错误，产生false positives

不像其他物体检测系统使用了滑窗或region proposal，分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息，因此YOLO在检测物体时能很好的利用上下文信息，从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比，YOLO的背景错误不到Fast-R-CNN的一半。

3、 YOLO可以学到物体的泛化特征

当YOLO在自然图像上做训练，在艺术作品上做测试时，YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征，从而迁移到其他领域。

尽管YOLO有这些优点，它也有一些缺点：

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好（尤其是密集的小物体，因为一个栅格只能预测2个物体）。

论文地址：前置文章：10/16、10/17、10/18

本文提出了Point Fractal Network(PF-Net),旨在从不完整的点云数据中恢复点云，克服了之前方法修改现有数据点、引入噪声和产生几何损失的缺点。

由前置文章可知，之前的点云修复方法是输入不完整的点云，输出完整的点云，但这样会导致原有信息的缺失。这篇文章提出PF-Net，主要特点有三个：

网络的整体结构如下：

网络详细推理步骤如下：

损失函数使用完整性损失和对抗损失的加权平均，完整性损失使用L-GAN中提出的CD距离：

对抗损失使用GAN中常见的损失函数

感觉这篇文章对多尺度的运用非常极致，在编码器、解码器和CMLP中都应用了这种思想，最后的效果也非常不错，很值得借鉴。

论文地址：

PointNet提出一种基础的网络结构，可以用于点云分类、部分分割和语义分割等多种任务。在这篇文章之前，点云数据的处理方式是将点云数据转换为多个二维的视图或三维的体素形式，然后应用2D/3D CNN进行处理，但这样引入了多余的体积，效率不高。本文是第一个直接使用点云数据的神经网络。（其实可以这样类比，在二维图像处理中，假设图像是二值化的，传统方法是将这个图像直接丢到CNN里面，但如果背景特别多会比较浪费资源。直接使用点云数据相当于直接将前景像素的坐标输入到神经网络里面，对稀疏数据会有比较好的性能，但因为以下三个问题导致直接使用坐标信息比较困难）由于点云的排列是无序的（可以想象，点云中任意一点排在前面对点云的表达都是相同的）、点云之间是有相互作用的（相邻的点云才能构成形状）、点云在某些变换下具有不变性（比如旋转不会改变点云的类别）这些特性，要求神经网络既能处理无序的数据，又能捕捉全局的结构特征，同时对刚性变换不敏感。基于这些条件，作者提出了如下的网络结构：

可以简要分析一下网络的工作流程，以点云分类问题为例：

感觉网络的结构虽然简单，但是却很好地满足了点云数据自身特性对神经网络的要求。而且我觉得在图像处理中，也有时候必须用到坐标信息或者一些标量特征，这篇文章的方法对于怎样将这些特征融合进CNN里面也有一定的启发意义。

论文地址：

这篇文章的主要工作是：

首先来看衡量两个点云相似程度的指标部分，作者首先给出了两个距离，EMD和CD：

在计算上，CD更为简便，而且EMD是不可导的。

基于这两种距离，作者引入了三种衡量两个点云相似程度的指标：JSD、Coverage和MMD：

定义了指标后，就可以实现自动编码器和生成模型了。作者提到了四种结构，分别是：

作者同时验证了AE的一些其他功能，比如如果给AE的编码器输入不完整的点云数据，即可训练得到点云复原的模型。使用SVM对低维表示进行分类，即可进行点云分类的任务，证明AE在点云数据形式中的潜在应用较为广泛。

论文地址：

PointNet++针对PointNet提取局部信息能力不强的弊端，提出了一种层次神经网络，可以更好地提取局部信息。其中心思想是将整个点云分割成若干个小部分来提取信息，然后将每个小部分整合成较大的部分，提取更高层次的信息。类似于CNN中卷积和下采样的思想。首先来看网络结构图：

网络大概可以分为两个部分，左边是层次的点云特征提取网络，右边是针对不同任务的解码网络。特征提取分为若干个set abstraction模块，每个模块又分为采样层、分组层和特征提取层。

得到了较高层次的特征后，对不同的任务需要不同的解码网络。对分类网络来说比较简单，使用全连接即可。对分割网络来说，由于对每个点都需要输出数值，则需要类似上采样的操作。具体的实现作者使用了插值的方法，将较少的点插值到较多的点上去。首先找到插值的目标坐标，然后寻找K个距离最近的已知点，以距离的倒数作为权重，将K个点的特征做加权平均，作为这个点的特征。然后使用之前特征提取中得到的该点的特征与当前特征做一个拼接，即可得到最终特征（类似U-Net的skip connection）。公式如下：

感觉这篇文章和PF-Net的思想差不多，都是希望提取多尺度的特征。但是思路不一样，都值得借鉴。

顶会论文之三维目标检测总结

三维的课程目标应是一个整体，知识与技能、过程与方法、情感态度与价值观三个方面互相联系，融为一体。在教学中，既没有离开情感态度与价值观、过程与方法的知识与技能的学习，也没有离开知识与技能的情感态度与价值观、过程与方法的学习。新课程背景下的课堂教学，要求根据各学科教育的任务和学生的需求，从“知识和能力”“过程和方法”“情感态度和价值观”三个方面出发设计课程目标。具体到教学实践，就是要把原来目标单一(即知识与技能)的课堂转变为目标多维(即知识与能力、过程与方法、情感态度与价值观三个维度)的课堂。

知识目标，能力目标，情感与价值目标

《基础教育改革与发展纲要》确立了“知识与技能、过程与方法、情感态度与价值观”的三维教学目标。其中，知识与技能仍然被作为一个重要的教学目标放在了突出地位，后面两个目标则充分体现了新课程以学生发展为本的特征（可称之为“过程性目标”）。三维目标的确立为基础教育顺应时代发展作出了科学的目标定位。教学目标是人们对教学结果的一种预设。作为构成教学诸要素中的一个至关重要的因素，它既是教学的出发点，又是教学的归宿。因此，教师在教学实践中对课时教学目标的制定是否恰当，教学过程中目标的达成度如何，将直接决定一堂课的教学效果，进而决定教学质量。在此，本人拟从目前课堂教学中的一些现象分析出发，就小学数学教学中怎样理解、把握和处理三维目标的有关问题，谈一点个人的看法。[现象一] 在一些课堂上，尤其是在一些公开课中，教师为了突出过程与方法、情感态度与价值观的教学目标，尽其所能地创设了各种“生动”的教学情境，安排了大量的游戏、操作、自主探索与合作学习等活动，并在教学中不时地加入一些贴标签式的“道德情感教育”，课堂上学生兴趣高涨，气氛热烈。然而在“热闹”之余，往往看不到教师在知识与技能形成的关键处给学生以必要的引导和点拨，学生在实践活动之后缺乏理性的总结归纳，很多课堂上没有学生独立思考和独立完成作业的时间。因此，在对学生进行成绩检测时，其基础知识和基本技能的掌握情况往往达不到《课程标准》或《教学大纲》的基本要求。不少教师由此深感困惑：我在教学中如此尽力地体现新课程理念，为何在教学质量上事与愿违？[现象二] 课程改革在我县正式实施已近两年，但在一些教师的教学中，仍然表现出只追求知识技能单一目标的倾向。看其教学设计，难见数学思考、解决问题与情感态度方面的目标表述；观其课堂教学，基本沿袭传统模式，学生主要通过听讲或简单的问答去接受知识。一节课下来，除了被动接受的基础知识与基本技能，学生在其他方面鲜有收获。[反思]产生以上两种现象的根本原因，一是教师对新课程三维目标的认识不足;二是对三维目标间的关系把握失当;三是教学目标游离于教学过程之外,没有得到落实。“现象一”暴露出对知识技能目标的忽视，导致教学只有热闹的过程，学生没有掌握后继学习所必备的基础知识与基本技能，是一种华而不实、无果而终的教学；“现象二”则反映出教学中过程性目标的缺失，这样的教学使学生的思维能力、探索精神和创新意识等综合素质的发展严重受限。以上两种现象反映了当前课改背景下小学数学教学中出现的两个极端，它们都偏离了课程改革的正常轨道，若不及时纠正，将严重影响小学数学教学质量的提高和课程改革的深入推进。[对策] 一、加强理论学习，深入理解课程目标1、明确数学教学的三维目标在《数学课程标准》中，三维目标在结构和表述语言上都有变化。根据数学教学的学科特点，《数学课程标准》对“知识与技能、过程与方法、情感态度与价值观”的三维目标进行了分解和重组，从知识与技能、数学思考、解决问题、情感与态度四个方面进行了阐述。细读《标准》可知，这四个方面的目标并非纯粹的并列关系，其中含有相互间的融合与渗透。如在知识技能目标中，多次出现“经历……..过程”，即在某一个方面的目标中，蕴含了其他方面的目标。2、正确理解三维目标之间的关系。知识技能目标同过程与方法、情感态度与价值观这两方面的目标（过程性目标）应该是一种相辅相承的关系，而不是对立的关系。关于这一点，《数学课程标准》中已有明确阐述：“数学思考，解决问题，情感与态度的发展离不开知识与技能的学习，同时，知识与技能的学习必须有利于其他目标的实现为前提。”这就是说，一方面，知识技能目标是实现发展性目标的基础和依托，因为任何过程性目标的实现，都要通过对一定的具体教学内容的学习为载体来进行，如果脱离了具体知识的学习，任何“过程”都只能是无本之木、无源之水而失去价值；另一方面，过程性目标是实现知识技能目标的中介，因为任何知识和技能总是要通过一定的学习形式和学习过程来获得。只重结果不重过程的教学固然不可取，只重过程而问题得不到解决的课堂教学，也不符合新课程的要求。因此，我们应该牢固树立过程与结果并重的意识,并在教学活动中努力促成各个教学目标之间的协调统一和相互促进.二、在教学设计中整合三维目标，体现新课程教学目标的全面性鉴于以上分析，教师在制定课时教学目标时，就应从知识与技能的掌握和学生的可持续发展两方面着眼，突出教学目标的全面性。现以实例说明：教学内容：九年义务教育数学教材第九册《平行四边形面积的计算》教材分析：本课含有以下教学内容：（1）平行四边形面积公式的推导。（2）平行四边形面积公式的应用。首先，这两个教学内容显然直接对应了本课的知识技能目标。但仅仅看到这一点是不够的，因为教材中还蕴涵着丰富的发展性目标因素，即在推导公式的时候，如果不是由教师包办，而是让学生在教师的引导下去亲历知识的形成过程，就能有效地培养他们的实践能力和合作意识，并得到数学思想方法的熏陶和积极的情感体验。因此，本课的教学目标可确定为：1、使学生初步掌握平行四边形的计算方法，能用平行四边形的面积公式进行计算。2、通过经历平行四边形面积公式的推导过程，培养学生的合作意识、操作实践能力和抽象概括能力，并初步感知平移、转化的数学思想方法。3、使学生通过学习活动获得成功体验，提高学习数学的兴趣，增强学好数学的信心。在以上的教学目标中：第1条属于知识技能目标，它含有“理解并记住平行四边形的面积公式”和“会用公式进行计算”这两个具体的目标。第2、3条则体现了数学思考、解决问题、情感与态度等过程性目标。显然，此教学目标避免了前面所述两种现象中目标缺失不全的弊端，体现了三维目标的整合。三、围绕目标设计教学过程，在过程中落实目标教学目标一经确立，教师就要根据教学目标去组织教学内容，选用教学方法，设计教学过程，使一切教学活动都紧紧围绕教学目标的实现去展开。例如，根据前面确立的《平行四边形面积的计算》一课的教学目标，在设计教学过程时，就应该把握以下几个要点：1、以复习长方形面积公式引入新课。（“转化”的起点）2、进入探求新知的环节后，可先让学生大胆猜想平行四边形面积的求法，再通过合作交流和教师的引导，明确转化的方向。3、动手实践,完成转化。让学生通过剪、移、拼等操作活动，完成平行四边形到长方形的转化。此时，教师要让学生明确“延高剪开”的必要性。（转化的关键）4、引导学生通过比较分析，得出平行四边形面积的计算公式后，教师应作小结并再现公式的推导过程，同时启发学生去感悟平移和转化的数学思想方法。（进一步落实数学思考目标）5、保证课堂练习的质量和时间，以使学生牢记和熟用公式。同时,教师要根据课堂交流和作业反馈信息，对知识技能目标的达成度进行量化检测。（落实知识技能目标、解决问题的目标）在此，我们可以设想这样的教学进程：在教师的引导下，学生通过动手剪切、平移和拼接，将平行四边形转化成长方形；再通过观察、比较、分析和概括，归纳出平行四边形的面积公式；然后，带着成功的喜悦，利用公式去解决求面积的各种实际问题……整个过程完全围绕预先设立的教学目标来进行。学生通过亲历这个过程，不仅能够牢固掌握并熟练运用S=ah这个公式，而且对平移和转化的数学思想方法有了初步体验，在数学思维和学习方法上进行了一次有效的积累，感受了成功的快乐，增强了学习的兴趣和信心。在这样的教学中，知识技能目标与过程目标都得到了落实，而且各个目标之间在功能上形成了一种相互促进的关系，而这正是实施新课程的目的所在。教学目标是教学的根本，是进行小学数学教学首先要完成的。如：使学生能正确地理解概念、牢固地掌握概念、正确地运用概念等一些有关基础知识、基本技能的教学目标，完成这些基本的教学目标是实现教学的首要前提。作为构成教学诸多要素中的一个至关重要的因素，它既是教学的出发点，又是教学的归宿点。因此，教师在教学实践中对课时教学目标的制定是否恰当，教学过程中目标的达成度如何，将直接决定一堂课的教学效果，进而决定教学质量。在此，本人就目前课堂教学中的一些现象和小学数学教学中怎样理解、把握和处理三维目标的有关问题，谈一点个人的看法。在一些课堂上，尤其是在一些公开课中，有这样的现象：教师为了突出过程与方法、情感态度与价值观的教学目标，尽其所能地创设了各种“生动”的教学情境，安排了大量的游戏、操作、自主探索与合作学习等活动，并在教学中不时地加入一些贴标签式的“道德情感教育”，这样的课堂学生往往兴趣高涨，气氛热烈。然而在“热闹”之余，往往看不到教师在知识与技能形成的关键处给学生以必要的引导和点拨，学生在实践活动之后缺乏理性的总结归纳，很多课堂上没有学生独立思考和独立完成作业的时间。因此，在对学生进行成绩检测时，其基础知识和基本技能的掌握情况往往达不到《数学课程标准》的基本要求。还有一种现象，在一些教师的教学中，仍然表现出只追求知识技能单一目标的倾向。看其教学设计，难见数学思考、解决问题与情感态度诸方面的目标表述；观其课堂教学，基本沿袭传统模式，学生主要通过听讲或简单的问答去接受知识。一节课下来，除了被动接受的基础知识与基本技能，学生在其他方面鲜有收获。以上两种现象反映了当前参与式教学中数学教学出现的两个极端，它们都偏离了参与式的正常轨道，要纠正这些现象，除加强理论学习，深入理解课程目标外，还应：一、在教学设计中整合三维目标，真正体现参与式教学目标的全面性。教师在制定课时教学目标时，应从知识与技能的掌握和学生的可持续发展两方面着眼，突出教学目标的全面性。例如《人教版九年义务教育数学教材第十二册)教材中《圆柱的体积》一节中含有以下教学内容：(1)圆柱体体积公式的推导。(2)圆柱体体积公式的应用。首先，这两个教学内容直接对应了本课的知识技能目标。同时，教材中还蕴涵着丰富的发展性目标因素，即在推导公式的时候，如果不是由教师包办，而是让学生去亲历知识的形成过程，就能培养他们的实践能力和合作意识，并得到数学思想方法的熏陶和积极的情感体验。因此，本课的教学目标可确定为： 1.使学生初步掌握圆柱体体积计算方法，能用圆柱体体积公式进行计算。 2.通过经历圆柱体体积公式的推导过程，培养学生的合作意识、操作实践能力和抽象概括能力，并初步感知切割、转化的数学思想方法。 3.使学生通过学习活动获得成功体验，提高学习数学的兴趣，增强学好数学的信心。在以上的教学目标中：第1条属于知识技能目标，它含有“理解并记住公式”和“会用公式进行计算”这两个具体的目标。第2、3条则体现了数学思考、解决问题、情感与态度等过程性目标。显然，此教学目标避免了前面所述两种现象中目标缺失不全的弊端，体现了三维目标的整合。二、围绕目标设计教学过程，在过程中落实目标。教学目标一经确立，教师就要根据教学目标去组织教学内容；选用教学方法；设计教学过程，使一切教学活动都紧紧围绕教学目标的实现去展开。例如，根据以上所确立的《圆柱的体积》一课的教学目标，在设计教学过程时，应该着重把握以下几点： 1.以复习长方体体积公式引入新课。(“转化”的起点) 2.进入探求新知的环节后，可先让学生大胆猜想圆柱的体积的求法，再通过合作交流和教师的引导，明确转化的方向。 3.动手实践。学生通过剪、拼等操作活动，完成圆柱体到长方体的转化。此时，教师要让学生明确“延高剪开”的必要性。(转化的关键) 4.引导学生通过比较分析，得出圆柱体积的计算公式后，教师应作小结并再现公式的推导过程，同时启发学生去感悟切割和转化的数学思想方法。(进一步落实数学思考目标) 5.保证课堂练习的质量和时间，以使学生牢记和熟用公式。教师要根据课堂交流和作业反馈信息，对知识技能目标的达成度进行量化检测。(落实知识技能目标、解决问题的目标)在此，我们可以设想这样的教学进程：在教师的引导下，学生通过动手剪切、平移和拼接，将圆柱体转化成长方体；再通过观察、比较、分析和概括，归纳出圆柱体的体积公式；然后，带着成功的喜悦，利用公式去解决求体积的各种实际问题……整个过程完全围绕预先设立的教学目标来进行。学生通过亲历这个过程，不仅能够牢固掌握并熟练运用V=sh这个公式，而且对切割和转化的数学思想方法有了初步体验，在数学思维和学习方法上进行了一次有效的积累，感受了成功的快乐，增强了学习的兴趣和信心。在这样的教学中，知识技能目标与过程目标都得到了落实，而且各个目标之间在功能上形成了一种相互促进的关系，这样不仅体现了教学目标的“主体性、探索性、实践性和激励性”原则，也正是实施参与式教学的目的所在。

三维目标是教育理论中的一个新名词。它是指教育教学过程中应该达到的三个目标维度，即：知识与技能；过程与方法；情感态度与价值观。

（1）知识与技能目标：主要包括人类生存所不可或缺的核心知识和学科基本知识；基本能力——获取、收集、处理、运用信息的能力、创新精神和实践能力、终身学习的愿望和能力。

（2）过程与方法目标：主要包括人类生存所不可或缺的过程与方法。过程——指应答性学习环境和交往、体验。方法——包括基本的学习方式（自主学习、合作学习、探究学习）和具体的学习方式（发现式学习、小组式学习、交往式学习……）。

（3）情感态度与价值观目标：情感不仅指学习兴趣、学习责任，更重要的是乐观的生活态度、求实的科学态度、宽容的人生态度。

扩展资料：

1、要整合三维目标，前提是要整体解读文本，科学确定每一个维度的目标。“夫缀文者情动而辞发，观文者披文以入情，沿波讨源，虽幽必显。”在阅读文本时，首先要确定情感态度与价值观的发展点。

2、目标的逐维分解有利于目标的具体化、操作化，分解目标只是教学目标设计的第一步，关键是把分解后的目标整合起来，整合的目标更有利于目标的结构化和整体化。

3、在目标的表述形式上，虽然没有出现知识和能力、过程和方法、情感态度和价值观三个维度目标明显的提示语，但是每一条目标都很好地把三维目标交融在一起，并且分层递进，为课堂教学达到三维目标和谐共振奠定了基础。

参考资料：百度百科-三维目标

目标检测论文点

论文名称：Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间：2014年论文地址：针对问题：从Alexnet提出后，作者等人思考如何利用卷积网络来完成检测任务，即输入一张图，实现图上目标的定位（目标在哪）和分类（目标是什么）两个目标，并最终完成了RCNN网络模型。创新点： RCNN提出时，检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢，作者采用的是Selective Search候选区域提取算法，来获得当前输入图上可能包含目标的不同图像块，再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。参考博客：。论文题目：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间：2014年论文地址：针对问题：该论文讨论了，CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后，在网络后端组织两组卷积或全连接层，一组用于实现定位，输出当前图像上目标的最小外接矩形框坐标，一组用于分类，输出当前图像上目标的类别信息。也是以此为起点，检测网络出现基础主干网络(backbone)+分类头或回归头（定位头）的网络设计模式雏形。创新点：在这篇论文中还有两个比较有意思的点，一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的，而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制，那用1x1卷积来替换FC层，是否可行呢？作者在测试时通过将全连接层替换为1x1卷积核证明是可行的；二是提出了offset max-pooling，也就是对池化层输入特征不能整除的情况，通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练，然后切换分类头为回归头，再训练回归头的参数，最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。参考博客：论文题目：Scalable Object Detection using Deep Neural Networks 提出时间：2014年论文地址：针对问题：既然CNN网络提取的特征可以直接用于检测任务（定位+分类），作者就尝试将目标框（可能包含目标的最小外包矩形框）提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。创新点：本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心，（800个anchor box）然后学习预测不考虑目标类别的二分类网络，背景or前景。用到了多尺度下的检测。参考博客：论文题目：DeepBox: Learning Objectness with Convolutional Networks 提出时间：2015年ICCV 论文地址：主要针对的问题：本文完成的工作与第三篇类似，都是对目标框提取算法的优化方案，区别是本文首先采用自底而上的方案来提取图像上的疑似目标框，然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序；而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点：本文作者想通过CNN学习输入图像的特征，从而实现对输入网络目标框是否为真实目标的情况进行计算，量化每个输入框的包含目标的可能性值。参考博客：论文题目：AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间：2015年ICCV 论文地址：主要针对的问题：对检测网络的实现方案进行思考，之前的执行策略是，先确定输入图像中可能包含目标位置的矩形框，再对每个矩形框进行分类和回归从而确定目标的准确位置，参考RCNN。那么能否直接利用回归的思路从图像的四个角点，逐渐得到目标的最小外接矩形框和类别呢？创新点：通过从图像的四个角点，逐步迭代的方式，每次计算一个缩小的方向，并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。参考博客：论文题目：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间：2014年论文地址：针对问题：如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络，在处理过程中就造成了图像块信息的损失。在实际的场景中，输入网络的目标尺寸很难统一，而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点：作者提出的SPPnet中，通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸，在训练的时候，池化的操作还是通过滑动窗口完成的，池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。参考博客：论文题目：Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间：2015年论文地址：针对问题：既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位，本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点：作者通过对输入网络的region进行一定的处理（通过数据增强，使得网络利用目标周围的上下文信息得到更精准的目标框）来增加网络对目标回归框的精度。具体的处理方式包括：扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置，使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性，从而提高了回归框的精度。参考博客：论文题目：Fast-RCNN 提出时间：2015年论文地址：针对问题： RCNN中的CNN每输入一个图像块就要执行一次前向计算，这显然是非常耗时的，那么如何优化这部分呢？创新点：作者参考了SPPNet（第六篇论文），在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸，从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图，再将原图上用Selective Search算法得到的目标框映射到特征图上，避免了特征的重复提取。参考博客：论文题目：DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间：2015年论文地址：主要针对的问题：本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文，作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。创新点：作者在不同的激活层上以滑动窗口的方式生成了假设，并表明最终的卷积层可以以较高的查全率找到感兴趣的对象，但是由于特征图的粗糙性，定位性很差。相反，网络的第一层可以更好地定位感兴趣的对象，但召回率降低。论文题目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间：2015年NIPS 论文地址：主要针对的问题：由multibox（第三篇）和DeepBox（第四篇）等论文，我们知道，用CNN可以生成目标待检测框，并判定当前框为目标的概率，那能否将该模型整合到目标检测的模型中，从而实现真正输入端为图像，输出为最终检测结果的，全部依赖CNN完成的检测系统呢？创新点：将当前输入图目标框提取整合到了检测网络中，依赖一个小的目标框提取网络RPN来替代Selective Search算法，从而实现真正的端到端检测算法。参考博客：

能不能给我发一份呢？