首页

> 期刊论文知识库

首页 期刊论文知识库 问题

目标检测论文大盘点

发布时间:

目标检测论文大盘点

小目标问题在物体检测和语义分割等视觉任务中一直是存在的一个难点,小目标的检测精度通常只有大目标的一半。

CVPR2019论文: Augmentation for small object detection 提到了一些应对小目标检测的方法,笔者结合这篇论文以及查阅其它资料,对小目标检测相关技巧在本文进行了部分总结。

小目标的定义: 在MS COCO数据集中,面积小于 32*32 的物体被认为是小物体。

小目标难以检测的原因: 分辨率低,图像模糊,携带的信息少。由此所导致特征表达能力弱,也就是在提取特征的过程中,能提取到的特征非常少,这不利于我们对小目标的检测。

1、由于小目标面积太小,可以放大图片后再做检测,也就是在尺度上做文章,如FPN(Feature Pyramid Networks for Object Detection),SNIP(An Analysis of Scale Invariance in Object Detection – SNIP)。

Feature-Fused SSD: Fast Detection for Small Objects, Detecting Small Objects Using a Channel-Aware Deconvolutional Network 也是在多尺度上做文章的论文。

2、在Anchor上做文章(Faster Rcnn,SSD, FPN都有各自的anchor设计),anchor在设置方面需要考虑三个因素:

anchor的密度: 由检测所用feature map的stride决定,这个值与前景阈值密切相关。

anchor的范围: RetinaNet中是anchor范围是32~512,这里应根据任务检测目标的范围确定,按需调整anchor范围,或目标变化范围太大如MS COCO,这时候应采用多尺度测试。

anchor的形状数量: RetinaNet每个位置预测三尺度三比例共9个形状的anchor,这样可以增加anchor的密度,但stride决定这些形状都是同样的滑窗步进,需考虑步进会不会太大,如RetinaNet框架前景阈值是时,一般anchor大小是stride的4倍左右。

该部分anchor内容参考于:

3、在ROI Pooling上做文章,文章SINet: A Scale-Insensitive Convolutional Neural Network for Fast Vehicle Detection 认为小目标在pooling之后会导致物体结构失真,于是提出了新的Context-Aware RoI Pooling方法。

4、用生成对抗网络(GAN)来做小目标检测:Perceptual Generative Adversarial Networks for Small Object Detection。

1、从COCO上的统计图可以发现,小目标的个数多,占到了,但是含有小目标的图片只有,大目标所占比例为,但是含有大目标的图像却有。这说明有一半的图像是不含小目标的,大部分的小目标都集中在一些少量的图片中。这就导致在训练的过程中,模型有一半的时间是学习不到小目标的特性的。

此外,对于小目标,平均能够匹配的anchor数量为1个,平均最大的IoU为,这说明很多情况下,有些小目标是没有对应的anchor或者对应的anchor非常少的,即使有对应的anchor,他们的IoU也比较小,平均最大的IoU也才。

如上图,左上角是一个anchor示意图,右上角是一个小目标所对应的anchor,一共有只有三个anchor能够与小目标配对,且配对的IoU也不高。左下角是一个大目标对应的anchor,可以发现有非常多的anchor能够与其匹配。匹配的anchor数量越多,则此目标被检出的概率也就越大。

实现方法: 1、Oversampling :我们通过在训练期间对这些图像进行过采样来解决包含小对象的相对较少图像的问题(多用这类图片)。在实验中,我们改变了过采样率和研究不仅对小物体检测而且对检测中大物体的过采样效果

2、Copy-Pasting Strategies:将小物体在图片中复制多分,在保证不影响其他物体的基础上,增加小物体在图片中出现的次数(把小目标扣下来贴到原图中去),提升被anchor包含的概率。

如上图右下角,本来只有一个小目标,对应的anchor数量为3个,现在将其复制三份,则在图中就出现了四个小目标,对应的anchor数量也就变成了12个,大大增加了这个小目标被检出的概率。从而让模型在训练的过程中,也能够有机会得到更多的小目标训练样本。

具体的实现方式如下图:图中网球和飞碟都是小物体,本来图中只有一个网球,一个飞碟,通过人工复制的方式,在图像中复制多份。同时要保证复制后的小物体不能够覆盖该原来存在的目标。

网上有人说可以试一下lucid data dreaming Lucid Data Dreaming for Multiple Object Tracking ,这是一种在视频跟踪/分割里面比较有效的数据增强手段,据说对于小目标物体检测也很有效。

基于无人机拍摄图片的检测目前也是个热门研究点(难点是目标小,密度大)。 相关论文: The Unmanned Aerial Vehicle Benchmark: Object Detection and Tracking(数据集) Drone-based Object Counting by Spatially Regularized Regional Proposal Network Simultaneously Detecting and Counting Dense Vehicles from Drone Images Vision Meets Drones: A Challenge(数据集)

1: 2: 3: 4: 5: 6: 7:

原文: Scalable Object Detection using Deep Neural Networks——学术范 最近,深度卷积神经网络在许多图像识别基准上取得了最先进的性能,包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络,它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文,但如果不天真地复制每个实例的输出数量,就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型,它预测了一组与类无关的边界框,每个框有一个分数,对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例,并允许在网络的最高级别上进行跨类泛化。 目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器,并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中,以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加,这个挑战变得更加困难,因为大多数方法都训练每个类单独的检测器。为了解决这个问题,人们提出了多种方法,从检测器级联到使用分割提出少量的对象假设。 关于对象检测的文献非常多,在本节中,我们将重点讨论利用类不可知思想和解决可伸缩性的方法。 许多提出的检测方法都是基于基于部件的模型,最近由于有区别学习和精心设计的特征,已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板,这是非常昂贵的。此外,它们在类的数量上是可伸缩的,这对像ImageNet这样的现代数据集来说是一个挑战。 为了解决前一个问题,Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题,Song et al.使用了一个低维部件基,在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。 另一种不同的工作,与我们的工作更接近,是基于对象可以本地化的想法,而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机,Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分,并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型,分割作为第一层,分割分类作为后续层。尽管它们编码了已证明的感知原理,但我们将表明,有更深入的模型,充分学习可以导致更好的结果。 最后,我们利用了DeepLearning的最新进展,最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而,基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能,但由于单个掩模回归的成本,不能扩展到多个类。 我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说,我们使用了深度神经网络(DNN),它输出固定数量的包围盒。此外,它为每个盒子输出一个分数,表示这个盒子包含一个对象的网络信任度。 为了形式化上述思想,我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值,可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸,以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的,后面跟着一个sigmoid。 我们可以组合边界盒位置sli,i∈{1,…K}为一个线性层。同样,我们可以将所有置信区间ci,i∈{1,…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层 在推理时,我们的算法生成kbound盒。在我们的实验中,我们使用ek = 100和K= 200。如果需要,我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此,它们可以通过后续的分类器进行分类,实现目标检测。由于盒子的数量非常少,我们可以提供强大的分类器。在我们的实验中,我们使用另一个dnn进行分类。 我们训练一个DNN来预测每个训练图像的边界框及其置信度得分,以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子,对象被标记为boundingboxesgj,j∈{1,…,M}。在实践中,pre- dictionary的数量远远大于groundtruthboxm的数量。因此,我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置,以提高他们的匹配度,最大化他们的信心。与此同时,我们将剩余预测的置信度最小化,这被认为不能很好地定位真实对象。为了达到上述目的,我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1,如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为 其中,我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外,我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为  最终的损失目标结合了匹配损失和信心损失 受式1的约束。α平衡了不同损失条款的贡献。 对于每个训练例子,我们通过解决一个最佳的赋值x*的预测到真实的盒子 约束执行赋值解决方案。这是二部匹配的一种变体,是一种多项式复杂度匹配。在我们的应用程序中,匹配是非常便宜的——每幅图像中标记的对象的数量少于一打,而且在大多数情况下只有很少的对象被标记。然后,通过反向传播优化网络参数。例如,反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的,但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类,并找到这样的聚类/质心,我们可以使用这些聚类/质心作为每个预测位置的先验。因此,鼓励学习算法为每个预测位置学习一个残差到一个先验。 第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配,而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成,就会像之前一样计算目标的置信度。此外,位置预测损失也不变:对于任何一对匹配的(目标,预测)位置,其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配,并假设它促进了预测的多样化。  需要注意的是,尽管我们以一种与类无关的方式定义了我们的方法,但我们可以将它应用于预测特定类的对象盒。要做到这一点,我们只需要在类的边框上训练我们的模型。此外,我们可以预测每个类的kbox。不幸的是,这个模型的参数数量会随着类的数量线性增长。此外,在一个典型的设置中,给定类的对象数量相对较少,这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此,我们认为我们的两步过程——首先本地化,然后识别——是一个更好的选择,因为它允许使用少量参数利用同一图像中多个对象类型的数据 我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减,128的小批量,以及使用多个相同的网络副本进行并行分布式训练,从而实现更快的收敛。如前所述,我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外,使用非最大抑制对盒进行修剪,Jaccard相似度阈值为。然后,我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络,我们从训练集中生成了大约3000万幅图像,并对训练集中的每幅图像应用以下步骤。最后,样品被打乱。为了训练我们的本地化网络,我们通过对训练集中的每一幅图像应用以下步骤,从训练集中生成了大约3000万幅图像。对于每幅图像,我们生成相同数量的平方样本,使样本总数大约为1000万。对于每幅图像,样本被桶状填充,这样,对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例,都有相同数量的样本,其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中,我们没有探索任何非标准数据生成或正则化选项。在所有的实验中,所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成,其中包含了20种不同的对象类别的边界框。在我们的评估中,我们关注的是2007版VOC,为此发布了一个测试集。我们通过培训VOC 2012展示了结果,其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。 我们在一个由1000万作物组成的数据集上训练分类器,该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。 在第一轮中,定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络,我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后,保留评分最高的前10个检测项,并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估,并用于计算精确查全曲线。 首先,我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量,正如Pascal检测标准所定义的那样,与生成的包围框的数量相对比。在图1中,我们展示了使用VOC2012进行训练所获得的结果。此外,我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的,当使用10个边界框的预算时,我们可以用第一个模型本地化的对象,用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能,例如对象度算法达到42%[1]。此外,这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象,但当使用更高分辨率的图像作物时,我们获得了额外的提升。进一步,我们用21-way分类器对生成的包围盒进行分类,如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是,与先进水平相当。注意,我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是,可视化检测是通过仅使用最大中心方形图像裁剪,即使用全图像获得的。然而,我们设法获得了相对较小的对象,例如第二行和第二列的船,以及第三行和第三列的羊。 在本工作中,我们提出了一种新的方法来定位图像中的对象,该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下,对1000个盒子进行非max-suppression,使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则,并学习在未见图像中预测这些位置。 我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果,在这两个基准上,所提出的方法具有竞争力。此外,该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明,deepmultibox的方法是可扩展的,甚至可以在两个数据集之间泛化,就能够预测感兴趣的定位,甚至对于它没有训练的类别。此外,它能够捕获同一类物体的多种情况,这是旨在更好地理解图像的算法的一个重要特征。 在未来,我们希望能够将定位和识别路径折叠到一个单一的网络中,这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下,双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估,每个评估的速度大约为1个CPU-sec(现代机器)。重要的是,这个数字并不与要识别的类的数量成线性关系,这使得所提出的方法与类似dpm的方法非常有竞争力。

论文名称:Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间:2014年 论文地址: 针对问题: 从Alexnet提出后,作者等人思考如何利用卷积网络来完成检测任务,即输入一张图,实现图上目标的定位(目标在哪)和分类(目标是什么)两个目标,并最终完成了RCNN网络模型。 创新点: RCNN提出时,检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢,作者采用的是Selective Search候选区域提取算法,来获得当前输入图上可能包含目标的不同图像块,再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。 参考博客: 。 论文题目:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间:2014年 论文地址: 针对问题: 该论文讨论了,CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后,在网络后端组织两组卷积或全连接层,一组用于实现定位,输出当前图像上目标的最小外接矩形框坐标,一组用于分类,输出当前图像上目标的类别信息。也是以此为起点,检测网络出现基础主干网络(backbone)+分类头或回归头(定位头)的网络设计模式雏形。 创新点: 在这篇论文中还有两个比较有意思的点,一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的,而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制,那用1x1卷积来替换FC层,是否可行呢?作者在测试时通过将全连接层替换为1x1卷积核证明是可行的;二是提出了offset max-pooling,也就是对池化层输入特征不能整除的情况,通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练,然后切换分类头为回归头,再训练回归头的参数,最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。 参考博客: 论文题目:Scalable Object Detection using Deep Neural Networks 提出时间:2014年 论文地址: 针对问题: 既然CNN网络提取的特征可以直接用于检测任务(定位+分类),作者就尝试将目标框(可能包含目标的最小外包矩形框)提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。 创新点: 本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心,(800个anchor box)然后学习预测不考虑目标类别的二分类网络,背景or前景。用到了多尺度下的检测。 参考博客: 论文题目:DeepBox: Learning Objectness with Convolutional Networks 提出时间:2015年ICCV 论文地址: 主要针对的问题: 本文完成的工作与第三篇类似,都是对目标框提取算法的优化方案,区别是本文首先采用自底而上的方案来提取图像上的疑似目标框,然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序;而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点: 本文作者想通过CNN学习输入图像的特征,从而实现对输入网络目标框是否为真实目标的情况进行计算,量化每个输入框的包含目标的可能性值。 参考博客: 论文题目:AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间:2015年ICCV 论文地址: 主要针对的问题: 对检测网络的实现方案进行思考,之前的执行策略是,先确定输入图像中可能包含目标位置的矩形框,再对每个矩形框进行分类和回归从而确定目标的准确位置,参考RCNN。那么能否直接利用回归的思路从图像的四个角点,逐渐得到目标的最小外接矩形框和类别呢? 创新点: 通过从图像的四个角点,逐步迭代的方式,每次计算一个缩小的方向,并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。 参考博客: 论文题目:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间:2014年 论文地址: 针对问题: 如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络,在处理过程中就造成了图像块信息的损失。在实际的场景中,输入网络的目标尺寸很难统一,而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点: 作者提出的SPPnet中,通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸,在训练的时候,池化的操作还是通过滑动窗口完成的,池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。 参考博客 : 论文题目:Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间:2015年 论文地址: 针对问题: 既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位,本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点: 作者通过对输入网络的region进行一定的处理(通过数据增强,使得网络利用目标周围的上下文信息得到更精准的目标框)来增加网络对目标回归框的精度。具体的处理方式包括:扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置,使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性,从而提高了回归框的精度。 参考博客 : 论文题目:Fast-RCNN 提出时间:2015年 论文地址: 针对问题: RCNN中的CNN每输入一个图像块就要执行一次前向计算,这显然是非常耗时的,那么如何优化这部分呢? 创新点: 作者参考了SPPNet(第六篇论文),在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸,从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图,再将原图上用Selective Search算法得到的目标框映射到特征图上,避免了特征的重复提取。 参考博客 : 论文题目:DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间:2015年 论文地址: 主要针对的问题: 本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文,作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。 创新点: 作者在不同的激活层上以滑动窗口的方式生成了假设,并表明最终的卷积层可以以较高的查全率找到感兴趣的对象,但是由于特征图的粗糙性,定位性很差。相反,网络的第一层可以更好地定位感兴趣的对象,但召回率降低。 论文题目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间:2015年NIPS 论文地址: 主要针对的问题: 由multibox(第三篇)和DeepBox(第四篇)等论文,我们知道,用CNN可以生成目标待检测框,并判定当前框为目标的概率,那能否将该模型整合到目标检测的模型中,从而实现真正输入端为图像,输出为最终检测结果的,全部依赖CNN完成的检测系统呢? 创新点: 将当前输入图目标框提取整合到了检测网络中,依赖一个小的目标框提取网络RPN来替代Selective Search算法,从而实现真正的端到端检测算法。 参考博客 :

目标检测论文点

论文名称:Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间:2014年 论文地址: 针对问题: 从Alexnet提出后,作者等人思考如何利用卷积网络来完成检测任务,即输入一张图,实现图上目标的定位(目标在哪)和分类(目标是什么)两个目标,并最终完成了RCNN网络模型。 创新点: RCNN提出时,检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢,作者采用的是Selective Search候选区域提取算法,来获得当前输入图上可能包含目标的不同图像块,再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。 参考博客: 。 论文题目:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间:2014年 论文地址: 针对问题: 该论文讨论了,CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后,在网络后端组织两组卷积或全连接层,一组用于实现定位,输出当前图像上目标的最小外接矩形框坐标,一组用于分类,输出当前图像上目标的类别信息。也是以此为起点,检测网络出现基础主干网络(backbone)+分类头或回归头(定位头)的网络设计模式雏形。 创新点: 在这篇论文中还有两个比较有意思的点,一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的,而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制,那用1x1卷积来替换FC层,是否可行呢?作者在测试时通过将全连接层替换为1x1卷积核证明是可行的;二是提出了offset max-pooling,也就是对池化层输入特征不能整除的情况,通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练,然后切换分类头为回归头,再训练回归头的参数,最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。 参考博客: 论文题目:Scalable Object Detection using Deep Neural Networks 提出时间:2014年 论文地址: 针对问题: 既然CNN网络提取的特征可以直接用于检测任务(定位+分类),作者就尝试将目标框(可能包含目标的最小外包矩形框)提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。 创新点: 本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心,(800个anchor box)然后学习预测不考虑目标类别的二分类网络,背景or前景。用到了多尺度下的检测。 参考博客: 论文题目:DeepBox: Learning Objectness with Convolutional Networks 提出时间:2015年ICCV 论文地址: 主要针对的问题: 本文完成的工作与第三篇类似,都是对目标框提取算法的优化方案,区别是本文首先采用自底而上的方案来提取图像上的疑似目标框,然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序;而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点: 本文作者想通过CNN学习输入图像的特征,从而实现对输入网络目标框是否为真实目标的情况进行计算,量化每个输入框的包含目标的可能性值。 参考博客: 论文题目:AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间:2015年ICCV 论文地址: 主要针对的问题: 对检测网络的实现方案进行思考,之前的执行策略是,先确定输入图像中可能包含目标位置的矩形框,再对每个矩形框进行分类和回归从而确定目标的准确位置,参考RCNN。那么能否直接利用回归的思路从图像的四个角点,逐渐得到目标的最小外接矩形框和类别呢? 创新点: 通过从图像的四个角点,逐步迭代的方式,每次计算一个缩小的方向,并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。 参考博客: 论文题目:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间:2014年 论文地址: 针对问题: 如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络,在处理过程中就造成了图像块信息的损失。在实际的场景中,输入网络的目标尺寸很难统一,而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点: 作者提出的SPPnet中,通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸,在训练的时候,池化的操作还是通过滑动窗口完成的,池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。 参考博客 : 论文题目:Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间:2015年 论文地址: 针对问题: 既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位,本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点: 作者通过对输入网络的region进行一定的处理(通过数据增强,使得网络利用目标周围的上下文信息得到更精准的目标框)来增加网络对目标回归框的精度。具体的处理方式包括:扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置,使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性,从而提高了回归框的精度。 参考博客 : 论文题目:Fast-RCNN 提出时间:2015年 论文地址: 针对问题: RCNN中的CNN每输入一个图像块就要执行一次前向计算,这显然是非常耗时的,那么如何优化这部分呢? 创新点: 作者参考了SPPNet(第六篇论文),在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸,从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图,再将原图上用Selective Search算法得到的目标框映射到特征图上,避免了特征的重复提取。 参考博客 : 论文题目:DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间:2015年 论文地址: 主要针对的问题: 本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文,作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。 创新点: 作者在不同的激活层上以滑动窗口的方式生成了假设,并表明最终的卷积层可以以较高的查全率找到感兴趣的对象,但是由于特征图的粗糙性,定位性很差。相反,网络的第一层可以更好地定位感兴趣的对象,但召回率降低。 论文题目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间:2015年NIPS 论文地址: 主要针对的问题: 由multibox(第三篇)和DeepBox(第四篇)等论文,我们知道,用CNN可以生成目标待检测框,并判定当前框为目标的概率,那能否将该模型整合到目标检测的模型中,从而实现真正输入端为图像,输出为最终检测结果的,全部依赖CNN完成的检测系统呢? 创新点: 将当前输入图目标框提取整合到了检测网络中,依赖一个小的目标框提取网络RPN来替代Selective Search算法,从而实现真正的端到端检测算法。 参考博客 :

能不能给我发一份呢?

论文原文:

YOLO(you only look once)是继RCNN、faster-RCNN之后,又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下,解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比:

如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测,那么yolo则是更进一步,将 目标区域预测 与 目标类别判断 整合到单个神经网络模型中。各检测算法结构见下图:

每个网格要预测B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息,其值是这样计算的:

其中如果有object落在一个grid cell里,第一项取1,否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

每个bounding box要预测(x, y, w, h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。即SxS个网格,每个网格除了要预测B个bounding box外,还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。(注意:class信息是针对每个网格的,即一个网格只预测一组类别而不管里面有多少个bounding box,而confidence信息是针对每个bounding box的。)

举例说明: 在PASCAL VOC中,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示:

在test的时候,每个网格预测的class信息和bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score:

等式左边第一项就是每个网格预测的类别信息,第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率,也有该box准确度的信息。

得到每个box的class-specific confidence score以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS(非极大值抑制non-maximum suppresssion)处理,就得到最终的检测结果。

1、每个grid因为预测两个bounding box有30维(30=2*5+20),这30维中,8维是回归box的坐标,2维是box的confidence,还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间,w,h除以图像的width和height也归一化到0-1之间。

2、对不同大小的box预测中,相比于大box预测偏一点,小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题,作者用了一个比较取巧的办法,就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解,小box的横轴值较小,发生偏移时,反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。

3、一个网格预测多个box,希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大,就负责哪个。这种做法称作box predictor的specialization。

4、损失函数公式见下图:

在实现中,最主要的就是怎么设计损失函数,坐标(x,y,w,h),confidence,classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足:

解决方法:

只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。

作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段,采用网络中的前20卷积层,外加average-pooling层和全连接层。模型训练了一周,获得了top-5 accuracy为(ImageNet2012 validation set),与GoogleNet模型准确率相当。

然后,将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层,提高了模型输入分辨率(224×224->448×448)。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation,其它层使用 leaky rectified linear。

作者采用sum-squared error为目标函数来优化,增加bounding box loss权重,减少置信度权重,实验中,设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮,batch size为64,动量为,学习速率延迟为。Learning schedule为:第一轮,学习速率从缓慢增加到(因为如果初始为高学习速率,会导致模型发散);保持速率到75轮;然后在后30轮中,下降到;最后30轮,学习速率为。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为;data augmentation包括:random scaling,translation,adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点:

1、 YOLO检测物体非常快

因为没有复杂的检测流程,只需要将图像输入到神经网络就可以得到检测结果,YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且,YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、 YOLO可以很好的避免背景错误,产生false positives

不像其他物体检测系统使用了滑窗或region proposal,分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息,因此YOLO在检测物体时能很好的利用上下文信息,从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比,YOLO的背景错误不到Fast-R-CNN的一半。

3、 YOLO可以学到物体的泛化特征

当YOLO在自然图像上做训练,在艺术作品上做测试时,YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征,从而迁移到其他领域。

尽管YOLO有这些优点,它也有一些缺点:

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好(尤其是密集的小物体,因为一个栅格只能预测2个物体)。

点云补全目标检测论文

可以使用 Meshlab 中的 Cleaning and Repairing 功能来补全点云,操作步骤如下: 1. 打开 Meshlab,然后点击“File”菜单,选择打开要补全的点云文件。 2. 点击“Filter”菜单,在弹出的对话框中,依次选择“Cleaning and Repairing” -> “Remove Isolated Pieces”,再勾选“Unselect Isolated Pieces”,然后点击“Apply”按钮。 3. 再点击“Filter”菜单,依次选择“Selection” -> “Select Connected Comp.”,再勾选“Connected Components”,它会根据连接的部分来提取一整块拼图,然后点击“Apply”按钮。 4. 点击“Filter”菜单,依次选择“Smoothing” -> “Ball Pivoting”,勾选“Remesh selected pieces”,然后点击“Apply”按钮。 5. 此时,可以看到补全后的点云,如果还不满意,可以再重复上述步骤直至达到理想的补全效果。

论文原文:

YOLO(you only look once)是继RCNN、faster-RCNN之后,又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下,解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比:

如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测,那么yolo则是更进一步,将 目标区域预测 与 目标类别判断 整合到单个神经网络模型中。各检测算法结构见下图:

每个网格要预测B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息,其值是这样计算的:

其中如果有object落在一个grid cell里,第一项取1,否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

每个bounding box要预测(x, y, w, h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。即SxS个网格,每个网格除了要预测B个bounding box外,还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。(注意:class信息是针对每个网格的,即一个网格只预测一组类别而不管里面有多少个bounding box,而confidence信息是针对每个bounding box的。)

举例说明: 在PASCAL VOC中,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示:

在test的时候,每个网格预测的class信息和bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score:

等式左边第一项就是每个网格预测的类别信息,第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率,也有该box准确度的信息。

得到每个box的class-specific confidence score以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS(非极大值抑制non-maximum suppresssion)处理,就得到最终的检测结果。

1、每个grid因为预测两个bounding box有30维(30=2*5+20),这30维中,8维是回归box的坐标,2维是box的confidence,还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间,w,h除以图像的width和height也归一化到0-1之间。

2、对不同大小的box预测中,相比于大box预测偏一点,小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题,作者用了一个比较取巧的办法,就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解,小box的横轴值较小,发生偏移时,反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。

3、一个网格预测多个box,希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大,就负责哪个。这种做法称作box predictor的specialization。

4、损失函数公式见下图:

在实现中,最主要的就是怎么设计损失函数,坐标(x,y,w,h),confidence,classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足:

解决方法:

只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。

作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段,采用网络中的前20卷积层,外加average-pooling层和全连接层。模型训练了一周,获得了top-5 accuracy为(ImageNet2012 validation set),与GoogleNet模型准确率相当。

然后,将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层,提高了模型输入分辨率(224×224->448×448)。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation,其它层使用 leaky rectified linear。

作者采用sum-squared error为目标函数来优化,增加bounding box loss权重,减少置信度权重,实验中,设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮,batch size为64,动量为,学习速率延迟为。Learning schedule为:第一轮,学习速率从缓慢增加到(因为如果初始为高学习速率,会导致模型发散);保持速率到75轮;然后在后30轮中,下降到;最后30轮,学习速率为。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为;data augmentation包括:random scaling,translation,adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点:

1、 YOLO检测物体非常快

因为没有复杂的检测流程,只需要将图像输入到神经网络就可以得到检测结果,YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且,YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、 YOLO可以很好的避免背景错误,产生false positives

不像其他物体检测系统使用了滑窗或region proposal,分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息,因此YOLO在检测物体时能很好的利用上下文信息,从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比,YOLO的背景错误不到Fast-R-CNN的一半。

3、 YOLO可以学到物体的泛化特征

当YOLO在自然图像上做训练,在艺术作品上做测试时,YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征,从而迁移到其他领域。

尽管YOLO有这些优点,它也有一些缺点:

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好(尤其是密集的小物体,因为一个栅格只能预测2个物体)。

论文地址: 前置文章:10/16、10/17、10/18

本文提出了Point Fractal Network(PF-Net),旨在从不完整的点云数据中恢复点云,克服了之前方法修改现有数据点、引入噪声和产生几何损失的缺点。

由前置文章可知,之前的点云修复方法是输入不完整的点云,输出完整的点云,但这样会导致原有信息的缺失。这篇文章提出PF-Net,主要特点有三个:

网络的整体结构如下:

网络详细推理步骤如下:

损失函数使用完整性损失和对抗损失的加权平均,完整性损失使用L-GAN中提出的CD距离:

对抗损失使用GAN中常见的损失函数

感觉这篇文章对多尺度的运用非常极致,在编码器、解码器和CMLP中都应用了这种思想,最后的效果也非常不错,很值得借鉴。

论文地址:

PointNet提出一种基础的网络结构,可以用于点云分类、部分分割和语义分割等多种任务。在这篇文章之前,点云数据的处理方式是将点云数据转换为多个二维的视图或三维的体素形式,然后应用2D/3D CNN进行处理,但这样引入了多余的体积,效率不高。本文是第一个直接使用点云数据的神经网络。(其实可以这样类比,在二维图像处理中,假设图像是二值化的,传统方法是将这个图像直接丢到CNN里面,但如果背景特别多会比较浪费资源。直接使用点云数据相当于直接将前景像素的坐标输入到神经网络里面,对稀疏数据会有比较好的性能,但因为以下三个问题导致直接使用坐标信息比较困难) 由于点云的排列是无序的(可以想象,点云中任意一点排在前面对点云的表达都是相同的)、点云之间是有相互作用的(相邻的点云才能构成形状)、点云在某些变换下具有不变性(比如旋转不会改变点云的类别)这些特性,要求神经网络既能处理无序的数据,又能捕捉全局的结构特征,同时对刚性变换不敏感。基于这些条件,作者提出了如下的网络结构:

可以简要分析一下网络的工作流程,以点云分类问题为例:

感觉网络的结构虽然简单,但是却很好地满足了点云数据自身特性对神经网络的要求。而且我觉得在图像处理中,也有时候必须用到坐标信息或者一些标量特征,这篇文章的方法对于怎样将这些特征融合进CNN里面也有一定的启发意义。

论文地址:

这篇文章的主要工作是:

首先来看衡量两个点云相似程度的指标部分,作者首先给出了两个距离,EMD和CD:

在计算上,CD更为简便,而且EMD是不可导的。

基于这两种距离,作者引入了三种衡量两个点云相似程度的指标:JSD、Coverage和MMD:

定义了指标后,就可以实现自动编码器和生成模型了。作者提到了四种结构,分别是:

作者同时验证了AE的一些其他功能,比如如果给AE的编码器输入不完整的点云数据,即可训练得到点云复原的模型。使用SVM对低维表示进行分类,即可进行点云分类的任务,证明AE在点云数据形式中的潜在应用较为广泛。

论文地址:

PointNet++针对PointNet提取局部信息能力不强的弊端,提出了一种层次神经网络,可以更好地提取局部信息。其中心思想是将整个点云分割成若干个小部分来提取信息,然后将每个小部分整合成较大的部分,提取更高层次的信息。类似于CNN中卷积和下采样的思想。首先来看网络结构图:

网络大概可以分为两个部分,左边是层次的点云特征提取网络,右边是针对不同任务的解码网络。 特征提取分为若干个set abstraction模块,每个模块又分为采样层、分组层和特征提取层。

得到了较高层次的特征后,对不同的任务需要不同的解码网络。对分类网络来说比较简单,使用全连接即可。对分割网络来说,由于对每个点都需要输出数值,则需要类似上采样的操作。具体的实现作者使用了插值的方法,将较少的点插值到较多的点上去。首先找到插值的目标坐标,然后寻找K个距离最近的已知点,以距离的倒数作为权重,将K个点的特征做加权平均,作为这个点的特征。然后使用之前特征提取中得到的该点的特征与当前特征做一个拼接,即可得到最终特征(类似U-Net的skip connection)。公式如下:

感觉这篇文章和PF-Net的思想差不多,都是希望提取多尺度的特征。但是思路不一样,都值得借鉴。

三维点云目标检测论文

本文介绍了一种基于激光雷达数据的激光网络自动驾驶三维目标检测方法——LaserNet。高效的处理结果来自于在传感器的自然距离视图中处理激光雷达数据。在激光雷达视场范围内的操作有许多挑战,不仅包括遮挡和尺度变化,还有基于传感器如何捕获数据来提供全流程信息。

LaserNet通过以下几个步骤实现三维检测:

上图为深层聚合网络架构。列表示不同的分辨率级别,行表示聚合阶段。

上图为特征提取模块(左)和特征聚合模块(右)。虚线表示对特征图进行了卷积。

上图为自适应NMS。在两辆车并排放置的情况下,左边的虚线描述了产生的一组可能的预测。为了确定边界框是否封装了唯一的对象,使用预测的方差(如中间所示)来估计最坏情况下的重叠(如右图所示)。在本例中,由于实际重叠小于估计的最坏情况重叠,因此将保留这两个边界框。

上图为在训练集和验证集上的边界框上的预测分布的校准的图。结果表明,该模型不能学习KITTI上的概率分布,而能够学习较大的ATG4D上的分布。

【实验结果】

上表显示了与其他最先进的方法相比,LaserNet在验证集上的结果。像KITTI基准一样,我们计算了 汽车 IoU和自行车及行人0:5 IoU的平均精度(AP)。在这个数据集上,LaserNet在0-70米范围内表现优于现有的最先进的方法。此外,LaserNet在所有距离上都优于LiDAR-only方法,只有在附加图像数据提供最大价值的长距离上,车辆和自行车上的LiDAR-RGB方法优于LaserNet。

对ATG4D数据集进行消融研究,结果如上表所示。

预测概率分布。预测概率分布最大的改进是预测边界框架的分布。当仅预测平均边界框时,公式(6)为简单平均,公式(9)为框角损失。此外,边界框的得分在本例中是类概率。实验结果表明,性能上的损失是由于概率与边界框架的准确性没有很好地相关性导致的。

图像形成: Velodyne 64E激光雷达中的激光器并不是均匀间隔的。通过使用激光id将点映射到行,并在传感器捕获数据时直接处理数据,可以获得性能上的提高。

均值漂移聚类: 每个点独立地预测边界框的分布,通过均值漂移聚类将独立的预测组合起来实现降噪。

非极大值抑制: 当激光雷达的点稀疏时,有多个边界框的配置可以解释观测到的数据。通过预测各点的多模态分布,进一步提高了该方法的查全率。在生成多模态分布时,使用具有严格阈值的NMS是不合适的。或者,我们可以使用软NMS来重新评估置信度,但是这打破了对置信度的概率解释。通过自适应NMS算法,保持了概率解释,并获得了更好的性能。

对于自动驾驶而言, 运行时性能同样重要 。上表比较了LaserNet(在NVIDIA 1080Ti GPU上测量)和KITTI上现有方法的运行时的性能。Forward Pass是指运行网络所花费的时间,除Forward Pass外,总时间还包括预处理和后处理。由于在一个小的密集的范围视场内处理,LaserNet比目前最先进的方法快两倍。

使用训练集中的5,985个扫描点训练网络,并保留其余的扫描以进行验证。使用与之前相同的学习时间表对网络进行5万次迭代训练,并在单个GPU上使用12个批处理。为了避免在这个小的训练集上过度拟合,采用数据增强手段随机翻转范围图像,并在水平维度上随机像素移动。在这样一个小的数据集中,学习边界框上的概率分布,特别是多模态分布是非常困难的。因此,训练网络只检测车辆并预测边界框上的单峰概率分布。如上表所示,我们的方法在这个小数据集上的性能比当前最先进的鸟瞰图检测器差。

论文传送门:

【欢迎大家提供行业新闻热点,商业合作请联系:】

在达摩院做3d目标检测,简单调研一下。 使用RGB图像、RGB-D深度图像和激光点云,输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。 在无人驾驶、机器人、增强现实的应用场景下,普通2D检测并不能提供感知环境所需要的全部信息,2D检测仅能提供目标物体在二维图片中的位置和对应类别的置信度,但是在真实的三维世界中,物体都是有三维形状的,大部分应用都需要有目标物体的长宽高还有偏转角等信息。例如下图中,在自动驾驶场景下,需要从图像中提供目标物体 三维大小 及旋转角度等指标,在鸟瞰投影的信息对于后续自动驾驶场景中的路径规划和控制具有至关重要的作用。3DOP这篇文章是当下使用双目相机进行3D bounding-box效果做好的方法,其是Fast RCNN方法在3D领域之内的拓展。由于原论文发表于NIPS15,出于Fast RCNN的效果并没有Faster RCNN和基于回归的方法好,且远远达不到实时性,因此其处理一张图片的时间达到了。 它使用一个立体图像对作为输入来估计深度,并通过将图像平面上像素级坐标重新投影回三维空间来计算点云。3DOP将候选区生成的问题定义为Markov随机场(MRF)的能量最小化问题,该问题涉及精心设计的势函数(例如,目标尺寸先验、地平面和点云密度等)。 随着获得了一组不同的3D目标的候选框,3DOP利用FastR-CNN[11]方案回归目标位置。 论文主要基于FCOS无锚点2D目标检测做的改进,backbone为带有DCN的ResNet101,并配有FPN架构用于检测不同尺度的目标,网络结构如图1所示: 基于iou 3d,可以定义出TP和FP 通过绘制精确性×召回率曲线(PRC),曲线下的面积往往表示一个检测器的性能。然而,在实际案例中,"之 "字形的PRC给准确计算其面积带来了挑战。KITTI采用AP@SN公制作为替代方案,直接规避了计算方法。 NuScenes consists of multi-modal data collected from 1000 scenes, including RGB images from 6 cameras, points from 5 Radars, and 1 LiDAR. It is split into 700/150/150 scenes for training/validation/testing. There are overall annotated 3D bounding boxes from 10 categories. In addition, nuScenes uses different metrics, distance-based mAP and NDS, which can help evaluate our method from another perspective.

硬盘检测论文

随着计算机技术的普及以及大众对计算机进行商务、学习、工作等需求的增长,计算机已经成为人们工作和学习不可缺少的高科技产品之一。现在,计算机已经进入实用阶段,越来越多的人拥有了自己的计算机,同时希望掌握计算机组装和维修技术。《计算机组装与维护》这个课程学了8周了,通过这个学期的学习后,我觉得受益颇多。下面来谈谈我对计算机组装与维护方面的认识。一、多媒体计算机主要有硬件系统和软件系统组成:(一)计算机硬件系统: 硬件系统是指构成计算机系统的实体和装置(即用手能摸得着的计算机实物),如机箱、主板、内存。硬件系统通常由CPU(包括运算器、控制器)、存储器、输入设备、输出设备、接口设备五个部分组成。下面从计算机的主要组成部分入手,简单地谈谈这些硬件的功能及选购。是英语“Central Processing Unit/中央处理器”的缩写,CPU一般由逻辑运算单元、控制单元和存储单元组成。在逻辑运算和控制单元中包括一些寄存器,这些寄存器用于CPU在处理数据过程中数据的暂时保存。CPU (核心部件)主要功能:运算器,控制器。CPU就是通过这些引脚和计算机其他部件进行通信,传递数据,指令。目前主流的CPU供应商有Intel公司和AMD公司的CPU(详细种类及型号请读者自己到网上查询)。相比之下,AMD的CPU在三维制作、游戏应用、视频处理方面比同档次的Intel处理器有优势,而Intel的CPU则在商业应用多媒体应用、平面设计方面有优势;在性价比方面,AMD的处理器略优于Intel的。在选购时,要避免买到假的CPU,要注意看封装线、水印字和激光标签是否正规。对于普通用户而言,购买时最好选择推出一年到半年的CPU产品。2. 主板:主板是安装在机箱内的一块矩形电路板,上面有计算机的主要电路系统,主板上的扩充槽用于插接各种接口卡,扩展计算机的功能,如显卡、网卡等。对于一般用户而言,选购主板时应优先挑名牌大厂或售后服务好的产品。选购时,还要观察主板的包装及板材质量:先观察包装是否正规,是否有防静电袋,然后要仔细观察主板体,主板体的厚度一般在3-4mm左右。在此前提下,选厚着为宜。注意,主板上芯片的生产日期(如9452为94年第52个星期)不宜相差太大(最好不要超过3个月),否则将影响主板的性能。3. 内存条:内存条是用来存放计算机正在使用的(即执行中)数据或程序。我们平常据说的动态内存(即DRAM),指的是当我们将数据写入DRAM后,经过一段时间,数据会丢失,因此需要额外设一个电路进行内存刷新操作。也就是说它只是一个临时储存器,掉电后数据会消失。目前主流内存容量为1-2G,工作频率为800MHZ以上。内存条的印刷电路板(PCB)最好是6层。另外,好的内存条表面有比较强的金属光洁度,部件焊接也比较整齐。选购内存条时也要挑大厂家及售后服务好的产品。 4.硬盘:硬盘是计算机的数据存储中心,我们所使用的应用程序和文档数据几乎都是存储在硬盘上,或从硬盘上读取的。它包括存储盘片及驱动器。特点是储存量大。硬盘是计算机中不可缺少的存储设备。目前硬盘的容量一般为250-320G,缓存一般为2-16M。选购硬盘时,要注意硬盘接口类型应与本人的计算机相匹配(现在市场的主流接口是 SATA接口)。选购时,注意区分“行货”与“水货”。辨认“水货”的方法是:首先看防伪标签是否正规;其次看硬盘体和代理保修单上的编号是否一致。5.光驱、刻录机:此类硬件平时可以插入光盘,用以存放数据。光驱或刻录机对稳定性及缓存的要求较高,因此,选购这类硬件时优先挑选大厂家(如索尼、明基、三星等)的产品。选购时还要注意硬盘的接口类型与自己的计算机是否匹配。6. 显卡:显卡也叫显示卡、图形加速卡等。主要作用是对图形函数进行加速处理。显示卡通过系统总线连接CPU和显示器,是CPU和显示器之间的控制设备。实际上是用来存储要处理的图形的数据信息。目前主流显卡的显存为512MB以上,接口一般为PCI-EX16型。显卡生产厂商主要有华硕、技嘉、昂达等。在选购显卡时,注意显存要与主机性能相匹配(位宽选128 bit以上为宜)。并且要优先选择大厂家生产的或售后服务好的产品。7. 网卡:网卡是将计算机与网络连接在一起的输入输出设备。主要功能是处理计算机上发往网线上的数据,按照特定的网络协议将数据分解成为适当大小的数据包,然后发送到网络上去(目前多是主板集成)。由于不同类型网卡的实用环境可能不一样,在选购时应明确网卡使用的网络及传输介质类型、与之相连接的网络设备带宽等情况。优质的网卡均采用喷锡板制作,其裸露部分为白色;而劣质的画金板网卡的裸露部分为黄色。另外,对网卡的MAC地址(即ID编号)的辨别是了解网卡优劣的最好方式。正规厂家生产的网卡的MAC地址一般为一组12位的16进制数(前6位为厂商ID,后六位是厂商分配给网卡的唯一ID)。购买时,如发现商家所给网卡上标注的MAC地址相同,那么,肯定是劣质产品。最后,还要看产品的做工工艺。做工工艺的优劣体现在网卡的焊点、金手指及挡板等上:优质网卡的电路板焊点均匀干净,金手指及挡板规则且有光泽,各元件分布合理且紧凑。8. 声卡: 声卡的主要功能是处理声音信号并把信号传输给音箱或耳机,使后者发出声音来的硬件。声卡的选购同网卡、显卡的选购有些相似,都要选大厂家及售后服务好的产品,还要注意接口类型是否与自己的主板相匹配。显卡的音质是判定一块显卡好坏的标准,其中包括信噪比、采样位数、采样频率、总谐波失真等指标。目前声卡的信噪比大多达到了96db,采样位数为16bit以上,采样频率为以上(值越高越好)。理论上就可达到CD音质。此外,选购者如果只是普通应用,如看看CD、玩一些简单的游戏等,选购一般廉价的声卡就足够了;如果是用来玩大型的3D游戏,就一定要选购带3D功能的声卡,因为3D音效已经成为游戏发展的潮流,现在所有的游戏都开始支持它了。9. 电源:电源是对电脑供电的主要配件,是将AC交流电流转换成直流电压的设备。电源关系到整个计算机的稳定运行,其输出功率不应小于250W。电源的选购要注意品牌、电源的输出功率、认证、包装等。(二)计算机软件系统计算机软件系统计算机系统所使用的各种程序的总体。软件系统和硬件系统共同构成实用的计算机系统,两者相辅相成。软件系统一般分为操作系统软件、程序设计软件和应用软件三类。1、操作系统:计算机能完成许多非常复杂的工作,但是他却“听不懂”人类的语言,要想让计算机完成相关的工作,必须有一个翻译官把人类的语言翻译给计算机。操作系统软件就是这里的翻译官。常用的操作系统有微软公司的Windows XP/Vista操作系统,以及Linux操作系统、Unix操作系统(服务器操作系统)等。2、程序设计软件:程序设计软件是由专门的软件公司编制,用来进行编程的计算机语言。程序设计语言主要包括机器语言、汇编语言和编程语言(C++、Java等)。3、应用软件:应用软件是用于解决各种实际问题以及实现特定功能的程序。为了普通人能使用计算机,计算机专业人员会根据人们的工作、学习、生活需要提前编写好人们常用的工作程序,在用户使用时,只需单击相应的功能按钮即可(如复制、拖动等任务)。常用的应用软件有MS Office办公软件、WPS办公软件、图像处理软件、网页制作软件、游戏软件和杀毒软件等。有了良好的配置当然就少不了安装了。下面以兼容机为例,简述下多媒体计算机的组装。二、多媒体计算机的组装:1安装机箱:主要是如何拆开机箱.在机箱的背后拧下右面边上的两颗螺丝(有大有小两种螺丝)就可找开机箱。2. 安装电源:先将电源装在机箱的固定位置上,注意电源的风扇要对朝机箱的后面,这样才能正确的散热。之后就用螺丝将电源固定起来。等安装了主板后把电源线连接到主板上。 3. 安装CPU:将主板上的CPU插槽旁边的把手轻轻向外拨再向上拉起把手到垂直位置,然后对准插入CPU。注意要很小心的对准后再插入,不然损坏了CPU,之后再把把手压回,把把手固定到原来的位置。并在CPU上涂上散热硅胶,这是为了与风扇上的散热片更好的贴在一起。 4. 安装风扇:要将风扇安装到主板的CPU上,先把风扇上的挂钩挂在主板CPU插座两端的固定位置上,再将风扇的三孔电源插头插在主板的风扇电源插座上(一般都是在CPU附近)。 5. 安装主板:先把定位螺丝依照主板的螺丝孔固定在机箱,之后把主板的I/O端口对准机箱的后部。主板上面的定位孔要对准机箱上的主板定们螺丝孔,用螺丝把主板固定在机箱上,注意上螺丝的时候拧到合适的程度就可以了,以防止主板变形。 6.安装内存:先掰开主板上内存插槽两边的把手,把内存条上的缺口对齐主板内存插槽缺口,垂直压下内存,插槽两侧的固定夹自动跳起夹紧内存并发出“咔”的一声,此时内存已被锁紧。 7. 安装硬盘:首先把硬盘用螺丝固定在机箱上。接下来插上电源线,并在硬盘上联上IDE数据线,再把数据线的另一端和主板的IDE接口连接,注意:不要把数据线接反了。 8. 安装软驱:安装的方法和硬盘差不多。 9.安装显卡:将显卡对准主板上的PCI插槽插下,用螺丝把显卡固定在机箱上。 10. 连接控制线:首先找到机箱面板上的指示灯和按键在主板上的连接位置(依照主板上的英文来连接),然后区分开正负极连接.将机箱面板上的HDD LED(硬盘灯)、PWR SW(开关电源)、Reset(复位)、Speaker(主板喇叭)、Keylock(键盘锁接口)和PowerLED(主板电源灯)等连接在主板上的金属引脚。 11.完成机箱内部的连接后就可以合上机箱盖连接外面的设备了.在机箱后面的主板I/O端口上找到绿色的圆形接口接上鼠标(USB鼠标接在USB口上),同样找到蓝色的圆形接口接上键盘。接下来在显卡上接上显示器数据线。12.完成以上项目后就可以接通电源了,观察计算机是否运行正常。 13.接下来做CMOS设置(根据选项用的主板的BIOS而定)。安装操作系统(以Win XP为例): 1.从光盘安装,要把BIOS进行设置,使系统能够从光盘启动。方法如下: (1)启动计算机,按下键盘上的Del (有的是按F2)键,进入到主板BIOS设置的主界面。 (2)选择 Advanced BIOS Features 选项,回车进入设置程序。选择First Boot Device 选项,然后按键盘上的方向键将该项设置为CD-ROM(光驱启动),这样就把系统改为光盘启动了。 (3)按F10保存以后的提示是(Y)与否(N)选项,选Y退出设置。(4)然后将光盘放入光驱里,重启电脑,电脑就会自动从光盘运行,并显示安装界面,根据提示一步步进行安装。 注意:在Windows XP拷贝完文件到硬盘,第一次重新启动计算机前,必须把光盘从光驱中取出,否则系统仍会从光盘启动并会循环执行安装程序。(5)接下来基本上点着下一步就可以往下走了!一直到正常进入XP系统界面为止! 2 .安装硬件驱动程序将主板厂商提供的光盘放入光驱内读碟,让其自动运行:(1) 安装主板驱动程序,选中主板芯片组驱动进行安装。(2) 安装声卡驱动程序,选中声卡驱动进行安装。 (3) 安装网卡驱动程序,选中网卡驱动解压到指定文件夹,并在设备管理器里面进行安装。 (4) 安装显卡驱动程序,放入显卡厂商提供的显卡驱动光盘点击进行安装。 3 .安装应用软件 常用的应用软件有办公软件(如OFFICE2003)、解压缩软件(如WinRAR)、汉字输入软件(如搜狗输入法)、杀毒软件(如诺顿杀毒软件系列)、下载软件(如迅雷)等,只有安装了这一些应用软件才能算是完成了电脑的组装。安装好一台电脑后,难免会出现这样或那样的故障,这些故障可能是硬件的故障,也可是软件的故障。一般情况下,刚刚安装的机器出现硬件故障的可能性较大,机器运行一段时间后,其故障率相对降低。对于硬件故障,我们只要了解各种配件的特性及常见故障的发生,就能逐个排除各个故障。 三、硬件故障维修: 1. 接触不良的故障 接触不良一般反映在各种插卡、内存、CPU等与主板的接触不良,或电源线、数据线、音频线等的连接不良。其中各种接口卡、内存与主板接触不良的现像较为常见,通常只要更换相应的插槽位置或用像皮擦一擦金手指,就可排除故障。 2.未正确设置参数 CMOS参数的设置主要有硬盘、软驱、内存的类型,以及口令、机器启动顺序、病毒警告开关等等。由于参数没有设置或没有正确设置,系统都会提示出错。如病毒警告开关打开,则有可能无法成功安装Windows XP。 3.硬件本身故障 硬件出现故障,除了本身的质量问题外,也可能是负荷太大或其它原因引起的,如电源的功率不足或CPU超频使用等,都有可能引起机器的故障。 4、软件故障 通常是由硬件驱动程序安装不当或是病毒破坏引起的。 驱动程序或驱动程序之间产生冲突,则在Windows XP下的资源管理中可以发现一些标记,其中“?”表示未知设备,通常是设备没有正确安装,“!”表示设备间有冲突,“×”表示所安装的设备驱动程序不正确。 病毒对电脑的危害是众所周知的,轻则影响机器速度,重则破坏文件或造成死机。为方便随时对电脑进行保养和维护,必须准备工具如干净的DOS启动盘或WindowsXP启动盘,以及杀毒软件和磁盘工具软件等,以应付系统感染病毒或硬盘不能启动等情况。此外还应准备各种配件的驱动程序,如光驱、声卡、显示卡、MODEM等。软驱和光驱的清洗盘及其清洗液等也应常备。相对于其它电器产品来说,电脑是一个容易出这样那样故障的东西。电脑出故障了,是许多电脑爱好者头痛的事情,该如何来应对及解决我们所遇到的电脑故障呢?一、先调查,后熟悉。二、先机外,后机内。三、先机械,后电气。四、先软件,后硬件。五、先清洁,后检修。六、先电源,后机器。七、先通病,后特殊。八、先外围,后内部。

计算机网络安全及防范技术摘 要 主要阐述计算机信息网络攻击和入侵的特点、方法以及其安全防范手段。关键词 计算机网络安全 防范技术1 计算机网络安全的含义计算机网络安全的具体含义会随着使用者的变化而变化,使用者不同,对网络安全的认识和要求也就不同。例如从普通使用者的角度来说,可能仅仅希望个人隐私或机密信息在网络上传输时受到保护,避免被窃听、篡改和伪造;而网络提供商除了关心这些网络信息安全外,还要考虑如何应付突发的自然灾害、军事打击等对网络硬件的破坏,以及在网络出现异常时如何恢复网络通信,保持网络通信的连续性。从本质上来讲,网络安全包括组成网络系统的硬件、软件及其在网络上传输信息的安全性,使其不致因偶然的或者恶意的攻击遭到破坏,网络安全既有技术方面的问题,也有管理方面的问题,两方面相互补充,缺一不可。人为的网络入侵和攻击行为使得网络安全面临新的挑战。2 计算机网络攻击的特点计算机网络攻击具有下述特点:①损失巨大。由于攻击和入侵的对象是网络上的计算机,所以一旦他们取得成功,就会使网络中成千上万台计算机处于瘫痪状态,从而给计算机用户造成巨大的经济损失。如美国每年因计算机犯罪而造成的经济损失就达几百亿美元。平均一起计算机犯罪案件所造成的经济损失是一般案件的几十到几百倍。②威胁社会和国家安全。一些计算机网络攻击者出于各种目的经常把政府要害部门和军事部门的计算机作为攻击目标,从而对社会和国家安全造成威胁。③手段多样,手法隐蔽。计算机攻击的手段可以说五花八门。网络攻击者既可以通过监视网上数据来获取别人的保密信息;也可以通过截取别人的帐号和口令堂而皇之地进入别人的计算机系统;还可以通过一些特殊的方法绕过人们精心设计好的防火墙等等。这些过程都可以在很短的时间内通过任何一台联网的计算机完成。因而犯罪不留痕迹,隐蔽性很强。④以软件攻击为主。几乎所有的网络入侵都是通过对软件的截取和攻击从而破坏整个计算机系统的。它完全不同于人们在生活中所见到的对某些机器设备进行物理上的摧毁。因此,这一方面导致了计算机犯罪的隐蔽性,另一方面又要求人们对计算机的各种软件(包括计算机通信过程中的信息流)进行严格的保护。3 计算机网络中的安全缺陷及产生的原因网络安全缺陷产生的原因主要有:第一,TCP/IP的脆弱性。因特网的基石是TCP/IP协议。但不幸的是该协议对于网络的安全性考虑得并不多。并且,由于TCP/IP协议是公布于众的,如果人们对TCP/IP很熟悉,就可以利用它的安全缺陷来实施网络攻击。第二,网络结构的不安全性。因特网是一种网间网技术。它是由无数个局域网所连成的一个巨大网络。当人们用一台主机和另一局域网的主机进行通信时,通常情况下它们之间互相传送的数据流要经过很多机器重重转发,如果攻击者利用一台处于用户的数据流传输路径上的主机,他就可以劫持用户的数据包。第三,易被窃听。由于因特网上大多数数据流都没有加密,因此人们利用网上免费提供的工具就很容易对网上的电子邮件、口令和传输的文件进行窃听。第四,缺乏安全意识。虽然网络中设置了许多安全保护屏障,但人们普遍缺乏安全意识,从而使这些保护措施形同虚设。如人们为了避开防火墙代理服务器的额外认证,进行直接的PPP连接从而避开了防火墙的保护。4 网络攻击和入侵的主要途径网络入侵是指网络攻击者通过非法的手段(如破译口令、电子欺等)获得非法的权限,并通过使用这些非法的权限使网络攻击者能对被攻击的主机进行非授权的操作。网络入侵的主要途径有:破译口令、IP欺和DNS欺。口令是计算机系统抵御入侵者的一种重要手段,所谓口令入侵是指使用某些合法用户的帐号和口令登录到目的主机,然后再实施攻击活动。这种方法的前提是必须先得到该主机上的某个合法用户的帐号,然后再进行合法用户口令的破译。获得普通用户帐号的方法很多,如: 利用目标主机的Finger功能:当用Finger命令查询时,主机系统会将保存的用户资料(如用户名、登录时间等)显示在终端或计算机上;利用目标主机的服务:有些主机没有关闭的目录查询服务,也给攻击者提供了获得信息的一条简易途径;从电子邮件地址中收集:有些用户电子邮件地址常会透露其在目标主机上的帐号;查看主机是否有习惯性的帐号:有经验的用户都知道,很多系统会使用一些习惯性的帐号,造成帐号的泄露。IP欺是指攻击者伪造别人的IP地址,让一台计算机假冒另一台计算机以达到蒙混过关的目的。它只能对某些特定的运行TCP/IP的计算机进行入侵。IP欺利用了TCP/IP网络协议的脆弱性。在TCP的三次握手过程中,入侵者假冒被入侵主机的信任主机与被入侵主机进行连接,并对被入侵主机所信任的主机发起淹没攻击,使被信任的主机处于瘫痪状态。当主机正在进行远程服务时,网络入侵者最容易获得目标网络的信任关系,从而进行IP欺。IP欺是建立在对目标网络的信任关系基础之上的。同一网络的计算机彼此都知道对方的地址,它们之间互相信任。由于这种信任关系,这些计算机彼此可以不进行地址的认证而执行远程操作。域名系统(DNS)是一种用于TCP/IP应用程序的分布式数据库,它提供主机名字和IP地址之间的转换信息。通常,网络用户通过UDP协议和DNS服务器进行通信,而服务器在特定的53端口监听,并返回用户所需的相关信息。DNS协议不对转换或信息性的更新进行身份认证,这使得该协议被人以一些不同的方式加以利用。当攻击者危害DNS服务器并明确地更改主机名—IP地址映射表时,DNS欺就会发生。这些改变被写入DNS服务器上的转换表。因而,当一个客户机请求查询时,用户只能得到这个伪造的地址,该地址是一个完全处于攻击者控制下的机器的IP地址。因为网络上的主机都信任DNS服务器,所以一个被破坏的DNS服务器可以将客户引导到非法的服务器,也可以欺服务器相信一个IP地址确实属于一个被信任客户。5 常见的网络攻击及其防范对策 特洛伊木马特洛伊木马程序技术是黑客常用的攻击手段。它通过在你的电脑系统隐藏一个会在Windows启动时运行的程序,采用服务器/客户机的运行方式,从而达到在上网时控制你电脑的目的。特洛伊木马是夹带在执行正常功能的程序中的一段额外操作代码。因为在特洛伊木马中存在这些用户不知道的额外操作代码,因此含有特洛伊木马的程序在执行时,表面上是执行正常的程序,而实际上是在执行用户不希望的程序。特洛伊木马程序包括两个部分,即实现攻击者目的的指令和在网络中传播的指令。特洛伊木马具有很强的生命力,在网络中当人们执行一个含有特洛伊木马的程序时,它能把自己插入一些未被感染的程序中,从而使它们受到感染。此类攻击对计算机的危害极大,通过特洛伊木马,网络攻击者可以读写未经授权的文件,甚至可以获得对被攻击的计算机的控制权。防止在正常程序中隐藏特洛伊木马的主要方法是人们在生成文件时,对每一个文件进行数字签名,而在运行文件时通过对数字签名的检查来判断文件是否被修改,从而确定文件中是否含有特洛伊木马。避免下载可疑程序并拒绝执行,运用网络扫描软件定期监视内部主机上的监听TCP服务。 邮件炸弹电子邮件炸弹是最古老的匿名攻击之一,通过设置一台机器不断的大量的向同一地址发送电子邮件,攻击者能够耗尽接受者网络的带宽,占据邮箱的空间,使用户的存储空间消耗殆尽,从而阻止用户对正常邮件的接收,防碍计算机的正常工作。此种攻击经常出现在网络黑客通过计算机网络对某一目标的报复活动中。防止邮件炸弹的方法主要有通过配置路由器,有选择地接收电子邮件,对邮件地址进行配置,自动删除来自同一主机的过量或重复的消息,也可使自己的SMTP连接只能达成指定的服务器,从而免受外界邮件的侵袭。 过载攻击过载攻击是攻击者通过服务器长时间发出大量无用的请求,使被攻击的服务器一直处于繁忙的状态,从而无法满足其他用户的请求。过载攻击中被攻击者用得最多的一种方法是进程攻击,它是通过大量地进行人为地增大CPU的工作量,耗费CPU的工作时间,使其它的用户一直处于等待状态。防止过载攻击的方法有:限制单个用户所拥有的最大进程数;杀死一些耗时的进程。然而,不幸的是这两种方法都存在一定的负面效应。通过对单个用户所拥有的最大进程数的限制和耗时进程的删除,会使用户某些正常的请求得不到系统的响应,从而出现类似拒绝服务的现象。通常,管理员可以使用网络监视工具来发现这种攻击,通过主机列表和网络地址列表来分析问题的所在,也可以登录防火墙或路由器来发现攻击究竟是来自于网络外部还是网络内部。另外,还可以让系统自动检查是否过载或者重新启动系统。 淹没攻击正常情况下,TCP连接建立要经历3次握手的过程,即客户机向主机发送SYN请求信号;目标主机收到请求信号后向客户机发送SYN/ACK消息;客户机收到SYN/ACK消息后再向主机发送RST信号并断开连接。TCP的这三次握手过程为人们提供了攻击网络的机会。攻击者可以使用一个不存在或当时没有被使用的主机的IP地址,向被攻击主机发出SYN请求信号,当被攻击主机收到SYN请求信号后,它向这台不存在IP地址的伪装主机发出SYN/消息。由于此时主机的IP不存在或当时没有被使用所以无法向主机发送RST,因此,造成被攻击的主机一直处于等待状态,直至超时。如果攻击者不断地向被攻击的主机发送SYN请求,被攻击主机就会一直处于等待状态,从而无法响应其他用户的请求。对付淹没攻击的最好方法是实时监控系统处于SYN-RECEIVED状态的连接数,当连接数超过某一给定的数值时,实时关闭这些连接。参考文献1 胡道元.计算机局域网〔M〕.北京:清华大学出版社,20012 朱理森,张守连.计算机网络应用技术〔M〕.北京:专利文献出版社,20013 刘占全.网络管理与防火墙〔M〕.北京:人民邮电出版社,1999

随着社会的发展和社会对人才的需求,计算机类课程已成为一门所有专业的公共课程。下面是我为大家整理的计算机类 毕业 论文5000字,希望对大家有帮助。

谈计算机病毒与防护 措施

【摘要】本文从计算机病毒的概念入手,分析了如何判断计算机是否感染病毒,以及计算机感染病毒的表现。阐述了计算机病毒的来源,并对计算机病毒的种类进行了技术分析,针对不同的计算机病毒提出了多种防范措施。

【关键词】计算机病毒;复制;英特网;病毒来源;防护计算机病毒

随着计算机的广泛普及,家用电脑用户的不断扩大,以及网络的迅猛发展,计算机病毒对电脑的攻击与防护技术也在不断更新。全球遭受计算机病毒感染和攻击的事件数以亿计,不仅严重的影响了正常的工作和生活,同时也给计算机系统带来了很大的潜在威胁和破坏。目前,计算机病毒已经波及到社会的各个领域,人尽皆知,所以计算机病毒的防护已成为计算机工作者和计算机使用者的一个重要问题,解决问题刻不容缓。

怎样才能彻底防范计算机病毒的攻击呢?首先我们要了解计算机病毒是什么?所谓知彼知己百战不殆,那么到底计算机病毒是什么呢?计算机病毒是一个人为编写的程序,或一段指令代码。我们强调这里的人为性,计算机病毒具有独特的复制能力。因为计算机病毒的可复制性,所以计算机病毒得以迅速地蔓延,并且往往难以根除。计算机病毒能把自身附着在各种类型的文件上,这就是我们所说的寄生性,就像我们学习生物的中的寄生虫一样。当文件被复制或从一个用户传送到另一个用户时,它们就随同文件一起扩散开来。所以说计算机病毒的最本质的功能就是复制功能。

当然,如果计算机出现故障,并不完全是计算机病毒的原因。家用电脑使用过程中出现各种故障也有很多原因是因为电脑本身的软件或是硬件故障引起的,如果是网络上的故障,也有一些是因为涉及到权限问题引起的。所以我们只有充分地了解两者的区别与联系,才能够做出正确的判断,以便根据故障原因进行处理。

一、如何判断计算机是否感染病毒

1、电脑感染病毒最明显的特点就是电脑运行速度比平常慢。例如,上午打开一个网页还很快,下午开机打开网页的速度明显变慢,最大可能就是感染病毒。特别是有些病毒能控制程序或系统的启动程序,所以开机系统启动或是打开一个应用程序,这些病毒就执行他们的动作,因此会需要更多时间来打开程序。如果你的电脑在使用过程中出现了以上现象,很有可能是感染了计算机病毒,需要进行全盘查毒和杀毒。

2、在电脑的运行过程中经常出现 死机 的现象:这种现象应该是我们最常见的,是什么原因呢?原因就是计算机病毒打开了多个文件或是占用了大量内存空间,运行了大容量的软件,测试软件的使用也会造成一定的硬盘空间不够等等。

3、计算机 操作系统 无法启动:原因是计算机病毒修改了硬盘的引导信息,或是一些启动文件被破坏或是被删除。引导区病毒会破坏硬盘引导区信息,使电脑无法正常启动,硬盘分区丢失,或是人为地操作错误,误删除了系统文件等原因造成的系统无法启动。

4、系统经常出现提示信息显示内存不够:计算机病毒非法占用了大量内存空间;打开了大量的软件;运行了需内存资源的软件;系统配置不正确等。

5、文件打不开:引起文件打不开的原因可能是计算机病毒篡改了文件格式;文件链接位置因为计算机病毒发生改变。文件遭到损坏;硬盘受到损坏;文件快捷方式所对应的链接位置发生了改变;原来编辑文件的软件被删除了等。

6、系统提示硬盘空间不够:因为计算机病毒具有复制性这个特点,所以计算机病毒复制了大量的病毒文件,以至于影响了内存空间的大小,所以安装软件时系统就出现提示信息硬盘空间不够。硬盘的分区太小,并且安装了一些大容量的软件,这些软件都集中安装在一个硬盘分区中,或是硬盘本身容量就小等等原因造成的。

7、电脑中出现了大量来历不明的文件:计算机病毒复制文件;可能是一些软件安装中产生的临时文件;也或许是一些软件的配置信息及运行记录等。

8、启动黑屏:计算机病毒感染, 显示器 故障; 显卡故障 ; 主板故障 ;超频过度;CPU损坏等等原因。

9、数据丢失:计算机病毒删除了文件;硬盘扇区损坏;因恢复文件而覆盖原文件;如果是上传到网络上的文件,其他用户的误删除也会导致数据的丢失。

综上所述,除以上几种原因外,还有一种重要的原因,因特网引入了新的病毒传送机制。随着网络的出现,电子邮件被作为一个重要的信息工具,计算机病毒借助网络的广泛传播得以迅速蔓延。附着在电子邮件中的计算机病毒,瞬间就可以感染整个企业的电脑系统,甚至可以让整个公司在生产上遭受巨大损失,在清除病毒方面开花费数百万元。

二、计算机病毒的主要来源

1、学习、从事、 爱好 计算机专业的人员并非出于恶意而制造出来的小病毒。例如像圆点一类的良性病毒。

2、一些软件公司及用户为保护自己的软件不被复制,进而采取的非善意的措施。原因是他们发现对产品软件上锁,和在其软件中隐藏病毒对非法复制软件者的打击更大,正是由于这样的原因就更加助了计算机病毒的传播。

3、攻击和摧毁计算机信息系统和计算机系统而制造的病毒——就是蓄意进行破坏。

4、用于科学研究或是用于设计的程序: 由于某种人为因素或是非人为因素的原因而失去了控制,或是产生了意想不到的结果。例如,千年虫病毒。

三、如何防范计算机病毒

1、不用原始软盘或其他介质引导计算机,对系统等原始盘实行保护。

2、不随意使用外来软盘或其他介质,对外来软盘或其他介质必须先查毒后使用。

3、做好系统软件,应用软件的备份,一些重要的文件或数据定期进行数据文件备份,供系统恢复使用。

4、计算机的使用要做到专机专用,特别是一些工作用机,要避免使用盗版软件,如游戏软件等,以便减少被病毒感染几率。

5、网上接收或是传送数据的时候,要养成好的习惯,先检查后使用,接收邮件的计算机要与系统计算机区别开来。

6、定期对计算机进行查毒杀毒,对于联网的计算机应安装实时检测病毒软件,以便防范计算机病毒的感染。

7、如发现有计算机被病毒感染,需立即将该计算机从网上撤下,防止计算机病毒继续蔓延。

总之,以上 总结 了对计算机病毒的一些看法和防范措施。这是信息技术的发展所带来的切身感受。作为一名计算机工作者,与计算机病毒的斗争将更加严峻,我们必须不断努力学习,提高自身专业知识。相信未来的计算机病毒会更加厉害,防不胜防。但是,更加相信邪不胜正,总有解决它的办法。尽管现在的病毒种类各种各样,杀毒软件也逐步更新。但病毒的更新,换代速度也非常之快,我们不要掉以轻心。要树立良好的安全意识,才能在计算机病毒的防护方面做到尽量避免损失。

谈计算机信息处理技术

【摘要】随着网络化技术的不断发展,办公自动化已经成为人们生活、工作和学习必不可少的系统。本文主要从计算机信息处理技术和办公自动化概念出发,对计算机信息处理技术在办公自动化上的应用进行了探讨,并对计算机信息处理技术在办公自动化上应用的发展趋势进行了分析。

【关键词】计算机;信息处理技术;办公自动化

引言

所谓的办公室从信息处理的角度来说,其就是一个产生和处理各种信息的地方。由于目前社会的进程的不断的加快,人们需要面对和处理的信息也是不断的庞大,面对着庞大的信息量,传统的信息处理手段已经不能够满足人们的需求了。随着计算机技术的发展,企业等为了提高效率,办公自动化逐渐的被人们所重视。办公自动化是指融计算机技术、 网络技术 、通信技术以及系统科学和行为科学等各种现代化技术于一体,使人们的各种工作活动依赖于这些设备,这些办公设备和工作人员组成服务于企业目标的人机处理系统。目前,随着办公自动化以及办公数字化的普及,管理组织结构得到了优化,管理体制得到,有效的调整,极大的提高了效率,增加了办公的协同能力,加强了决策的一致性,从而真正实现了决策高效能。

当今社会,随着计算机技术、网络技术的高速发展。基于网络的数字化信息处理平台逐渐的被企业、行政单位所应用。这种办公自动化不仅极大地提高了办公的效率。而且能够实现更快的决策。由此可见,计算机信息处理技术在办公自动化中起着极为重要的作用。

一、计算机信息处理技术及办公自动化概念

所谓的计算机信息处理技术就是集获取、输送、检测、处理、分析、使用等为一体的技术,其主要作用是对信息进行处理和管理。计算机信息处理技术主要由传感技术、通信技术、计算机技术及微电子技术、网络技术等构成的。因此,也被称为信息和通信技术;办公自动化是在计算机技术、网络技术基础上发展起来的,办公自动化是集计算机技术、网路技术、通信技术、行为科学及组织科学等组成的现代化技术为一体新型技术。办公自动化是利用现代化技术和设备将现实生活中的办公活动真实的展现出来,并由相应的工作人员和现代化设备共同组成活动和目的的人机处理系统。在这里值得注意的是,使用办公自动化系统时,必须具备人和相应的机器设备,同时相应的软硬件设备也是必须具备的。

二﹑信息技术与办公自动化

信息技术是研究信息的获取、传输、处理、检测、分析和利用的技术,主要用于管理和处理信息,由传感技术、计算机技术、通信技术、微电子技术结合而成,常被称为“信息和通信技术”,有时也叫做“现代信息技术”。办公自动化是近年随着计算机科学发展而提出来的新概念,应用计算机技术、通信技术、网络技术以及系统科学、行为科学等多种技术,不断使人们的公务管理活动物化于各种设备中,并由这些设备与办公人员构成服务于各种目标的人机处理系统。这一人机系统,人,机,缺一不可。而设备方面,硬件及必要软件都需齐备。

办公自动化是20世纪70年代中期发达同家迅速发展起来的一门综合性技术,而我国OA经过80年代末至今10多年的发展,已从最初提供面向单机的辅助办公产品。发展到今天可提供面向应用的大型协同工作产品通过实现办公自动化,实现数字化办公。可以优化现有的管理组织结构,调整管理体制,在提高效率的基础上,增加协间办公能力,强化决策的一致性,最终提高决策效能更加的有效。

三﹑预测未来办公自动化的发展特点

对于未来的办公室和办公自动化发展很难有一个统一确切的描述,但从信息技术的发展趋势来看,本人以为未来办公自动化发展有以下特点:

视频技术的大量应用。

随着视频技术和压缩技术的发展,诸如视频会议等得到大力推广。在微软总部举行的未来办公品展览上推广之一就是通过摄像头全方面地看到与会者参加会议的情况,甚至还可以看到每一位发言人的表情,并进行互动式的讨论:随着信息社会的不断发展。视频技术也将更加进步,将逐步实现无线视频技术,目前市场上无线视频传输技术大多采用GPRS和CDMA技术,技术还不成熟,但可以肯定的是未来无线视频技术将被人们广泛使用。

无限的无线办公场所。

随着向wi-6技术的发展,基于网络的通讯方式迅速在工作领域兴起,这些通过手机. 笔记本 电脑等一些电子产品实现的通讯方式包括电子邮件、即时通讯、视频会议等应用得到了一次技术性的飞跃。封闭办公室的概念已不复存在,人们可以在机场、广场、饭店随时办公。员工无论身在何处,企业园区、异地出差、家庭办公等都可以轻松实现移动办公。企业内部还可以根据实用权限建立不同的应用级别,以设定不同的处理优先级,从而保证上网的安全性。 无线网络 的方便快捷大大提高了办公的效率。

更灵活的工作流。

电子文件在网络中传输,比起纸质文件的传送效率要高出几个数量级,不仅可以包括过去的纸质公文,而且还可以包含图像、动画、声音等多种影像资料,传递的知识更加丰富,对电子文件进行及时的收集和归档还可以使之得到长期保存,简单方便大大的提高了工作效率,成为办公人员的“宠儿”。

办公的非专业化。

一般的工作人员通过一些办公软件也能进行熟练的文件处理,所以要完善办公自动化环境,使普通用户可以通过输入数据和知识,然后制作出能读的文件.可以即时检索,瞬间向世界发送。虽然质量上比不上专家,但数量上肯定是很大的。如今发布在互联网的内容大约有数千亿,这样的庞大信息可以通过检索高效选择。

四﹑计算机B/S型结构和技术

B/S(Browser/Server)模式又称B/s结构。

这个模式是随着因特网技术的兴起,是对C/S模式的扩展。在这种结构下,工作面是通过IE等浏览面来实现的。用户通过浏览器向网络上的服务器发出请求,服务器对请求进行处理,再讲用户所需信息返回到浏览器。B模式最大的好处是运行维护比较简单,能实现不同的人员,从不同的地点,以不同的接人方式访问和操作共同的数据。最大的缺点是对企业外网环境依赖性太强,由于各种原因引起企业外网中断都会造成系统瘫痪。

B/S其本质是三层体系结构C/S模式:

第一层客户机是用客户和整体系统的接口。客户的应用程序精简到一个通用的浏览器软件,如软件公司的IE等。浏览器将HTML代码转换成图文并茂的网页。网页还具有一定的教互功能,允许用户在网页提供的申请表上填写信息提交后给后台,并提出处理请求。这个后台就是第二层的Web服务器。

第二层Web服务器将启动相应的进程来响应这一请求,并动态生成一窜HTML代码,其中嵌人处理的结果,返回给客户机的浏览器:如果客户机提出的请求包括数据的存取,Web服务器还需与数据服务器协同完成这一处理[作。

第三层数据库服务器的任务是负责协调不同的Web服务器发出的SQL请求,管理数据库。

基于B/S结构的通信结构,客户机只要安装一个浏览器(Bmwser)。如Intemet Explorer,服务器安装SQL Senver数据库。浏览器通过Web Server同数据库进行数据交互。对用户的技术要求比较低,对前端机的配置要求也较低,而且界面丰富、客户维护量小、程序分发简单、更新维护方便。它容易进行跨平台布置,容易在局域网和广域网之间进行协调,尤其适宜电子商务的应用。

技术。

随着信息流通量迅速增大,导致了商务本质的变化,这促使我们的上作方式也必须随之改变,以适应商务领域的高速成长。理光株式会社提出了时代全新的未来办公窒概念。 已不是单纯的软件话题,而已经涉及到新的商务模式,现在已经有开发的交流的平台,服务器、内容以及各式各样的服务。已经实现了服务的链接,从而提供了更为综合的服务。已经习惯互联网的一代新人,将在这样的环境中建立起他们的生活方式和工作方式。

在缩短企业和用户之间的鸿沟的同时,也改变着我们的办公环境。企业不仅可以借助绝佳的互动性,更好的满足用户的要求。而且企业自身的办公模式也正随着改变。普适计算技术的出现无疑将令随时随地迅速访问到自己所需信息的梦想得以实现,而这更将推动Web时代高效、轻松、愉快的工作方式演进。

五﹑未来办公自动化的发展趋势

计算机技术发展的迅速使得未来的办公室自动化将会有一个难以预测的发展趋势。但是,就目前的计算机技术,网络技术的发展趋势来看,未来的办公自动化将会具有以下的特点:

大量的应用视频技术。

伴随着压缩技术和视频技术的发展,视频会议等诸如此类的方面就会得到大力的推广和使用。通过摄像头,与会者不仅能够通通畅的表达自己的想法,还能够全方位的看到会议的现场情况,以及每一位与会者的表情,并能够进行有效的互动讨论。随着技术的不断的改进,未来的无线视频技术也必将成为办公自动化的重要组成部分。这样极大的减少的会与人员在交通道路上所浪费的时间,为与会者提供了一个更为广阔的信息交流平台,改善了传统的信息交流模式.极大的方便了大家的交流。

无线办公环境。

随着wi-fi技术的发展,网络通讯迅速的在办公领域兴起。这种网络办公使得传统的封闭式办公室不在成为必须,工作者可以利用网络和计算机技术随时随地的进行办公,例如:机场,饭店,异地出差以及家中等等。此外,为了保障企业内部的信息安全,企业可以依据使用权限设置不同的应用级别,设定小同的处理优先权,保障这种网络办公的安全性。这种无线网络极大的提高了办公的效率。改善了办公的环境。

灵活的工作程序。

电子传输的速度远远地大于传统的纸质文件的传输,而且,其不仅仅能够传输文字还能够有效的实现音频,视频的传输,极大的丰富传送的文件的形式,并且其还能够实现永久的保存。却不占用任何的空间。

六﹑结束语

计算机处理信息技术比人手办公更加迅速、准确,对价值信息能实现完善的管理,它可以高效能、大容量地收集、处理文件信息,帮助办公人员及时有效的完成工作,并促进单位掌握管理系统的全面情况,为下一步决策提供数据参考。随着计算机技术的大量使用,人们对办公室的自动化的要求与日俱增,现代办公室自动化与各种信息技术、多媒体技术相结合,为科学管理和决策服务,从而提高工作效率。

相关百科

热门百科

首页
发表服务