行人检测论文集合

参考资料：

行人检测算法

行人检测是使用计算机视觉技术来判断图像或视频中是否存在行人。可以通过跟行人跟踪，行人重识别技术，来应用于人工智能系统，车辆辅助驾驶系统、智能交通等领域

① 处理数据

② 训练模型

③ 输出目标位置

① 外观差异大。包括视觉、姿态、服饰和附着物、光照、成像距离等。行人不同的运动姿态、角度，都会显示出不同的外观，而且成像距离远近不一，也会造成外观大小不同

② 遮挡问题，在行人密集的地方，会发生行人被遮挡的问题，或者是被周围的建筑物遮挡住

③ 背景复杂，有些物体的外观、造型、颜色、纹理等都比较接近人体，例如雕塑或人像广告牌、假人等。之前就有个新闻说红绿灯行人越线检测时，把公共汽车上的代言人广告中的代言人也检测了出来

④ 检测速度，行人检测一般使用了比较复杂的模型，运算量相当大，要达到实时非常困难，一般需要大量的优化

Faster R-CNN

文献[16]分析了Faster R-CNN在行人检测问题上的表现，结果表明，直接使用这种算法进行行人检测效果并不满意。作者发现，Faster R-CNN中的RPN网络对提取行人候选区域是相当有效的，而下游的检测网络表现的不好。作者指出了其中的两个原因：对于小目标，卷积层给出的特征图像太小了，无法有效的描述目标；另外，也缺乏难分的负样本挖掘机制。作者在这里采用了一种混合的策略，用RPN提取出候选区域，然后用随机森林对候选区域进行分类。这一结构如下图所示：

DeepParts

文献[21]提出了一种基于部件的检测方案，称为DeepParts，致力于解决遮挡问题。这种方案将人体划分成多个部位，分别进行检测，然后将结果组合起来。部位划分方案如下图所示：

整个系统的结构如下图所示：

RepLoss

RepLoss[14]由face++提出，主要目标是解决遮挡问题。行人检测中，密集人群的人体检测一直是一个难题。物体遮挡问题可以分为类内遮挡和类间遮挡两类。类内遮挡指同类物体间相互遮挡，在行人检测中，这种遮挡在所占比例更大，严重影响着行人检测器的性能。

针对这个问题，作者设计也一种称为RepLoss的损失函数，这是一种具有排斥力的损失函数，下图为RepLoss示意图：

RepLoss 的组成包括 3 部分，表示为：

其中L_Attr 是吸引项，需要预测框靠近其指定目标；L_RepGT 和 L_RepBox 是排斥项，分别需要当前预测框远离周围其它的真实物体和该目标其它的预测框。系数充当权重以平衡辅助损失。

HyperLearner

文献[25]提出了一种称为HyperLearner的行人检测算法，改进自Faster R-CNN。在文中，作者分析了行人检测的困难之处：行人与背景的区分度低，在拥挤的场景中，准确的定义一个行人非常困难。

作者使用了一些额外的特征来解决这些问题。这些特征包括：

apparent-to-semantic channels

temporal channels

depth channels

为了将这些额外的特征也送入卷积网络进行处理，作者在VGG网络的基础上增加了一个分支网络，与主体网络的特征一起送入RPN进行处理：

其他的基本上遵循了Faster R-CNN框架的处理流程，只是将anchor参数做了改动。在实验中，这种算法相比Faster R-CNN有了精度上的提升。

从上面的回顾也可以看出，与人脸检测相比，行人检测难度要大很多，目前还远称不上已经解决，遮挡、复杂背景下的检测问题还没有解决，要因此还需要学术界和工业界的持续努力。

行人数据集如何采集

行人数据集采集方法：
1、静态行人数据库，其中包含训练集和测试集。该数据集的行人背景较为复杂、环境变化（光照）类型较多，且人的姿态也比较多。属于比较贴近现实场景的数据集。
2、基于双目视觉的行人数据集，数据集包括标定信息和行人标注信息，同时采用置信度传播方法获得深度信息。主要用于多人检测和行人跟踪的研究。
3、城市环境中的行人检测数据集，包含15560个行人目标和6744不含行人的图像。这些图像是在27分钟驾车穿过城市交通期间在车辆中获取的。包含训练集和测试集，测试集包含一个独立的序列。

无人驾驶(二)行人检测算法

姓名：王梦妮

学号：20021210873

学院：电子工程学院

【嵌牛导读】本文主要介绍了无人驾驶中所需的行人检测算法

【嵌牛鼻子】无人驾驶环境感知计算机视觉 SVM Adaboost算法 R.CNN

【嵌牛提问】无人驾驶中所用到的行人检测算法有哪些

【嵌牛正文】

在同样的交通路况下，无人车通过对自身运动状态及行驶环境信息进行分析，决策出最佳行驶策略和行驶方案代替驾驶员完成一系列驾驶行为，从而降低道路交通事故的发生率。而在无人驾驶中最为重要的技术便是环境感知，而在城市道路上有大量的行人出行，只有准确快速地检测出行人与对其进行跟踪，才能避免车撞人。

计算机视觉是研究赋予机器“人眼”功能的科学，通过多个传感器来获取一定范围内的色彩数据，用算法分析得到的数据从而理解周围环境，这个过程模拟了人眼以及大脑的处理过程，从而赋予机器视觉感知能力。现有的行人检测技术大多都是检测照片中的行人目标，这种照片的拍摄大多是拍摄的静止目标，图像的分辨率和像素点包含的语义信息都及其丰富，对应的算法在这样的图片上往往能取得理想的效果，但是用于无人车的“眼睛”，算法的鲁棒性就表现的非常差。这是因为在实际的道路环境中，摄像头需要搭载的车身上，在行进过程中跟随车以一定的速度移动，并且在实际道路中，行人目标往往是在运动的，由此提取出拍摄视频中的一帧就会出现背景虚化，造成像素点包含的语义信息大量减少，增加了行人检测的难度。

行人检测是计算机视觉领域的一个重要研究课题。在实际生活中，行人大多处于人口密集、背景复杂的城市环境中，并且行人的姿态各不相同，如何将行人从色彩丰富、形状相似的环境中快速准确地提取出来，是行人检测算法的难点。

行人检测算法分为两大类，一类是基于传统图像处理，另一类是基于深度学习的方法。近年来随着计算机计算速度的大幅提升，基于深度学习的方法有着越来越高的检测速度与检测精度，在行人检测领域应用越加广泛。

（一）基于传统图像处理的行人检测算法

使用传统的图像处理方法来做行人检测一般都是由两个步骤组成，第一就是需要手工设计一个合理的特征，第二就是需要设计一个合理的分类器。手工设计特征就是找到一种方法对图像内容进行数学描述，用于后续计算机能够区分该图像区域是什么物体，分类器即是通过提取的特征判断该图像区域属于行人目标还是属于背景。在传统的图像处理领域，手工特征有许多种，比如颜色特征、边缘特征(canny算子和sobel算子)以及基于特征点的描述子(方向梯度直方图)等。学者们一致认为方向梯度直方图是最适合行人检测的人工特征，其主要原理是对图像的梯度方向直方图进行统计来表征图像。该特征是由Dalal于2005提出的，并与SVM分类器相结合，在行人检测领域取得了前所未有的成功。

传统的行人检测方法首先需要通过提取手工设计特征，再使用提取好的特征来训练分类器，得到一个鲁棒性良好的模型。在行人检测中应用最广泛的分类器就是SVM和Adaboost。SVM分类器就是要找到一个超平面用来分割正负样本，这个超平面的满足条件就是超平面两侧的样本到超平面的距离要最大，即最大化正负样本边界。下图即为线性SVM的示意图。

Adaboost分类算法的主要原理不难理解，就是采用不同的方法训练得到一系列的弱分类器，通过级联所有的弱分类器来组成一个具有更高分类精度的强分类器，属于一种迭代算法。原理简单易于理解且有着良好的分类效果，唯一不足就是练多个弱分类器非常耗时。下图为面对一个二分类问题，Adaboost算法实现的细节。

（二）基于深度学习的行人检测算法

近年来，随着硬件计算能力的不断增强，基于卷积神经网络的深度学习飞速发展，在目标检测领域取得了更好的成绩。卷积神经网络不再需要去手动设计特征，只需要将图片输入进网络中，通过多个卷积层的卷积操作，提取出图像的深层语义特征。要想通过深度学习的方法得到一个性能良好的模型，需要大量的样本数据，如果样本过少，就很难学习到泛化能力好的特征，同时在训练时，由于涉及到大量的卷积操作，需要进行大量计算，要求硬件设备具有极高的算力，同时训练起来也很耗时。随着深度学习的飞速发展，越来越多基于深度学习的模型和方法不断被提出，深度学习在目标检测领域会有更加宽广的发展空间。

Ross Girshick团队提出了R.CNN系列行人检测算法，其中Faster R—CNN 算法通过一个区域提议网络来生成行人候选框，在最后的特征图上滑动来确定候选框。Faster RCNN是首个实现端到端训练的网络，通过一个网络实现了特征提取、候选框生成、边界框回归和分类，这样的框架大大提高了整个网络的检测速度。 He Kaiming等人在2017年提出Mask R—CNN算法，该算法改进了Faster·R—CNN，在原有的网络结构上增加了一个分支进行语义分割，并用ROI Align替代了ROI Pooling，取得了COCO数据集比赛的冠军。