什么是人体骨骼关键点检测?
应用
挑战
人体骨骼关键点检测方法主要分两周:自上而下和自下而上。
coordinate :坐标 直接将关键点坐标作为最后网络需要回归的目标,这样可以得到每个坐标点的直接位置信息
heatmap :热图 每一类坐标用一个概率图来表示,对图片中的每个像素位置都给一个概率,表示该点属于对应类别关键点的概率。距离关键点位置越近的像素点的概率越接近于1,距离关键点越远的像素点的概率越接近于0。具体的一般使用高斯函数来模拟。
offset :偏移量 表示距离目标关键点一定范围内的像素位置与目标关键点之间的关系。
Convolutional Pose Machines :本论文将深度学习应用于人体姿态分析,同时用卷积图层表达纹理信息和空间信息。主要网络结构分为多个stage,其中第一个stage会产生初步的关键点的检测效果,接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入,进一步提高关键点的检测效果。具体的流程图如下图(摘自论文[1])所示。
Cascaded Pyramid Network for Multi-Person Pose Estimation :本论文将深度学习应用于人体姿态分析,同时用卷积图层表达纹理信息和空间信息。主要网络结构分为多个stage,其中第一个stage会产生初步的关键点的检测效果,接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入,进一步提高关键点的检测效果。具体的流程图如下图(摘自论文[2])所示。
RMPE :本论文主要考虑的是自上而下的关键点检测算法在目标检测产生Proposals的过程中,可能会出现检测框定位误差、对同一个物体重复检测等问题。检测框定位误差,会出现裁剪出来的区域没有包含整个人活着目标人体在框内的比例较小,造成接下来的单人人体骨骼关键点检测错误;对同一个物体重复检测,虽然目标人体是一样的,但是由于裁剪区域的差异可能会造成对同一个人会生成不同的关键点定位结果。本文提出了一种方法来解决目标检测产生的Proposals所存在的问题,即通过空间变换网络将同一个人体的产生的不同裁剪区域(Proposals)都变换到一个较好的结果,如人体在裁剪区域的正中央,这样就不会产生对于一个人体的产生的不同Proposals有不同关键点检测效果。具体Pipeline如下图(摘自论文[14])所示。
Part Segmentation :即对人体进行不同部位分割,而关键点都落在分割区域的特定位置,通过部位分割对关键点之间的关系进行建模,既可以显式的提供人体关键点的空间先验知识,指导网络的学习,同时在最后对不同人体关键点进行聚类时也能起到相应的连接关键点的作用。如下图(论文[4])所示。
Part Affinity Fields :
网络分为两路结构,一路是上面的卷积层,用来获得置信图;一路是下面的卷积层,用来获得PAFs。网络分为多个stage,每一个stage结束的时候都有中继监督。每一个stage结束之后,S以及L都和stage1中的F合并。上下两路的loss都是计算预测和理想值之间的L2 loss。
personlab是一个自下而上的人体检测和姿态估计算法。包括两个步骤:
关键点检测阶段的目标是检测属于图像(可能不止一个人)中任何人体的关键点。该阶段生成一个热图和一个偏移量:
假设 是图像中二维位置中的一个,其中 是图像的位置索引, 是像素点的个数。
使用Hough投票集合热图和偏移量,聚合成hough分数映射 , 其中 为图像的每个位置, 为双线性插值核。
的局部最大值作为关键点的候选位置点,但是 没有与个体相关的信息,当图像中有多个个体存在时,我们需要一个机制将关键点聚合在其对应的个体上。 Mid-range pairwise offsets 为了达到以上目的,在网络上加入一个分离的成对中射程2-D偏移域输出 用来连接成对的关键点。训练集中 ,表示对于同一个个体 从第 个关键点到第 个关键点。
对于具有大量个体的情况,很难准确的回归 ,使用更准确的短射程偏移来递归的修正:
[1] Convolutional Pose Machines [2] Cascaded Pyramid Network for Multi-Person Pose Estimation [3] RMPE: Regional Multi-Person Pose Estimation