采用了YOLO目标检测的思想,将人体姿态检测看作是一个目标检测问题,对人体部位不再采用 pixel-wise(像素级别) 的检测,而是采用 grid-wise(网格级别) 来得到人体部位的feature map,其中利用一个 single-shot CNN 网络同时对身体关节和肢体(limb)来进行检测,然后采用类似OpenPose中的PAF分析方法来得到完整的人体姿态
YOLO整体思想:将输入图片分成 S×S 个 grid(网格) ,每个网格预测 B 个 bounding boxes 和这些网格的 confidence scores ,每个 bounding boxes 包含5个预测值 : 和 ,同时每个 grid cell 又会预测 (所有类别数) 个目标在当前gird cell中的概率
经过特殊设计的Loss函数:
同时每个grid cell也会对肢体(limbs)进行检测:
Loss函数设计:
最终,CNN输出 维张量,6代表 的6个参数, 前面提到过