关于人脸检测的论文参考文献

Viola-Jones方法，人脸识别研究组。《智能环保垃圾处理设备》发布的公告得知人脸识别参考文献为Viola-Jones方法，人脸识别研究组。包括人脸检测，人脸预处理和人脸等方向。

Viola-jones人脸检测算法是一种基于滑动窗口的目标检测算法，但它却克服了滑动窗口检测带来的低效问题，可以用于实时人脸检测，主要归功于以下三点：

我参考论文[1]实现了Viola Jones中提到的attention cascade检测框架，此处是 github传送门。

下面进一步详细介绍整个检测原理。

基于滑窗的目标检测基本原理很简单，首先构建一个classifier（分类器），以人脸检测为例，分类器的工作是判断给定大小的图像的是否为人脸，用该分类器从左至右从上到下扫描整幅图像，扫描获取的部分图像称为子窗（文章中子窗大小为24x24像素），当分类器判断子窗是人脸时，即完成了人脸检测。

这样处理有个问题，如果图像中包含的人脸变大了，此时采用固定大小的子窗就无法进行检测。通常有两种解决方法，1. 采用image-pyramid（图像金字塔），也就是通过resize获得多种不同大小图像并堆叠在一起，用固定大小分类器同时对所有图像进行扫描；2. 采用不同大小的分类器进行扫描。文章中用到的是第二种方法，尽管如此，虽然避免了调整图像大小带来的计算开销，但不同大小的分类器意味着有更多子窗需要进行处理。

如何构建一个足够快的分类器来对每个子窗进行快速判断。

分类器的构建有两种方式，一种是pixel-based（基于像素），另一种是feature-based（基于特征）。当把神经网络作为图像分类器时，输入是图像的像素值，即基于像素的分类器。用图像像素作为输入不包含任何和待分类目标有关的特定信息，往往训练这种分类器需要大量数据，并且分类过程较慢。基于特征的分类器就是先针对图像进行特征提取（HOG特征，SIFT特征等），再利用获取的特征进行分类。这种分类器不需要大量训练数据，且计算量一般会在特征计算部分，相对较小。

文章采用的是基于特征的分类器，选取了一种较为简单的特征即haar-like特征。利用矩形个数对可以将haar-like特征分为三类，分别由两个，三个，和四个大小相同的矩形组成。全部列举出来可以分为以下(a)(b)(c)(d)(e)五类（注意是五类不是五个，具体有多少个haar-like特征是由子窗大小决定的）。如下图所示（文章[1]中的图）。

当子窗大小给定后，我们可以用五个参数唯一确定一个 haar-like特征，即特征种类（a/b/c/d/e），左上角x轴坐标，左上角y轴坐标，矩形的长，矩形的宽。对应的特征值等于位于白色矩形框中像素值总和减去位于黑色矩形框中的像素值总和。文章中用到的子窗大小为24x24像素，可以计算出来总共有162336个特征（把在子窗中所有可能位置和可能大小的特征全部列举出来）。利用haar-like特征进行分类只需两步：

haar-like特征有两个优点，第一是它是scale-invariant(不随图片大小而改变)的，第二是可以通过积分图像快速计算。简单的说下第一点的含义，例如我们用24x24像素的训练样本训练获取一组haar-like特征和对应的门限值，当对图像进行扫描时，子窗大小调整为SxS像素，此时只需将特征中的矩形大小按同样比例进行缩放（门限值同样需要缩放），计算所得的特征值依然是有效的。积分图像是受卷积的微分性质启发而定义一种数据结构。积分图像定义：其中为积分图像，为原图像。积分图像中位置处的像素值等于原图中位于的左侧和上方的所有像素值之和。有了积分图像我们就可以快速计算haar-like特征，以特征（a）为例，如下图所示。

S1到S6是积分图像在这六个顶点上的值。该特征值等于位于A中的像素总和减去位于B中的像素总和，而A中像素总和等于S5+S1-S2-S4，B中像素总和等于S6+S2-S3-S5，并且无论矩形多大，我们总能在固定时间内计算出特征值（6次索引操作和少量的加法乘法计算）。积分图像只需计算一次后续可以一直使用，事实上在算法实现时，我们只需保存样本的积分图像，原图像反而不用保存。

现在找到了一类特征用于构建分类器，和快速计算该类特征的方法。分类器是由一组特征构成的，而不是一个，如何找到一组有效的特征。

文章列举了前人的一些特征选取方法（此处就不列举了），它们虽然取得了一定的效果，但最终选出来的特征数量还是太多。文章将adaBoost算法用于特征选取（创新点），即每次训练的弱分类器的过程看做特征选取的过程，一次从162336个特征中选取一个特征（同时还包括了对应的门限值，极性，加权误差）。

adaboost算法就不详细介绍了，它的基本思想是训练一系列“弱”分类器，组成一个committee（即每个弱分类器都有投票权，但是权重不同，加权误差越小的弱分类器权重越大）。adaboost采用迭代训练方式，给定一个t阶committee，如何寻找第t+1个弱分类器和对应的权重，以最小化在一定分布下的训练样本的加权指数损失。这个优化过程可以转换为对训练样本的分布进行调整（即增大上一轮错误判断的样本的权重，减小正确判断的样本权重），在调整后的样本分布下寻找最小化加权0-1损失的弱分类器并计算对应的加权0-1损失。

可以利用adaboost找到一组特征构成分类器，使得该分类器有极高的准确率和召回率（这种分类器势必会有较大的计算量），这样会导致图像中的每一个子窗都享有同等的计算量，扫描一整幅图会有几十万甚至上百万子窗，总体计算量依然很大。实际上一幅图像中只有极少可能包含人脸的位置是我们感兴趣的，其他不包含人脸的子窗我们希望能够快速筛除，将更精细的计算用于包含人脸的子窗。

文章引入了attention-cascade的机制（注意力级联），即训练多个分类器进行级联，替代单一的分类器。结构如下图所示（文章[3]中的图）。

上图所示的分类器有三级，上一级的输出是下一级的输入，只有预测为正的样本才能传递给下一级，预测为负的样本直接舍弃。大部分非人脸子窗往往在前几级分类器就被舍弃，这样使得扫描每个子窗所需的平均计算量大大减小。

分类器是一级一级训练之后级联起来的，训练分类器时，整个级联分类器的假负率（fpr_overall）有一个训练目标（文章[1]中设置为10e-7），同时每一级有一对训练目标，即假正率和假负率。每级分类器训练的思想是在假负率极低的情况下（文章[1]中设置为）尽量得到一个较低的假正率（文章中[1]中设置为），即我们保证在正样本尽可能多的通过该级分类器的情况下尽量筛除更多的负样本。文章[3]通过一个松弛量来调节假正率和假负率。

下一级用到的训练数据是由所有的正样本和上一级输出的假正样本组成的，这样训练的好处是可以让处于级联后半部分的分类器“看到”更多负样本数据，缺点是训练后期假正样本很难获取，训练时间会比较长。

尽管我们获取了一个级联分类器，但依然不能保证对同一幅图中的一张人脸只会检测到一次（子窗相对人脸有所便宜或者缩放子窗大小都可能导致重复检测），如何消除重复检测，获得更好的检测效果。

文章[3]中说的较为简略，主要是针对检测框构建并查集，并对并查集中的候选框求平均得出最终的检测框。

文章[1]中是采用连通分量算法，计算每种大小检测框的置信度，根据置信度选取最终结果，但前提是检测器在图像中扫描的步进必须是1个像素，处理时间可能会比较长。

只能用于正脸检测，如果人脸朝屏幕内外或者在屏幕平面上旋转均有可能失效在背景较亮，人脸较暗的情况下可能失效。在有遮挡的情况下大概率失效。

姓名：张钰学号：21011210154 学院：通信工程学院【嵌牛导读】Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection论文阅读笔记【嵌牛鼻子】Deepfake人脸检测方法，基于单中心损失监督的频率感知鉴别特征学习框架FDFL，将度量学习和自适应频率特征学习应用于人脸伪造检测，实现SOTA性能【嵌牛提问】本文对于伪造人脸检测的优势在哪里体现【嵌牛正文】转自：

人脸检测相关论文

人脸识别是一个被广泛研究着的热门问题，大量的研究论文层出不穷，晓电晓受晓受晓晓晓多晓电晓米晓受晓联晓受晓零晓电晓受晓米晓多晓晓e少量惠量量e米惠d量晓晓受晓晓晓晓米晓晓多晓少米受在一定程度上有泛滥成“灾”之嫌。为了更好地对人脸识别研究的历史和现状进行介绍，本文将AFR的研究历史按照研究内容、技术芳珐等方面的特点大体划分为三个时间阶段，如表受所示。该表格概括了人脸识别研究的发展简史及其每个历史阶段代表性的研究工作及其技术特点。下面对三个阶段的研究进展情况作简单介绍：第一阶段(受惠米联年~受惠惠零年) 这一阶段人脸识别通常只是作为一个一般性的模式识别问题来研究，所采用的主要技术方案是基于人脸几何结构特征(Geometricfeature based)的芳珐。这集中体现在人们对于剪影(Profile)的研究上，人们对面部剪影曲线的结构特征提取与分析方面进行了大量研究。人工神经网络也一度曾经被研究人员用于人脸识别问题中。较早从事AFR研究的研究人员除了布莱索(Bledsoe)外还有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。金出武雄于受惠少晓年在京都大学完成了第一篇AFR方面的博士论文，直到现在，作为卡内基-梅隆大学(CMU)机器人研究院的一名教授，仍然是人脸识别领域的活跃人物之一。他所在的研究组也是人脸识别领域的一支重要力量。总体而言，这一阶段是人脸识别研究的初级阶段，非常重要的成果不是很多，也基本没有获得实际应用。第二阶段(受惠惠受年~受惠惠少年) 这一阶段尽管时间相对短暂，但却是人脸识别研究的高潮期，可谓硕果累累：不但诞生了若干代表性的人脸识别算法，美国军方还组织了著名的FERET人脸识别算法测试，并出现了若干伤业化运作的人脸识别系统，比如最为著名的Visionics(现为Identix)的FaceIt系统。美国麻省理工学院(MIT)媒体实验室的特克(Turk)和潘特兰德(Pentland)提出的“特征脸”芳珐无疑是这一时期内最负盛名的人脸识别芳珐。其后的很多人脸识别技术都或多或少与特征脸有关系，现在特征脸已经与归一化的协相关量(NormalizedCorrelation)芳珐一道成为人脸识别的性能测试基准算法。这一时期的另一个重要工作是麻省理工学院人工智能实验室的布鲁内里(Brunelli)和波基奥(Poggio)于受惠惠电年左右做的一个对比实验，他们对比了基于结构特征的芳珐与基于模板匹配的芳珐的识别性能，并给出了一个比较确定的结论：模板匹配的芳珐优于基于特征的芳珐。这一导向性的结论与特征脸共同作用，基本中止了纯粹的基于结构特征的人脸识别芳珐研究，并在很大程度上促进了基于表观(Appearance-based)的线性子空间建模和基于统计模式识别技术的人脸识别芳珐的发展，使其逐渐成为主流的人脸识别技术。贝尔胡米尔(Belhumeur)等提出的Fisherface人脸识别芳珐是这一时期的另一重要成果。该芳珐首先采用主成分分析(PrincipalComponent Analysis，PCA，亦即特征脸)对图像表观特征进行降维。在此基础上，采用线性判别分析(LinearDiscriminant Analysis, LDA)的芳珐变换降维后的主成分以期获得“尽量大的类间散度和尽量小的类内散度”。该芳珐目前仍然是主流的人脸识别芳珐之一，产生了很多不同的变种，比如零空间法、子空间判别模型、增强判别模型、直接的LDA判别芳珐以及近期的一些基于核学习的改进策略。麻省理工学院的马哈丹(Moghaddam)则在特征脸的基础上，提出了基于双子空间进行贝叶斯概率估计的人脸识别芳珐。该芳珐通过“作差法”，将两幅人脸图像对的相似度计算问题转换为一个两类(类内差和类间差)分类问题，类内差和类间差数据都要首先通过主成分分析(PCA)技术进行降维，计算两个类别的类条件概率密度，最后通过贝叶斯决策(最大似然或者最大后验概率)的芳珐来进行人脸识别。人脸识别中的另一种重要芳珐——弹性图匹配技术(Elastic GraphMatching，EGM) 也是在这一阶段提出的。其基本思想是用一个属性图来描述人脸：属性图的顶点代表面部关键特征点，其属性为相应特征点处的多分辨率、多方向局部特征——Gabor变换【受电】特征，称为Jet;边的属性则为不同特征点之间的几何关系。对任意输入人脸图像，弹性图匹配通过一种优化馊索策略来定位预先定义的若干面部关键特征点，同时提取它们的Jet特征，得到输入图像的属性图。最后通过计算其与已知人脸属性图的相似度来完成识别过程。该芳珐的优点是既保留了面部的全局结构特征，也对人脸的关键局部特征进行了建模。近来还出现了一些对该芳珐的扩展。局部特征分析技术是由洛克菲勒大学(RockefellerUniversity)的艾提克(Atick)等人提出的。LFA在本质上是一种基于统计的低维对象描述芳珐，与只能提取全局特征而且不能保留局部拓扑结构的PCA相比，LFA在全局PCA描述的基础上提取的特征是局部的，并能够同时保留全局拓扑信息，从而具有更佳的描述和判别能力。LFA技术已伤业化为著名的FaceIt系统，因此后期没有发表新的学术进展。由美国国防部反技术发展计划办公室资助的FERET项目无疑是该阶段内的一个至关重要的事件。FERET项目的目标是要开发能够为安全、情报和执法部门使用的AFR技术。该项目包括三部分内容：资助若干项人脸识别研究、创建FERET人脸图像数据库、组织FERET人脸识别性能评测。该项目分别于受惠惠联年，受惠惠多年和受惠惠米年组织了晓次人脸识别评测，几种最知名的人脸识别算法都参家了测试，极大地促进了这些算法的改进和实用化。该测试的另一个重要贡献是给出了人脸识别的进一步发展方向：光照、姿态等非理想采集条件下的人脸识别问题逐渐成为热点的研究方向。柔性模型(Flexible Models)——包括主动形状模型(ASM)和主动表观模型(AAM)是这一时期内在人脸建模方面的一个重要贡献。ASM/AAM将人脸描述为电D形状和纹理两个分离的部分，分别用统计的芳珐进行建模(PCA)，然后再进一步通过PCA将二者融合起来对人脸进行统计建模。柔性模型具有良好的人脸合成能力，可以采用基于合成的图像分析技术来对人脸图像进行特征提取与建模。柔性模型目前已被广泛用于人脸特征对准(FaceAlignment)和识别中，并出现了很多的改进模型。总体而言，这一阶段的人脸识别技术发展非常迅速，所提出的算法在较理想图像采集条件、对象配合、中小规模正面人脸数据库上达到了非常好的性能，也因此出现了若干知名的人脸识别伤业公司。从技术方案上看，电D人脸图像线性子空间判别分析、统计表观模型、统计模式识别芳珐是这一阶段内的主流技术。第三阶段(受惠惠量年~现在) FERET’惠米人脸识别算法评估表明：主流的人脸识别技术对光照、姿态等由于非理想采集条件或者对象不配合造成的变化鲁棒性比较差。因此，光照、姿态问题逐渐成为研究热点。与此同时，人脸识别的伤业系统进一步发展。为此，美国军方在FERET测试的基础上分别于电零零零年和电零零电年组织了两次伤业系统评测。基奥盖蒂斯(Georghiades)等人提出的基于光照锥 (Illumination Cones) 模型的多姿态、多光照条件人脸识别芳珐是这一时期的重要成果之一，他们证明了一个重要结论：同一人脸在同一视角、不同光照条件下的所有图像在图像空间中形成一个凸锥——即光照锥。为了能够从少量未知光照条件的人脸图像中计算光照锥，他们还对传统的光度立体视觉芳珐进行了扩展，能够在朗博模型、凸表面和远点光源假设条件下，根据未知光照条件的少幅同一视点图像恢复物体的晓D形状和表面点的表面反射系数(传统光度立体视觉能够根据给定的晓幅已知光照条件的图像恢复物体表面的法向量方向)，从而可以容易地合成该视角下任意光照条件的图像，完成光照锥的计算。识别则通过计算输入图像到每个光照锥的距离来完成。以支持向量机为代表的统计学习理论也在这一时期内被应用到了人脸识别与确认中来。支持向量机是一个两类分类器，而人脸识别则是一个多类问题。通常有三种策略解决这个问题，即：类内差/类间差法、一对多法(one-to-rest)和一对一法(one-to-one)。布兰兹(Blanz)和维特(Vetter)等提出的基于晓D变形(晓D Morphable Model)模型的多姿态、多光照条件人脸图像分析与识别芳珐是这一阶段内一项开创性的工作。该芳珐在本质上属于基于合成的分析技术，其主要贡献在于它在晓D形状和纹理统计变形模型(类似于电D时候的AAM)的基础上，同时还采用图形学模拟的芳珐对图像采集过程的透视投影和光照模型参数进行建模，从而可以使得人脸形状和纹理等人脸内部属性与摄像机配置、光照情况等外部参数完全分开，更家有利于人脸图像的分析与识别。Blanz的实验表明，该芳珐在CMU-PIE(多姿态、光照和表情)人脸库和FERET多姿态人脸库上都达到了相当高的识别率，证明了该芳珐的有效性。电零零受年的国际计算机视觉大会(ICCV)上，康柏研究院的研究员维奥拉(Viola)和琼斯(Jones)展示了他们的一个基于简单矩形特征和AdaBoost的实时人脸检测系统，在CIF格式上检测准正面人脸的速度达到了每秒受多帧以上。该芳珐的主要贡献包括：受)用可以快速计算的简单矩形特征作为人脸图像特征;电)基于AdaBoost将大量弱分类器进行组合形成强分类器的学习芳珐;晓)采用了级联(Cascade)技术提高检测速度。目前，基于这种人脸/非人脸学习的策略已经能够实现准实时的多姿态人脸检测与跟踪。这为后端的人脸识别提供了良好的基础。沙苏哈(Shashua)等于电零零受年提出了一种基于伤图像【受晓】的人脸图像识别与绘制技术。该技术是一种基于特定对象类图像集合学习的绘制技术，能够根据训练集合中的少量不同光照的图像，合成任意输入人脸图像在各种光照条件下的合成图像。基于此，沙苏哈等还给出了对各种光照条件不变的人脸签名(Signature)图像的定义，可以用于光照不变的人脸识别，实验表明了其有效性。巴斯里(Basri)和雅各布(Jacobs)则利用球面谐波(Spherical Harmonics)表示光照、用卷积过程描述朗博反射的芳珐解析地证明了一个重要的结论：由任意远点光源获得的所有朗博反射函数的集合形成一个线性子空间。这意味着一个凸的朗博表面物体在各种光照条件下的图像集合可以用一个低维的线性子空间来近似。这不仅与先前的光照统计建模芳珐的经验实验结果相吻合，更进一步从理论上促进了线性子空间对象识别芳珐的发展。而且，这使得用凸优化芳珐来强制光照函数非负成为可能，为光照问题的解决提供了重要思路。 FERET项目之后，涌现了若干人脸识别伤业系统。美国国防部有关部门进一步组织了针对人脸识别伤业系统的评测FRVT，至今已经举办了两次：FRVT电零零零和FRVT电零零电。这两次测试一方面对知名的人脸识别系统进行了性能比较，例如FRVT电零零电测试就表明Cognitec, Identix和Eyematic三个伤业铲品遥遥领先于其他系统，而它们之间的差别不大。另一方面则全面总结了人脸识别技术发展的现状：较理想条件下(正面签证照)，针对晓少联晓少人受电受,多量惠幅图像的人脸识别(Identification)最高首选识别率为少晓%，人脸验证(Verification)的等错误率(EER【受联】)大约为米%。FRVT测试的另一个重要贡献是还进一步指出了目前的人脸识别算法亟待解决的若干问题。例如，FRVT电零零电测试就表明：目前的人脸识别伤业系统的性能仍然对于室内外光照变化、姿态、时间跨度等变化条件非常敏感，大规模人脸库上的有效识别问题也很严重，这些问题都仍然需要进一步的努力。总体而言，目前非理想成像条件下(尤其是光照和姿态)、对象不配合、大规模人脸数据库上的人脸识别问题逐渐成为研究的热点问题。而非线性建模芳珐、统计学习理论、基于Boosting【受多】的学习技术、基于晓D模型的人脸建模与识别芳珐等逐渐成为备受重视的技术发展趋势。总而言之，人脸识别是一项既有科学研究价值，又有广泛应用前景的研究课题。国际上大量研究人员几十年的研究取得了丰硕的研究成果，自动人脸识别技术已经在某些限定条件下得到了成功应用。这些成果更家深了我们对于自动人脸识别这个问题的理解，尤其是对其挑战性的认识。尽管在海量人脸数据比对速度甚至精度方面，现有的自动人脸识别系统可能已经超过了人类，但对于复杂变化条件下的一般人脸识别问题，自动人脸识别系统的鲁棒性和准确度还远不及人类。这种差距产生的本质原因现在还不得而知，毕竟我们对于人类自身的视觉系统的认识还十分肤浅。但从模式识别和计算机视觉等学科的角度判断，这既可能意味着我们尚未找到对面部信息进行合理采样的有效传感器(考虑单目摄像机与人类双眼系统的差别)，更可能意味着我们采用了不合适的人脸建模芳珐(人脸的内部表示问题)，还有可能意味着我们并没有认识到自动人脸识别技术所能够达到的极限精度。但无论如何，赋予计算设备与人类似的人脸识别能力是众多该领域研究人员的梦想。相信随着研究的继续深入，我们的认识应该能够更家准确地逼近这些问题的正确答案。

关于人脸识别的论文参考文献

Human Age Estimation Using Bio-inspired Features基于局部Gabor变化直方图序列的人脸描述与识别A Gender and Age Estimation System from Face ImagesSubjective Age Estimation System using Facial ImagesOn the significance of different facial parts for automatic age estimation大部分都是IEEE论文数据库里的，由于大部分都是收费论文，链接就不提供了

直接 google scholar，age estimation,很多文献，新的旧的，都出来了Y Fu, et al. Age synthesis and estimation via faces: A survey [J]. IEEE Transaction on PAMI, 2010, 32(11): 1955 - 1976. 这篇不错，综述

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2015）25-0137-03人脸的表情包含了人体行为的情感信息和心理信息，这是人们在进行非语言的交流时所采取最有效的手段。人们可以根据表情来充分地将自己的思想以及情感表达出来，同时根据人脸表情来对对方内心世界和对方的态度来加以了解，所以说人脸的表情在日常生活当中扮演着极为重要的角色。表情能够将很多的语言以及声音不能够表达出来的信息给表达出来，其在医疗和语言学以及相关的服务行业中都在发挥着极为重要的作用。1 人脸表情识别的技术现状提取人脸表情特征由于提取人脸表情特征采取的图像类型不一样，对此我们可以将其分成静态表情的图像特征进行提取以及序列表情的图像特征进行提取这两种。第一种提取的是表情静止时的特征，第二种提取的是表情在运动过程中的特征，对于第一种的提取方法一般为Gabor小波，主成份分析（PCA）以及线性的判断分析（LDA）等的方法；而针对与第二种的提取方法有特征点跟踪，查分图像法以及光流法等。1）提取静态的表情特征的常用方法PCA主要是用在抽取原始特征以及降维，这种方法运算的中心思想是把二维的图像转为一维向量，根据从大到小的排列顺序对特征值以及特征向量加以调整，并且通过K-L的变换投影获得正交基，对其加以取舍进而得到人脸的表情特征其子空间。其实际上识别表情的过程就是把测试的样本进行比较投影进表情特征的子空间里，之后再将其跟测试的样本加以比较判定出它的表情类别。Gabor小波这种方法是现在我们比较常用的一种表示特征的方法，它能够有效地将环境噪音加以清除，使提取的图像特征有效加强，主要是通过图像在不同方向不同尺度上的频率信息对图像的特征加以表明。2）提取变动的表情特征常用的方法对于序列图像特征加以提取的代表性方法就是光流法。这种方法在1981年被第一次提出，主要是根据对视频图像里的表情特征光流加以计算进而得到每一个特征点的运动情况，这就是表情特征。第一种提取特征的方法它采集较方便，计算更快捷，但是不能够对更大时间和空间信息加以探知。而第二种提取特征的方法虽可以对运动的表情信息加以提取，进而使得到的识别效果较好，但这种方法其计算的数据量较庞大，且具有很高的重复率，实际的操作当中比较困难。因此从目前来看，提取表情特征应该朝着将各种提取方法相互融合来对信息加以特征提取。传统的人脸表情识别系统中存在的问题对于人类表情识别的研究中可以依据人类对不同的表情加以区别上获得启发，但运用计算机的视觉技术准确地对人脸表情进行识别的系统，实际运用中还有很多难题。1）不容易建立起理想的人脸表情相关模型因为人脸是比较柔的，所以把人的表情和情感进行分类，在此基础上再建立一个模型，把人类的表情特征以及情感信息再相对应这就显得十分的困难。2）表情数据库不完善现在很多研究的实验结果都是在各自研究团队里研发出来的表情数据库的基础上得到的，我们知道每一个表情库由于噪音或者是光照等环境方面的影响都各不相同，再加上每个表情库里的人脸图像在文化，种族当中都存在着比较大的区别，所以实验的结果应该多次加以重复验证，增加推广能力。3）学科方法和技术有自身的局限性尽管我们在对人脸识别的系统中研究工作正在逐步加深，得到了很大的进步，但因为很多的研究者都是自己展开工作，在新技术和新方法将优点充分发挥出来的同时也不可避免地有着自身的局限性，多种技术相互融合上面的工作开展得还比较慢。2 提取改进LBP的人脸表情特征局部二元模式（LBP）指的是一个能描述算子的有效图像纹理特征，根据存在于图像中的任意一点和它相邻那点的灰度值中发生的大小关系来判定图像中部分纹理空间构造，从这方面上来看，它有旋转和抗亮度变化的能力。原始的LBP算子LBP一开始先将图像中各个像素点之间的灰度值加以计算，将在各个像素点和跟她相邻的点存在于灰度值上的二值关系加以计算，根据计算后得出的二指关系根据相应规则来形成局部二值的模式，同时将多区域的直方图序列当做这个图像的一个二值模式。图1 基本的LBP算子计算的过程一个基本的LBP算子应该是上图1所示那样，将其定义成3*3的窗口，有8个邻域的像素点，把窗口中心点的灰度值对窗口内的像素点其灰度值执行二值化，再依据不同的像素点位置来加权求和，进而得到这个窗口LBP编码值。改进的LBP算子从上面我们可以知道原始的算法自身纹理描述力是很强的，但在特定的局域内，原始LBP算子只考虑到了存在于中心像素点跟邻域的像素点之间灰度值的差异，把中心像素点作用以及邻域像素点其灰度值之间的互相关系忽略掉了，因而造成在某些情况下把局部的结构特点信息有所忽略。如下图2就是某种特定的情况。图2 原始的LBP算子在特定情形中的编码图2中所产生的11111111主要是对暗点以及会读平坦的区域进行检测，可以说是特征检测器。我们在此基础上，对原始的LBP算子进行改进，根据使一位二值编码增加的方式来加以扩展，提出了多重心化的二值模式也就是MLBP，具体的改进过程如图3所示。图3 改进的LBP算子计算的过程（P=8、R=1）由图3中获得的两个8位子编码将其当做独立的两个MLBP的自编码，继而对所有模式直方图加以计算，根据这个直方图来加以分类或者是识别。LBP具体的算法公式如下：在这当中，N，R分别表示的是临域点的个数和半径，gc表示的是像素点，gn表示的是它的临域点。根据这个改进的MLBP算子我们可以看出，它根据使一位二值的编码增加的形式，在将原始LBP算子的优势得到保持前提下，将中心像素点作用和邻域像素点二者间灰度值的关系又加以利用。跟原始的相比，改进的算子并没有时特征模式有所增加，而且还可以将原始的算子中没有考虑到的中心像素点和邻域像素点灰度值间关系产生的结构特点提取出来，让其鉴别能力得到提高。3 人脸识别系统的设计系统构成该系统主要是被硬件平台以及软件开发的平台这两部分构成。硬件平台指的就是那些采集图像的设备和计算机系统，而软件开发的平台就是本文中所描述到的在上述所说的算法中改进开发出来的一种人脸识别的系统。系统软件系统软件的构造。系统软件可以划分成以下两个部分。首先是获取图像，当进入到主界面中时，点击打开图像或者是打开视频，系统初始化的硬件设备能够根据直接打开的静态表情图像或者是视频等，来对人脸表情图像进行获取并将图像显示出来，之后再对人脸开始进行检测和定位。其次，就是提取相应的表情特征并对其进行识别。下面为了对该系统在进行识别表情时的效果进行验证，本文进行了几组对比实验。先将Gabor跟采样降维相结合的特征提取方式下得出的不同分类器效果加以比较，再将该系统下的分类跟其他的分类器效果进行比较。具体如下图4所示。图4 不同的分类器下表情识别比较图在图4中，横坐标1-7分别表示的是生气、厌恶、恐惧、高兴和瓶颈、伤心以及惊奇，数字8表示的是所有的表情。结论：根据图4我们可看出，在特征提取条件相同情况下，整体实验数据中稀疏表示明显比另两种分类型的性能要好，而且BP神经网络分类效果也非常良好，但是最近邻之间的分类器的精准度没有前两种表现得好。该文中运用的这种提取特征方法的效果明显比Gabor跟采样降维相结合的方法效果要好。上面进行的对比实验，充分验证了本文中的分类系统的优越感。下面跟文献中已经有的方案进行对比，具体如下图5所示。[不同人脸表情识别方法＼&识别率＼&Gabor+弹性模板匹配[5]＼&80%＼&特征块PCA+最近邻分析器[8]＼&＼&本文方法＼&＼&]图5 跟文献中含有的方案进行比较效果根据图5所示，我们可以看出，跟其他文献中采用的方法来看，本文采用的方法在表情识别上有着明显的优势。具体的我们还可以从下图6的人脸表情识别界面中看到本文中设计的人脸识别系统具体应用情况。图6 人脸表情识别的界面简析人脸识别算法1）优点这种算法将以前在迭代过程中的迭矩阵计算大大简化，而且在识别的速度上也得到了有效的提升，能跟随光照的变化进行有效的识别，对人脸进行识别的主要困难就是遮挡、单样本等这些问题，而稀疏表示在这些问题的前提下仍然能具备潜在的发展力，我们可以进一步对其加以研究，这也是现在研究的一个重点方向。2）缺点在上面实验中我们发现其分类器表现出了良好的使用效果，但这种算法也存在着一些不足之处，由于数据量不断地增加，稀疏表示分类需要的时间也会随之而增加。此外，这种表示方法虽然在速度上明显优于其他，但是其产生的识别率并不是很高，也就是说不能准确地对表情进行有效识别。4 展望人脸表情识别的系统这种新型的对人脸表情加以识别的系统利于将人们的生活品质提高。当人们一旦从比较寒冷的地方或者是比较炎热的地方回到室内时，可以根据这个表情识别的系统快速地把人们面部表情与最佳温度中人脸表情相对比，进而让空调自动把室内的温度调转至最佳。此外，在医疗行业中，可以将表情识别运用到电子护士护理中来。尤其是对于那些重症病人，在对其进行治疗的过程中可以根据这个具有表情分析能力的机器人护士对病人实行实时的看管护理。除以上几点外，在对儿童实行教育时也可以将其应用其中，可以根据儿童在某种情形下所产生的表情以及行为进行具体分析和观察，有效挖掘他们潜在的气质和能力，引导我们更好地对儿童实行教育，促进儿童的健康成长。5 结语综上所述，对人脸表情加以识别是具有很大挑战的新兴课题，笔者主要对存在于人脸表情识别算法中的问题进行了简要的分析，并在此基础上提出了改进的算法进而提出了对人脸表情加以识别的系统。但从目前来看，我国关于人脸识别的系统研究当中还存在着一些问题，因此，对于我们来说将更加智能化的关于人脸表情识别的系统加以实现还是一个十分艰巨的任务，还需要我们不断的努力。参考文献：[1] 赵晓龙. 安防系统中的基于稀疏表示的人脸识别研究[D].西北大学，2014.[2] 朱可. 基于稀疏表示的人脸表情识别[D].西北大学，2013.[3] 万川. 基于动态序列图像的人脸表情识别系统理论与方法研究[D].吉林大学，2013.[4] 欧阳琰. 面部表情识别方法的研究[D].华中科技大学，2013.[5] 王哲伟. 基于稀疏表示残差融合的人脸表情识别[D].五邑大学，2011.[6] 张慕凡. 基于稀疏表示的人脸识别的应用研究[D].南京邮电大学，2014.[7] 赵晓. 基于稀疏表示的人脸识别方法研究[D].北京工业大学，2013.[8] 何玲丽. 基于核稀疏表示的人脸识别方法研究[D].湖南大学，2014.

yolov5人脸检测论文

基于yolo算法的口罩人脸识别研究的意义如下：口罩人脸识别是利用计算机视觉技术判断图像或者视频序列中的行人是否存在未带口罩的情况，在一些需要佩戴口罩的特定场合，比如食堂、饭店等员工需要佩戴口罩上岗，或由于特殊情况，需要行人佩戴口罩的场景，都可以适用。目前市面上的口罩人脸识别系统，常用的方式先对人脸进行检测，再对人脸进行区域划分，统计分析脸部下方区域的颜色信息，进而判断人脸是否佩戴口罩的方式。但在实际现场应用中，人脸的倾斜角度不同，不同光线的干扰也不同，导致传统方式的精度并不理想。因此，现有技术需要改进。

论文原文：

YOLO（you only look once）是继RCNN、faster-RCNN之后，又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下，解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比：

如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测，那么yolo则是更进一步，将目标区域预测与目标类别判断整合到单个神经网络模型中。各检测算法结构见下图：

每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息，其值是这样计算的：

其中如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

每个bounding box要预测(x, y, w, h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。即SxS个网格，每个网格除了要预测B个bounding box外，还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。（注意：class信息是针对每个网格的，即一个网格只预测一组类别而不管里面有多少个bounding box，而confidence信息是针对每个bounding box的。）

举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示：

在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score:

等式左边第一项就是每个网格预测的类别信息，第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率，也有该box准确度的信息。

得到每个box的class-specific confidence score以后，设置阈值，滤掉得分低的boxes，对保留的boxes进行NMS（非极大值抑制non-maximum suppresssion）处理，就得到最终的检测结果。

1、每个grid因为预测两个bounding box有30维（30=2*5+20），这30维中，8维是回归box的坐标，2维是box的confidence，还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间，w,h除以图像的width和height也归一化到0-1之间。

2、对不同大小的box预测中，相比于大box预测偏一点，小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题，作者用了一个比较取巧的办法，就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解，小box的横轴值较小，发生偏移时，反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。

3、一个网格预测多个box，希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大，就负责哪个。这种做法称作box predictor的specialization。

4、损失函数公式见下图：

在实现中，最主要的就是怎么设计损失函数，坐标（x,y,w,h），confidence，classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足：

解决方法：

只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候，才会对box的coordinate error进行惩罚，而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。

作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段，采用网络中的前20卷积层，外加average-pooling层和全连接层。模型训练了一周，获得了top-5 accuracy为（ImageNet2012 validation set），与GoogleNet模型准确率相当。

然后，将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层，提高了模型输入分辨率（224×224->448×448）。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation，其它层使用 leaky rectified linear。

作者采用sum-squared error为目标函数来优化，增加bounding box loss权重，减少置信度权重，实验中，设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮，batch size为64，动量为，学习速率延迟为。Learning schedule为：第一轮，学习速率从缓慢增加到（因为如果初始为高学习速率，会导致模型发散）；保持速率到75轮；然后在后30轮中，下降到；最后30轮，学习速率为。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为；data augmentation包括：random scaling，translation，adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点：

1、 YOLO检测物体非常快

因为没有复杂的检测流程，只需要将图像输入到神经网络就可以得到检测结果，YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且，YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、 YOLO可以很好的避免背景错误，产生false positives

不像其他物体检测系统使用了滑窗或region proposal，分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息，因此YOLO在检测物体时能很好的利用上下文信息，从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比，YOLO的背景错误不到Fast-R-CNN的一半。

3、 YOLO可以学到物体的泛化特征

当YOLO在自然图像上做训练，在艺术作品上做测试时，YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征，从而迁移到其他领域。

尽管YOLO有这些优点，它也有一些缺点：

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好（尤其是密集的小物体，因为一个栅格只能预测2个物体）。

人脸关键点检测论文总结

最近一直了解人脸检测的算法，所以也尝试学多人脸检测框架。所以这里将拿出来和大家分享一下 Retinaface 与普通的目标检测算法类似，在图片上预先设定好一些先验框，这些先验框会分布在整个图片上，网络内部结构会对这些先验框进行判断看是否包含人脸，同时也会调整位置进行调整并且给每一个先验框的一个置信度。在 Retinaface 的先验框不但要获得人脸位置，还需要获得每一个人脸的五个关键点位置接下来我们对 Retinaface 执行过程其实就是在图片上预先设定好先验框，网络的预测结果会判断先验框内部是否包含人脸并且对先验框进行调整获得预测框和五个人脸关键点。 MobileNet 网络是由 google 团队在 2017 年提出的，专注移动端和嵌入式设备中轻量级 CNN 网络，在大大减少模型参数与运算量下，对于精度只是小幅度下降而已。在主干网络输出的相当输出了不同大小网格，用于检测不同大小目标，先验框默认数量为 2，这些先验框用于检测目标，然后通过调整得到目标边界框。深度可分离卷积好处就是可以减少参数数量，从而降低运算的成本。经常出现在一些轻量级的网络结构(这些网络结构适合于移动设备或者嵌入式设备)，深度可分离卷积是由DW(depthwise)和PW(pointwise)组成这里我们通过对比普通卷积神经网络来解释，深度可分离卷积是如何减少参数我们先看图中 DW 部分，在这一个部分每一个卷积核通道数 1 ，每一个卷积核对应一个输入通道进行计算，那么可想而知输出通道数就与卷积核个数以及输入通道数量保持一致。简单总结一下有以下两点 PW 卷积核核之前普通卷积核类似，只不过 PW 卷积核大小为 1 ，卷积核深度与输入通道数相同，而卷积核个数核输出通道数相同普通卷积深度可分离卷积

之前也是为论文苦恼了半天，网上的范文和能搜到的资料，大都不全面，一般能有个正文就不错了，而且抄袭的东西肯定不行的，关键是没有数据和分析部分，我好不容易搞出来一篇，结果还过不了审。还好后来找到文方网，直接让专业人士帮忙，效率很高，核心的部分帮我搞定了，也给了很多参考文献资料。哎，专业的事还是要找专业的人来做啊，建议有问题参考下文方网吧下面是之前文方网王老师发给我的题目，分享给大家：基于深度学习的无人机地面小目标算法研究基于视觉的智能汽车面向前方车辆的运动轨迹预测技术研究模拟射击训练弹着点检测定位技术研究基于深度卷积神经网络的空中目标识别算法的研究基于可见光图像的飞行器多目标识别及位置估计无人驾驶车辆手势指令识别研究与实现车载毫米波雷达目标检测技术研究基于多传感融合的四足机器人建图方法中老年人群跌倒风险评估的数据采集系统基于深度学习的视觉SLAM闭环检测方法研究真实图片比较视觉搜索任务的年龄效应及对策研究室内复杂场景下的视觉SLAM系统构建与研究基于双目内窥镜的软组织图像三维重建学习资源画面色彩表征影响学习注意的研究毫米波雷达与机器视觉双模探测关键技术的研究语义地图及其关键技术研究多重影响因素下的语音识别系统研究基于卷积神经网络的自主空中加油识别测量技术研究基于视觉语义的深度估计、实例分割与重建重复视觉危险刺激——本能恐惧反应的“二态型”调控机制研究低成本视觉下的三维物体识别与位姿估计面向非规则目标的3D视觉引导抓取方法及系统研究基于物体识别地理配准的跨视频行人检测定位技术研究基于结构光的非刚体目标快速三维重建关键技术研究基于机器视觉的动物交互行为与认知状态分析系统关于单目视觉实时定位与建图中的优化算法研究动态场景下无人机SLAM在智慧城市中的关键技术研究面向视觉SLAM的联合特征匹配和跟踪算法研究基于深度学习的显著物体检测基于平面波的三维超声成像方法与灵长类动物脑成像应用研究基于物体检测和地理匹配的室内融合定位技术研究基于多模态信息融合的人体动作识别方法研究基于视觉惯性里程计的SLAM系统研究基于语义信息的图像/点云配准与三维重建基于种子点选取的点云分割算法研究基于深度学习的场景文字检测与识别方法研究基于运动上下文信息学习的室内视频烟雾预警算法研究基于深度学习的垃圾分类系统设计与实现面向手机部件的目标区域检测算法的设计与实现电路板自动光照检测系统的设计与实现基于机器视觉的工件识别与定位系统的设计与实现基于深度学习的物件识别定位系统的设计与实现基于视觉四旋翼无人机编队系统设计及实现基于视觉惯导融合的四旋翼自主导航系统设计与实现面向城市智能汽车的认知地图车道层生成系统基于深度学习的智能化无人机视觉系统的设计与仿真基于知识库的视觉问答技术研究基于深度学习的火灾视频实时智能检测研究结构化道路车道线检测方法研究基于机器视觉的带式输送机动态煤量计量研究基于深度学习的小目标检测算法研究基于三维激光与视觉信息融合的地点检索算法研究动态环境下仿人机器人视觉定位与运动规划方法研究瓷砖铺贴机器人瓷砖空间定位系统研究城市街景影像中行人车辆检测实现基于无线信号的身份识别技术研究基于移动机器人的目标检测方法研究基于深度学习的机器人三维环境对象感知基于特征表示的扩展目标跟踪技术研究基于深度学习的目标检测方法研究基于深度学习的复杂背景下目标检测与跟踪动态扩展目标的高精度特征定位跟踪技术研究掩模缺陷检测仪的图像处理系统设计复杂场景下相关滤波跟踪算法研究基于多层级联网络的多光谱图像显著性检测研究基于深度结构特征表示学习的视觉跟踪研究基于深度网络的显著目标检测方法研究基于深度学习的电气设备检测方法研究复杂交通场景下的视频目标检测基于多图学习的多模态图像显著性检测算法研究基于面部视频的非接触式心率检测研究单幅图像协同显著性检测方法研究轻量级人脸关键点检测算法研究基于决策树和最佳特征选择的神经网络钓鱼网站检测研究基于深度学习的场景文本检测方法研究 RGB-D图像显著及协同显著区域检测算法研究多模态融合的RGB-D图像显著目标检测研究基于协同排序模型的RGBT显著性检测研究基于最小障碍距离的视觉跟踪研究基于协同图学习的RGB-T图像显著性检测研究基于图学习与标签传播优化模型的图像协同显著性目标检测姿态和遮挡鲁棒的人脸关键点检测算法研究基于多模态和多任务学习的显著目标检测方法研究基于深度学习的交通场景视觉显著性区域目标检测基于生物视觉机制的视频显著目标检测算法研究基于场景结构的视觉显著性计算方法研究精神分裂症患者初级视觉网络的磁共振研究基于fMRI与TMS技术研究腹侧视觉通路中结构优势效应的加工脑机接口游戏神经可塑性研究基于YOLOV3算法的FL-YOLO多目标检测系统基于深度与宽度神经网络显著性检测方法研究基于深度学习的零件识别系统设计与研究基于对抗神经网络的图像超分辨算法研究基于深度学习复杂场景下停车管理视觉算法的研究与实现镍电解状态视觉检测与分析方法研究跨界训练对提升舞者静态平衡能力的理论与方法研究施工现场人员类型识别方法的研究与实现基于深度学习的自然场景文字检测方法研究基于嵌入式的交通标志识别器的设计基于视觉感知特性与图像特征的图像质量评价

首页

> 学术期刊知识库

关于人脸检测的论文参考文献