首页

> 学术期刊知识库

首页 学术期刊知识库 问题

opencv人脸检测本科论文

发布时间:

opencv人脸检测本科论文

opencv的人脸识别系统设计的目的是通过人脸识别系统预防同行或者职业打假人。根据查询相关资料显示:作为生意经营者,需要预防同行的咨询、问价等商业活动,这是一种行业内的竞争关系,而通过这套系统可以非常准确的识别出这些特殊群体,从而使得商家能够先发制人,采取主动的措施权。

openCV具备人脸识别的解决方案,但openCV仿佛是一道坎,我始终不能安排跨过这道坎的计划。很早以前在processing官网中找到了Face Detect(这个链接需要代理才能打开)这个为processing提供人脸识别功能的lib,今天终于静下心来仔细阅读了它的说明文档,下面是其基本使用方法说明: 首先下载,在processing的libraries文件夹中新建一个名为pFaceDetect的文件夹,再将压缩包内的library文件夹拷贝到这个文件夹中。 其次,Face Detect需要openCV的支持,但并不必须安装openCV到计算机中,只要把openCV的 、 、 三个文件拷贝到processing根目录就行了。 pFaceDetect是对PImage对象进行识别,下面的范例中是通过JMyron来获取视频,并将像素信息复制到PImage对象中,因此,运行下面的范例还需要安装JMyron。 重启processing,新建一个项目并保存,把压缩包内的data文件夹拷贝到当前项目的存档目录中。 不要忘记连接好摄像头。

怎样使用OpenCV进行人脸识别 本文大部分来自OpenCV官网上的Face Reconition with OpenCV这节内容(),小弟我尝试翻译一些重要内容。这部分内容是Philipp Wagner写的,他的github:,他的网站,应该是个德国人。下面应该是他的照片。1友情提示,要看懂代码前,你得先知道OpenCV的安装和配置,会用C++,用过一些OpenCV函数。基本的图像处理和矩阵知识也是需要的。[gm:我是箫鸣的注释]由于我仅仅是翻译,对于六级才过的我,肯定有一些翻译错的或者不当的地方,所以请大家纠错。.介绍Introduction从开始,加入了新的类FaceRecognizer,我们可以使用它便捷地进行人脸识别实验。本文既介绍代码使用,又介绍算法原理。(他写的源代码,我们可以在OpenCV的opencv\modules\contrib\doc\facerec\src下找到,当然也可以在他的github中找到,如果你想研究源码,自然可以去看看,不复杂)目前支持的算法有 Eigenfaces特征脸createEigenFaceRecognizer() Fisherfaces createFisherFaceRecognizer() LocalBinary Patterns Histograms局部二值直方图 createLBPHFaceRecognizer()下面所有的例子中的代码在OpenCV安装目录下的samples/cpp下面都能找到,所有的代码商用或者学习都是免费的。.人脸识别Face Recognition对人类来说,人脸识别很容易。文献[Tu06]告诉我们,仅仅是才三天的婴儿已经可以区分周围熟悉的人脸了。那么对于计算机来说,到底有多难?其实,迄今为止,我们对于人类自己为何可以区分不同的人所知甚少。是人脸内部特征(眼睛、鼻子、嘴巴)还是外部特征(头型、发际线)对于人类识别更有效?我们怎么分析一张图像,大脑是如何对它编码的?David Hubel和TorstenWiesel向我们展示,我们的大脑针对不同的场景,如线、边、角或者运动这些局部特征有专门的神经细胞作出反应。显然我们没有把世界看成零散的块块,我们的视觉皮层必须以某种方式把不同的信息来源转化成有用的模式。自动人脸识别就是如何从一幅图像中提取有意义的特征,把它们放入一种有用的表示方式,然后对他们进行一些分类。基于几何特征的人脸的人脸识别可能是最直观的方法来识别人脸。第一个自动人脸识别系统在[Kanade73]中又描述:标记点(眼睛、耳朵、鼻子等的位置)用来构造一个特征向量(点与点之间的距离、角度等)。通过计算测试和训练图像的特征向量的欧氏距离来进行识别。这样的方法对于光照变化很稳健,但也有巨大的缺点:标记点的确定是很复杂的,即使是使用最先进的算法。一些几何特征人脸识别近期工作在文献[Bru92]中有描述。一个22维的特征向量被用在一个大数据库上,单靠几何特征不能提供足够的信息用于人脸识别。特征脸方法在文献[TP91]中有描述,他描述了一个全面的方法来识别人脸:面部图像是一个点,这个点是从高维图像空间找到它在低维空间的表示,这样分类变得很简单。低维子空间低维是使用主元分析(Principal Component Analysis,PCA)找到的,它可以找拥有最大方差的那个轴。虽然这样的转换是从最佳重建角度考虑的,但是他没有把标签问题考虑进去。[gm:读懂这段需要一些机器学习知识]。想象一个情况,如果变化是基于外部来源,比如光照。轴的最大方差不一定包含任何有鉴别性的信息,因此此时的分类是不可能的。因此,一个使用线性鉴别(Linear Discriminant Analysis,LDA)的特定类投影方法被提出来解决人脸识别问题[BHK97]。其中一个基本的想法就是,使类内方差最小的同时,使类外方差最大。近年来,各种局部特征提取方法出现。为了避免输入的图像的高维数据,仅仅使用的局部特征描述图像的方法被提出,提取的特征(很有希望的)对于局部遮挡、光照变化、小样本等情况更强健。有关局部特征提取的方法有盖伯小波(Gabor Waelets)([Wiskott97]),离散傅立叶变换(DiscreteCosinus Transform,DCT)([Messer06]),局部二值模式(LocalBinary Patterns,LBP)([AHP04])。使用什么方法来提取时域空间的局部特征依旧是一个开放性的研究问题,因为空间信息是潜在有用的信息。.人脸库Face Database我们先获取一些数据来进行实验吧。我不想在这里做一个幼稚的例子。我们在研究人脸识别,所以我们需要一个真的人脸图像!你可以自己创建自己的数据集,也可以从这里()下载一个。AT&TFacedatabase又称ORL人脸数据库,40个人,每人10张照片。照片在不同时间、不同光照、不同表情(睁眼闭眼、笑或者不笑)、不同人脸细节(戴眼镜或者不戴眼镜)下采集。所有的图像都在一个黑暗均匀的背景下采集的,正面竖直人脸(有些有有轻微旋转)。YaleFacedatabase A ORL数据库对于初始化测试比较适合,但它是一个简单的数据库,特征脸已经可以达到97%的识别率,所以你使用其他方法很难得到更好的提升。Yale人脸数据库是一个对于初始实验更好的数据库,因为识别问题更复杂。这个数据库包括15个人(14个男人,1个女人),每一个都有11个灰度图像,大小是320*243像素。数据库中有光照变化(中心光照、左侧光照、右侧光照)、表情变化(开心、正常、悲伤、瞌睡、惊讶、眨眼)、眼镜(戴眼镜或者没戴)。 坏消息是它不可以公开下载,可能因为原来的服务器坏了。但我们可以找到一些镜像(比如 theMIT)但我不能保证它的完整性。如果你需要自己剪裁和校准图像,可以阅读我的笔记()。ExtendedYale Facedatabase B 此数据库包含38个人的2414张图片,并且是剪裁好的。这个数据库重点是测试特征提取是否对光照变化强健,因为图像的表情、遮挡等都没变化。我认为这个数据库太大,不适合这篇文章的实验,我建议使用ORL数据库。. 准备数据我们从网上下了数据,下了我们需要在程序中读取它,我决定使用CSV文件读取它。一个CSV文件包含文件名,紧跟一个标签。/path/to/;0 假设/path/to/是图像,就像你在windows下的c:/faces/person0/。最后我们给它一个标签0。这个标签类似代表这个人的名字,所以同一个人的照片的标签都一样。我们对下载的ORL数据库进行标识,可以获取到如下结果:./at/s1/;0./at/s1/;0..../at/s2/;1./at/s2/;1..../at/s40/;39./at/s40/;39想象我已经把图像解压缩在D:/data/at下面,而CSV文件在D:/data/。下面你根据自己的情况修改替换即可。一旦你成功建立CSV文件,就可以像这样运行示例程序: D:/data/ Creating the CSV File你不需要手工来创建一个CSV文件,我已经写了一个Python程序来做这事。[gm:说一个我实现的方法如果你会cmd命令,或者称DOS命令,那么你打开命令控制台。假设我们的图片放在J:下的Faces文件夹下,可以输入如下语句:J:\Faces\ORL>dir /b/s *.bmp > 然后你打开文件可能看到如下内容(后面的0,1..标签是自己加的):参考

人脸检测本科论文

(部分)张冬至,胡国清,夏伯锴,基于模态辨识的原油含水率智能组合测量模型[J],华南理工大学学报,2009, , pp73~78郭强,吕浩杰,胡国清.新型接触式电容压力传感器[J].仪表技术与传感器,2008, .黄玉程; 胡国清; 吴雄英; 刘文艳; 人脸图像边缘检测的方法研究和应用[J], 计算机工程, Vol. 32, Sep. 20, 2006, pp: 220-221, (EI收录)黄玉程,胡国清,吴雄英,刘文艳,人脸识别系统中图像噪声去除方法研究[J],微型计算机信息,Vol. 12, 2005, pp: 187~189, 40.胡国清,刘文艳,工程控制理论[M],北京,机械工业出版社,2004, 3陈广文, 许高攀,胡国清,静电式微开关硅悬臂梁的变形分析[J],传感技术,2001年20卷第12期,pp29~31许高攀,陈广文,胡国清, 微机电系统(MEMS)技术及其动态[J]。压电与声光,. pp: 34~37高攀,陈广文,胡国清,双面接触电容压力传感器的设计及制造工艺流程[J],仪表技术与传感器,2001年, , PP33~35刘文艳,胡国清,陶瓷液压阀的应力计算及分析[J],机械工程学报 2000, PP: 44~47 (EI 收录)胡国清, 机电控制工程基础与应用[M](专著46万字, 独立撰写), 机械工业出版社, 1997年8月.胡国清等,张光函,吴持恭,SIMPLE方法的改进[J],四川联合大学学报, , , 1997,pp: 72~75; (EI 收录)胡国清等,张光函,吴持恭,混合充分法研究[J], 四川联合大学学报, , , 1997, pp: 61~63 (EI 收录)胡国清,张光函,吴持恭,LDA和k¾e紊流模型研究液压集成块流流场[J], 成都科技大学学报1996, , pp: 64~71, (EI 收录)

URL: 论文pdf Google出品。亚毫秒级的移动端人脸检测算法。移动端可达200~1000+FPS速度。主要以下改进: 在深度可分离卷积中,计算量主要为point-wise部分,增加depth-wise部分卷积核大小并不会明显增加成本。因此本文在depth-wise部分采用了5x5的卷积核,已获得更大的感受野,故此可以降低在层数上的需求。 此外,启发于mobilenetV2,本文设计了一个先升后降的double BlazeBlock。BlazeBlock适用于浅层,double BlazeBlock适用于深层。 16x16的anchor是一样的,但本文将8x8,4x4和2x2的2个anchor替换到8x8的6个anchor。此外强制限制人脸的长宽为1:1。 由于最后一层feature map较大(相对于ssd),导致预测结果会较多,在连续帧预测过程中,nms会变导致人脸框变得更加抖动。本文在原始边界框的回归参数估计变为其与重叠概率的加权平均。这基本没有带来预测时间上的消耗,但在提升了10%的性能。 效果好速度快的方法想不想要?

·ADSL接入网技术研究 (字数:24985,页数:36) ·直序扩频技术的仿真与应用 (字数:14521,页数:37) ·音频数字水印的实现 (字数:15331,页数:28) ·DVB系统设计 (字数:14318,页数:28) ·PAM调制解调系统设计 二 (字数:9181,页数:31 ) ·上位PC机与下位单片机之间进行串口通信 (字数:12645,页数:30) ·图像梯形退化校正的研究与实现 (字数:12616,页数:34) ·简易数字电压表设计实现 (字数:7436,页数:24 ) ·基于计算机视觉库OpenCV的文本定位算法改进 (字数:9674,页数:32 ) ·基于编码的OFDM系统的C语言设计与实 (字数:11190,页数:34) ·基于ofdm系统的接受分集技术 (字数:11057,页数:28) ·基于FPGA的交织编码器设计 (字数:13239,页数:39) ·红外异步数字通信的数据采集装置设计与实现 (字数:19577,页数:68) ·Visual C++环境下的基于肤色图像的人脸检测算法 (字数:11186,页数:28) ·PAM调制解调系统设计 (字数:13922,页数:43) ·P2P网络通信设计 (字数:8075,页数:39 ) ·NAND Flash设备 (字数:10928,页数:49) ·MPEG4播放技术 (字数:13207,页数:38) ·Butterworth滤波器设计 (字数:8348,页数:28 ) ·基于单片机的智能教师点名器 (字数:10627,页数:29) ·基于CPLD的CDMA扩频调制解调器建模设计与实现 (字数:14327,页数:63) ·带CC1100无线收发模块基本控制系统 (字数:15224,页数:50) ·基于CPLD的CMI码传输系统设计 (字数:11429,页数:41) ·一个简单光纤传输系统的设计 (字数:12785,页数:37) ·基于MCS51微控制器的FSK调制解调器设计——电路设计 (字数:13439,页数:39) ·中小型网络的设计与配置 (字数:16254,页数:42) ·基于AT89S52的FSK调制解调器设计 (字数:14064,页数:45) ·远端光纤收发器断电断纤的识别 (字数:15759,页数:89) ·脉冲成形BPSK调制电路的设计与实现 (字数:11472,页数:36) ·基于XR2206的函数信号发生器设计与实现 (字数:9179,页数:31 ) ·基于MCS51微控制器的FSK调制解调器的设计——程序设计 (字数:12191,页数:46) ·基于CPLD的QPSK调制器实现——电路设计 (字数:11621,页数:33) ·QPSK调制器的CPLD实现——程序设计 (字数:5973,页数:30 ) ·基于卷积码的BPSK基带系统C语言实现 (字数:9361,页数:30 ) ·白噪声发生器的设计 (字数:11398,页数:34) ·基于单片机的机床控制系统 (字数:12085,页数:35) ·低压电力线载波通信模块设计 (字数:15460,页数:68) ·基于SH框架的电子技术交流平台 (字数:10333,页数:38) ·带隙基准电压源的设计 (字数:10396,页数:31) ·电子计时器系统设计与实现 (字数:9780,页数:31 ) ·无线局域网的组建与测试 (字数:17392,页数:48) ·抑制载波双边带调幅电路的设计 (字数:9787,页数:24 ) ·宽带放大器的设计与实现 (字数:12200,页数:36) ·基于单片机的遥控芯片解码的设计与实现 (字数:9802,页数:39 ) ·多种正交幅度调制QAM误码率仿真及星座图的优化 (字数:10967,页数:43)

人脸检测的本科毕业论文

[过程控制] 基于单片机实现单回路智能调节.. [电子通讯] 脉冲数字频率计 [机床仪表] 仪表机床数控系统的设计(论文.. 磁流体发电论文 [电子通讯] 基于VC++的PC机与单片机串行.. [电子通信] 通信毕业翻译(移动通信技术的.. [电子] 利用单片机制作数字式时钟 [电子] 虚拟仪器温室大棚温度测控系统 [电子通讯] 基于MATLAB遗传算法工具箱的控.. [电子通讯] 红外遥控防盗密码锁 [电子工程] 电子电路噪声的研究 [电子] 51系列单片机教学实验板硬件设计 [毕业论文英文资料] 步进电机基本控制电.. [毕业论文英文资料] CAN总线在远程电力抄表系统中的应用 [电子] 管道液化气智能检测与控制系统 [电力] 发电厂继电保护整定和定值管理系统.. [电子工程] R、L、C测量仪 [电子] 家庭取暖燃气锅炉温度控制系统设计 [电子] 塑料大棚保温程序设计 [电力工程设计] 110kV变电站电气一次部分设.. [电子通讯] VHDL 课 程 设 计 [电子通讯] 多参数测井仪单片机编码系统 [电子信息工程] 图像处理,毕业论文答辩文.. [电子信息工程] 图像处理,人脸检测,毕业.. [电子工程] 空调机温度制系统 [电子通讯] 基于PWM的按摩机传动控制电路设.. [光学工程] 铌酸锂晶体光折变性能的提高及.. [电子信息] 移动目标的识别技术 [电子通讯] 数字化星用扩频应答机的设计和.. [图像技术] 基于内容的图象检索的方法研究.. [自动化] 工厂变配电室监测系统 [毕业设计] [毕业设计]异步电机串级调速系.. [毕业设计] [毕业设计]异步电机串级调速系.. [电子通讯] 电子音乐的设计 [管理系统] 知识管理系统 [电子通讯] 多功能视力保护器 电子通讯] [电子通讯] 基于EISA总线的高速数据采集卡.. [课程设计] 数字电路课程设计 [电子通信] 电子软件的研究 [电子通信] 抢答器设计 [电子通讯] 单片机控制音乐播放 [电子通讯] 工业顺序控制子]基于DSP的自适应均衡器的设计及实现 [电工电子课程设计]模拟电路课程设计 , [电子通讯] 带实时日历时钟的温度检测系统 , [电子通讯] 基于PID算法的电机转速控制系统.. [电力电子] 110KV地区变电站保护设计 [电子通讯] 城市流动人口IC卡管理系统, [电子通讯] 防盗报警器的设计 [电子通讯,] 多媒体教室的组建 [电子电路设计] 多功能函数发生器 , [电力电子] 110终端变电站电气部分设计 , [自动化] 退火炉计算机温度控制系统课程设.. [电子信息与工程] 电台节目管理与自动播放.., [电子通讯] 基于PLC的加工中心控制系统的设.., [电子信息工程] PCA与LDA的融合算法在性别.. , [电子通信] 电梯控制系统设计, [自动化] 智能楼宇自动化系统 >, [自动化] 基于嵌入式技术对纺织控制系统改.. [输煤系统] 2X200MW火电机组输煤系统毕业设.. [材料结构] 阻水型电力电缆材料及结构设计 [电子信息与工程专业] 八路音、视频切换开.. [电子信息与工程专业] 电视台播控系统的硬盘化改造 , [电子信息与工程专业] 矿井低压电网过流保护中的相序检测, [电子信息与工程专业] 矿井低压电网过流保护中的相序检测 , [电子通信] 直放站技术, FDTD法在单极天线特性分析中的应用, [电力电子] 35KV变电站的电气部分设计书 , [电力电子] 110KV变电站的电气部分设计 , [电力电子] 110KV变电站的电气部分设计,

32. 直序扩频技术的仿真与应用(字数:14521,页数:37 )33. 带CC1100无线收发模块基本控制系统(字数:15224,页数:50 )34. 基于CPLD的CDMA扩频调制解调器建模设计与实现(字数:14327,页数:63 )35. 基于单片机的智能教师点名器(字数:10627,页数:29 )36. Butterworth滤波器设计(字数:8348,页数:28 )37. MPEG-4播放技术(字数:13207,页数:38 )38. NAND Flash设备(字数:10928,页数:49 )39. P2P网络通信设计(字数:8075,页数:39 )40. PAM调制解调系统设计(字数:13922,页数:43 )41. Visual C++环境下的基于肤色图像的人脸检测算法(字数:11186,页数:28 )42. 红外异步数字通信的数据采集装置设计与实现(字数:19577,页数:68 )43. 基于FPGA的交织编码器设计(字数:13239,页数:39 )44. 基于ofdm系统的接受分集技术(字数:11057,页数:28 )45. 基于编码的OFDM系统的C语言设计与实(字数:11190,页数:34 )46. 基于计算机视觉库OpenCV的文本定位算法改进(字数:9674,页数:32 )47. 简易数字电压表设计实现(字数:7436,页数:24 )48. 图像梯形退化校正的研究与实现(字数:12616,页数:34 )49. 上位PC机与下位单片机之间进行串口通信(字数:12645,页数:30 )50. 基于Zigbee技术和Atmega128单片机的无线传感器硬件开发(字数:17571,页数:51 )

可以。 毕业论文是可以用别人训练出来的,但是自己也要有创新,不能全部使用,不然是不会过的。毕业论文(graduation study)是专科及以上学历教育为对本专业学生集中进行科学研究训练而要求学生在毕业前撰写的论文。毕业论文一般安排在修业的最后一学年(学期)进行,论文题目由教师指定或由学生提出,学生选定课题后进行研究,撰写并提交论文,目的在于培养学生的科学研究能力,加强综合运用所学知识、理论和技能解决实际问题的训练,从总体上考查学生大学阶段学习所达到的学业水平。

yolov5人脸检测论文

基于yolo算法的口罩人脸识别研究的意义如下:口罩人脸识别是利用计算机视觉技术判断图像或者视频序列中的行人是否存在未带口罩的情况,在一些需要佩戴口罩的特定场合,比如食堂、饭店等员工需要佩戴口罩上岗,或由于特殊情况,需要行人佩戴口罩的场景,都可以适用。目前市面上的口罩人脸识别系统,常用的方式先对人脸进行检测,再对人脸进行区域划分,统计分析脸部下方区域的颜色信息,进而判断人脸是否佩戴口罩的方式。但在实际现场应用中,人脸的倾斜角度不同,不同光线的干扰也不同,导致传统方式的精度并不理想。因此,现有技术需要改进。

论文原文:

YOLO(you only look once)是继RCNN、faster-RCNN之后,又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下,解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比:

如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测,那么yolo则是更进一步,将 目标区域预测 与 目标类别判断 整合到单个神经网络模型中。各检测算法结构见下图:

每个网格要预测B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息,其值是这样计算的:

其中如果有object落在一个grid cell里,第一项取1,否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

每个bounding box要预测(x, y, w, h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。即SxS个网格,每个网格除了要预测B个bounding box外,还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。(注意:class信息是针对每个网格的,即一个网格只预测一组类别而不管里面有多少个bounding box,而confidence信息是针对每个bounding box的。)

举例说明: 在PASCAL VOC中,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示:

在test的时候,每个网格预测的class信息和bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score:

等式左边第一项就是每个网格预测的类别信息,第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率,也有该box准确度的信息。

得到每个box的class-specific confidence score以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS(非极大值抑制non-maximum suppresssion)处理,就得到最终的检测结果。

1、每个grid因为预测两个bounding box有30维(30=2*5+20),这30维中,8维是回归box的坐标,2维是box的confidence,还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间,w,h除以图像的width和height也归一化到0-1之间。

2、对不同大小的box预测中,相比于大box预测偏一点,小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题,作者用了一个比较取巧的办法,就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解,小box的横轴值较小,发生偏移时,反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。

3、一个网格预测多个box,希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大,就负责哪个。这种做法称作box predictor的specialization。

4、损失函数公式见下图:

在实现中,最主要的就是怎么设计损失函数,坐标(x,y,w,h),confidence,classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足:

解决方法:

只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。

作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段,采用网络中的前20卷积层,外加average-pooling层和全连接层。模型训练了一周,获得了top-5 accuracy为(ImageNet2012 validation set),与GoogleNet模型准确率相当。

然后,将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层,提高了模型输入分辨率(224×224->448×448)。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation,其它层使用 leaky rectified linear。

作者采用sum-squared error为目标函数来优化,增加bounding box loss权重,减少置信度权重,实验中,设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮,batch size为64,动量为,学习速率延迟为。Learning schedule为:第一轮,学习速率从缓慢增加到(因为如果初始为高学习速率,会导致模型发散);保持速率到75轮;然后在后30轮中,下降到;最后30轮,学习速率为。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为;data augmentation包括:random scaling,translation,adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点:

1、 YOLO检测物体非常快

因为没有复杂的检测流程,只需要将图像输入到神经网络就可以得到检测结果,YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且,YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、 YOLO可以很好的避免背景错误,产生false positives

不像其他物体检测系统使用了滑窗或region proposal,分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息,因此YOLO在检测物体时能很好的利用上下文信息,从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比,YOLO的背景错误不到Fast-R-CNN的一半。

3、 YOLO可以学到物体的泛化特征

当YOLO在自然图像上做训练,在艺术作品上做测试时,YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征,从而迁移到其他领域。

尽管YOLO有这些优点,它也有一些缺点:

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好(尤其是密集的小物体,因为一个栅格只能预测2个物体)。

人脸检测相关论文

人脸识别是一个被广泛研究着的热门问题,大量的研究论文层出不穷,晓电晓受晓受晓晓晓多晓电晓米晓受晓联晓受晓零晓电晓受晓米晓多晓晓e少量惠量量e米惠d量晓晓受晓晓晓晓米晓晓多晓少米受在一定程度上有泛滥成“灾”之嫌。为了更好地对人脸识别研究的历史和现状进行介绍,本文将AFR的研究历史按照研究内容、技术芳珐等方面的特点大体划分为三个时间阶段,如表受所示。该表格概括了人脸识别研究的发展简史及其每个历史阶段代表性的研究工作及其技术特点。下面对三个阶段的研究进展情况作简单介绍: 第一阶段(受惠米联年~受惠惠零年) 这一阶段人脸识别通常只是作为一个一般性的模式识别问题来研究,所采用的主要技术方案是基于人脸几何结构特征(Geometricfeature based)的芳珐。这集中体现在人们对于剪影(Profile)的研究上,人们对面部剪影曲线的结构特征提取与分析方面进行了大量研究。人工神经网络也一度曾经被研究人员用于人脸识别问题中。较早从事AFR研究的研究人员除了布莱索(Bledsoe)外还有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。金出武雄于受惠少晓年在京都大学完成了第一篇AFR方面的博士论文,直到现在,作为卡内基-梅隆大学(CMU)机器人研究院的一名教授,仍然是人脸识别领域的活跃人物之一。他所在的研究组也是人脸识别领域的一支重要力量。总体而言,这一阶段是人脸识别研究的初级阶段,非常重要的成果不是很多,也基本没有获得实际应用。 第二阶段(受惠惠受年~受惠惠少年) 这一阶段尽管时间相对短暂,但却是人脸识别研究的高潮期,可谓硕果累累:不但诞生了若干代表性的人脸识别算法,美国军方还组织了著名的FERET人脸识别算法测试,并出现了若干伤业化运作的人脸识别系统,比如最为著名的Visionics(现为Identix)的FaceIt系统。 美国麻省理工学院(MIT)媒体实验室的特克(Turk)和潘特兰德(Pentland)提出的“特征脸”芳珐无疑是这一时期内最负盛名的人脸识别芳珐。其后的很多人脸识别技术都或多或少与特征脸有关系,现在特征脸已经与归一化的协相关量(NormalizedCorrelation)芳珐一道成为人脸识别的性能测试基准算法。 这一时期的另一个重要工作是麻省理工学院人工智能实验室的布鲁内里(Brunelli)和波基奥(Poggio)于受惠惠电年左右做的一个对比实验,他们对比了基于结构特征的芳珐与基于模板匹配的芳珐的识别性能,并给出了一个比较确定的结论:模板匹配的芳珐优于基于特征的芳珐。这一导向性的结论与特征脸共同作用,基本中止了纯粹的基于结构特征的人脸识别芳珐研究,并在很大程度上促进了基于表观(Appearance-based)的线性子空间建模和基于统计模式识别技术的人脸识别芳珐的发展,使其逐渐成为主流的人脸识别技术。 贝尔胡米尔(Belhumeur)等提出的Fisherface人脸识别芳珐是这一时期的另一重要成果。该芳珐首先采用主成分分析(PrincipalComponent Analysis,PCA,亦即特征脸)对图像表观特征进行降维。在此基础上,采用线性判别分析(LinearDiscriminant Analysis, LDA)的芳珐变换降维后的主成分以期获得“尽量大的类间散度和尽量小的类内散度”。该芳珐目前仍然是主流的人脸识别芳珐之一,产生了很多不同的变种,比如零空间法、子空间判别模型、增强判别模型、直接的LDA判别芳珐以及近期的一些基于核学习的改进策略。 麻省理工学院的马哈丹(Moghaddam)则在特征脸的基础上,提出了基于双子空间进行贝叶斯概率估计的人脸识别芳珐。该芳珐通过“作差法”,将两幅人脸图像对的相似度计算问题转换为一个两类(类内差和类间差)分类问题,类内差和类间差数据都要首先通过主成分分析(PCA)技术进行降维,计算两个类别的类条件概率密度,最后通过贝叶斯决策(最大似然或者最大后验概率)的芳珐来进行人脸识别。 人脸识别中的另一种重要芳珐——弹性图匹配技术(Elastic GraphMatching,EGM) 也是在这一阶段提出的。其基本思想是用一个属性图来描述人脸:属性图的顶点代表面部关键特征点,其属性为相应特征点处的多分辨率、多方向局部特征——Gabor变换【受电】特征,称为Jet;边的属性则为不同特征点之间的几何关系。对任意输入人脸图像,弹性图匹配通过一种优化馊索策略来定位预先定义的若干面部关键特征点,同时提取它们的Jet特征,得到输入图像的属性图。最后通过计算其与已知人脸属性图的相似度来完成识别过程。该芳珐的优点是既保留了面部的全局结构特征,也对人脸的关键局部特征进行了建模。近来还出现了一些对该芳珐的扩展。 局部特征分析技术是由洛克菲勒大学(RockefellerUniversity)的艾提克(Atick)等人提出的。LFA在本质上是一种基于统计的低维对象描述芳珐,与只能提取全局特征而且不能保留局部拓扑结构的PCA相比,LFA在全局PCA描述的基础上提取的特征是局部的,并能够同时保留全局拓扑信息,从而具有更佳的描述和判别能力。LFA技术已伤业化为著名的FaceIt系统,因此后期没有发表新的学术进展。 由美国国防部反技术发展计划办公室资助的FERET项目无疑是该阶段内的一个至关重要的事件。FERET项目的目标是要开发能够为安全、情报和执法部门使用的AFR技术。该项目包括三部分内容:资助若干项人脸识别研究、创建FERET人脸图像数据库、组织FERET人脸识别性能评测。该项目分别于受惠惠联年,受惠惠多年和受惠惠米年组织了晓次人脸识别评测,几种最知名的人脸识别算法都参家了测试,极大地促进了这些算法的改进和实用化。该测试的另一个重要贡献是给出了人脸识别的进一步发展方向:光照、姿态等非理想采集条件下的人脸识别问题逐渐成为热点的研究方向。 柔性模型(Flexible Models)——包括主动形状模型(ASM)和主动表观模型(AAM)是这一时期内在人脸建模方面的一个重要贡献。ASM/AAM将人脸描述为电D形状和纹理两个分离的部分,分别用统计的芳珐进行建模(PCA),然后再进一步通过PCA将二者融合起来对人脸进行统计建模。柔性模型具有良好的人脸合成能力,可以采用基于合成的图像分析技术来对人脸图像进行特征提取与建模。柔性模型目前已被广泛用于人脸特征对准(FaceAlignment)和识别中,并出现了很多的改进模型。 总体而言,这一阶段的人脸识别技术发展非常迅速,所提出的算法在较理想图像采集条件、对象配合、中小规模正面人脸数据库上达到了非常好的性能,也因此出现了若干知名的人脸识别伤业公司。从技术方案上看, 电D人脸图像线性子空间判别分析、统计表观模型、统计模式识别芳珐是这一阶段内的主流技术。 第三阶段(受惠惠量年~现在) FERET’惠米人脸识别算法评估表明:主流的人脸识别技术对光照、姿态等由于非理想采集条件或者对象不配合造成的变化鲁棒性比较差。因此,光照、姿态问题逐渐成为研究热点。与此同时,人脸识别的伤业系统进一步发展。为此,美国军方在FERET测试的基础上分别于电零零零年和电零零电年组织了两次伤业系统评测。 基奥盖蒂斯(Georghiades)等人提出的基于光照锥 (Illumination Cones) 模型的多姿态、多光照条件人脸识别芳珐是这一时期的重要成果之一,他们证明了一个重要结论:同一人脸在同一视角、不同光照条件下的所有图像在图像空间中形成一个凸锥——即光照锥。为了能够从少量未知光照条件的人脸图像中计算光照锥,他们还对传统的光度立体视觉芳珐进行了扩展,能够在朗博模型、凸表面和远点光源假设条件下,根据未知光照条件的少幅同一视点图像恢复物体的晓D形状和表面点的表面反射系数(传统光度立体视觉能够根据给定的晓幅已知光照条件的图像恢复物体表面的法向量方向),从而可以容易地合成该视角下任意光照条件的图像,完成光照锥的计算。识别则通过计算输入图像到每个光照锥的距离来完成。 以支持向量机为代表的统计学习理论也在这一时期内被应用到了人脸识别与确认中来。支持向量机是一个两类分类器,而人脸识别则是一个多类问题。通常有三种策略解决这个问题,即:类内差/类间差法、一对多法(one-to-rest)和一对一法(one-to-one)。 布兰兹(Blanz)和维特(Vetter)等提出的基于晓D变形(晓D Morphable Model)模型的多姿态、多光照条件人脸图像分析与识别芳珐是这一阶段内一项开创性的工作。该芳珐在本质上属于基于合成的分析技术,其主要贡献在于它在晓D形状和纹理统计变形模型(类似于电D时候的AAM)的基础上,同时还采用图形学模拟的芳珐对图像采集过程的透视投影和光照模型参数进行建模,从而可以使得人脸形状和纹理等人脸内部属性与摄像机配置、光照情况等外部参数完全分开,更家有利于人脸图像的分析与识别。Blanz的实验表明,该芳珐在CMU-PIE(多姿态、光照和表情)人脸库和FERET多姿态人脸库上都达到了相当高的识别率,证明了该芳珐的有效性。 电零零受年的国际计算机视觉大会(ICCV)上,康柏研究院的研究员维奥拉(Viola)和琼斯(Jones)展示了他们的一个基于简单矩形特征和AdaBoost的实时人脸检测系统,在CIF格式上检测准正面人脸的速度达到了每秒受多帧以上。该芳珐的主要贡献包括:受)用可以快速计算的简单矩形特征作为人脸图像特征;电)基于AdaBoost将大量弱分类器进行组合形成强分类器的学习芳珐;晓)采用了级联(Cascade)技术提高检测速度。目前,基于这种人脸/非人脸学习的策略已经能够实现准实时的多姿态人脸检测与跟踪。这为后端的人脸识别提供了良好的基础。 沙苏哈(Shashua)等于电零零受年提出了一种基于伤图像【受晓】的人脸图像识别与绘制技术。该技术是一种基于特定对象类图像集合学习的绘制技术,能够根据训练集合中的少量不同光照的图像,合成任意输入人脸图像在各种光照条件下的合成图像。基于此,沙苏哈等还给出了对各种光照条件不变的人脸签名(Signature)图像的定义,可以用于光照不变的人脸识别,实验表明了其有效性。 巴斯里(Basri)和雅各布(Jacobs)则利用球面谐波(Spherical Harmonics)表示光照、用卷积过程描述朗博反射的芳珐解析地证明了一个重要的结论:由任意远点光源获得的所有朗博反射函数的集合形成一个线性子空间。这意味着一个凸的朗博表面物体在各种光照条件下的图像集合可以用一个低维的线性子空间来近似。这不仅与先前的光照统计建模芳珐的经验实验结果相吻合,更进一步从理论上促进了线性子空间对象识别芳珐的发展。而且,这使得用凸优化芳珐来强制光照函数非负成为可能,为光照问题的解决提供了重要思路。 FERET项目之后,涌现了若干人脸识别伤业系统。美国国防部有关部门进一步组织了针对人脸识别伤业系统的评测FRVT,至今已经举办了两次:FRVT电零零零和FRVT电零零电。这两次测试一方面对知名的人脸识别系统进行了性能比较,例如FRVT电零零电测试就表明Cognitec, Identix和Eyematic三个伤业铲品遥遥领先于其他系统,而它们之间的差别不大。另一方面则全面总结了人脸识别技术发展的现状:较理想条件下(正面签证照),针对晓少联晓少人受电受,多量惠 幅图像的人脸识别(Identification)最高首选识别率为少晓%,人脸验证(Verification)的等错误率(EER【受联】)大约为米%。FRVT测试的另一个重要贡献是还进一步指出了目前的人脸识别算法亟待解决的若干问题。例如,FRVT电零零电测试就表明:目前的人脸识别伤业系统的性能仍然对于室内外光照变化、姿态、时间跨度等变化条件非常敏感,大规模人脸库上的有效识别问题也很严重,这些问题都仍然需要进一步的努力。 总体而言,目前非理想成像条件下(尤其是光照和姿态)、对象不配合、大规模人脸数据库上的人脸识别问题逐渐成为研究的热点问题。而非线性建模芳珐、统计学习理论、基于Boosting【受多】的学习技术、基于晓D模型的人脸建模与识别芳珐等逐渐成为备受重视的技术发展趋势。 总而言之, 人脸识别是一项既有科学研究价值,又有广泛应用前景的研究课题。国际上大量研究人员几十年的研究取得了丰硕的研究成果,自动人脸识别技术已经在某些限定条件下得到了成功应用。这些成果更家深了我们对于自动人脸识别这个问题的理解,尤其是对其挑战性的认识。尽管在海量人脸数据比对速度甚至精度方面,现有的自动人脸识别系统可能已经超过了人类,但对于复杂变化条件下的一般人脸识别问题,自动人脸识别系统的鲁棒性和准确度还远不及人类。这种差距产生的本质原因现在还不得而知,毕竟我们对于人类自身的视觉系统的认识还十分肤浅。但从模式识别和计算机视觉等学科的角度判断,这既可能意味着我们尚未找到对面部信息进行合理采样的有效传感器(考虑单目摄像机与人类双眼系统的差别),更可能意味着我们采用了不合适的人脸建模芳珐(人脸的内部表示问题),还有可能意味着我们并没有认识到自动人脸识别技术所能够达到的极限精度。但无论如何,赋予计算设备与人类似的人脸识别能力是众多该领域研究人员的梦想。相信随着研究的继续深入,我们的认识应该能够更家准确地逼近这些问题的正确答案。

相关百科

热门百科

首页
发表服务