人脸关键点检测论文阅读笔记

最近一直了解人脸检测的算法，所以也尝试学多人脸检测框架。所以这里将拿出来和大家分享一下 Retinaface 与普通的目标检测算法类似，在图片上预先设定好一些先验框，这些先验框会分布在整个图片上，网络内部结构会对这些先验框进行判断看是否包含人脸，同时也会调整位置进行调整并且给每一个先验框的一个置信度。在 Retinaface 的先验框不但要获得人脸位置，还需要获得每一个人脸的五个关键点位置接下来我们对 Retinaface 执行过程其实就是在图片上预先设定好先验框，网络的预测结果会判断先验框内部是否包含人脸并且对先验框进行调整获得预测框和五个人脸关键点。 MobileNet 网络是由 google 团队在 2017 年提出的，专注移动端和嵌入式设备中轻量级 CNN 网络，在大大减少模型参数与运算量下，对于精度只是小幅度下降而已。在主干网络输出的相当输出了不同大小网格，用于检测不同大小目标，先验框默认数量为 2，这些先验框用于检测目标，然后通过调整得到目标边界框。深度可分离卷积好处就是可以减少参数数量，从而降低运算的成本。经常出现在一些轻量级的网络结构(这些网络结构适合于移动设备或者嵌入式设备)，深度可分离卷积是由DW(depthwise)和PW(pointwise)组成这里我们通过对比普通卷积神经网络来解释，深度可分离卷积是如何减少参数我们先看图中 DW 部分，在这一个部分每一个卷积核通道数 1 ，每一个卷积核对应一个输入通道进行计算，那么可想而知输出通道数就与卷积核个数以及输入通道数量保持一致。简单总结一下有以下两点 PW 卷积核核之前普通卷积核类似，只不过 PW 卷积核大小为 1 ，卷积核深度与输入通道数相同，而卷积核个数核输出通道数相同普通卷积深度可分离卷积

姓名：张钰学号：21011210154 学院：通信工程学院【嵌牛导读】Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection论文阅读笔记【嵌牛鼻子】Deepfake人脸检测方法，基于单中心损失监督的频率感知鉴别特征学习框架FDFL，将度量学习和自适应频率特征学习应用于人脸伪造检测，实现SOTA性能【嵌牛提问】本文对于伪造人脸检测的优势在哪里体现【嵌牛正文】转自：

dcnn人脸关键点检测论文翻译

整理了各类场景应用中AI算法

一、图像CV

内容安全，目标检测，图像识别，智能视觉生产，图像搜索，图像分割，物体检测，图像分类，图像标签，名人识别，概念识别，场景识别，物体识别，场景分析，智能相册，内容推荐，图库管理，网红人物识别，明星人物识别，图像搜索，商品图片搜索，版权图片搜索，通用图片搜索，车牌识别，垃圾分类，车辆检测，菜品识别，车型识别，犬类识别，实例分割，风格迁移，智能填充，智能识图，拍照搜商品，精准广告投放，电商导购，图像分析，图像理解，图像处理，图像质量评估，场景识别，物体识别，场所识别，图像自训练平台，图像分类，目标检测，图像分割，关键点检测，图像生成，场景文字识别，度量学习，图像识别，图像比对，图像分类使用手册，图像分类API文档目标检测使用手册，目标检测API文档Logo检测使用手册，Logo检测API文档，通用图片搜索，车牌识别，垃圾分类，车辆检测，车型识别，犬类识别，实例分割，风格迁移，智能填充，车牌识别，相册聚类，场景与物体识别，无限天空，图像识别引擎，黄色图片识别，暴力图像识别，工业轮胎智能检测，肋骨骨折识别，显微识别，图像处理，广告识别，人脸算法，人体算法，图像识别，图像增强，OCR，图像处理，ZoomAI，智能贴图，智能制作，质量评价，图像识别，智能鉴黄，图像识别，实时手写识别，唇语识别，通用文字识别，手写文字识别，图像技术，图像识别，图像审核，图像搜索，图像增强，图像特效，车辆分析，图像生成，绘画机器人独家，动漫化身独家，像素风独家，超清人像独家，图像融合，换脸技术，神奇变脸，图像风格化，证件照生成，线稿图像识别，宝宝检测，图像分类，圉像深度估计，天空分割，食物分割，猫狗脸技术，食物识别独家，图像美学评分，车辆分析，车型识别，车型识别（含指导价），车型识别（含配置参数），车标识别，人脸识别（活体），车牌识别，表情识别，安全帽识别，计算机影像，计算机视觉，聚焦光学字符识别、人脸识别、质检、感知、理解、交互，图像视频分析，Logo检测，内容审核，智能批改，笔记评估，思维导图评估，物体检测，物体识别。

二、人脸、体态、眼瞳、声音、指纹

人脸分割人脸识别，无，人体分析HAS，识别人的年龄，性别，穿着信息，客流统计分析，智能客服，热点区域分析，人体检测，人脸口罩识别，人脸对比，人脸搜索，人脸检测与属性分析，人脸活体检测，人体关键点检测，行人重识别，细粒度人像分割，人像分割，人脸解析，3D人体姿态估计，人脸融合，人脸识别，换脸甄别，人脸支付，人脸核身，人像变换，人脸试妆，人脸融合，人体分析，手势识别，人脸验证与检索，人脸比对，人脸比对sensetime，人脸水印照比对，静默活体检测，静默活体检测sensetime，人脸检测和属性分析，人脸特征分析tuputech，配合式活体检测，人脸安防，计算机视觉，智能应用服务，人脸查询人脸分析人脸统计名单库管理人脸布控，人脸应用，人体应用，人体查询，车辆查询车辆分析车辆统计车辆布控车辆名单库管理，车辆应用，人脸图像识别人体图像识别车辆图像识别，图像识别，图像比对，人脸比对，人体检测，人脸口罩识别，人脸对比，人脸搜索，人脸检测与属性分析，人脸活体检测，人体关键点检测，行人重识别，细粒度人像分割，人像分割，人脸解析，3D人体姿态估计，人脸融合，人脸识别，人脸检测，人脸比对，人脸搜索，人脸关键点，稠密关键点，人脸属性，情绪识别，颜值评分，视线估计，皮肤分析，3D人脸重建，面部特征分析人体识别，人体检测，人体关键点，人体抠像，人体属性，手势识别人像处理，美颜美型，人脸融合，滤镜，声纹识别支付，语音合成，语音合成，声纹识别，语音唤醒，人脸识别引擎，摄像头人脸识别，图片人脸检测，身份识别，人脸识别，人脸属性，人体识别，声纹识别，衣服检索及聚类，语音分析，声纹识别，说话人归档，人脸和人体识别，人脸检测，手势识别，人脸与人体识别，人脸识别云服务，人脸识别私有化，人脸离线识别SDK，人脸实名认证，人像特效，人体分析，人脸技不，皮肤分析独家，头部分割，宏观人脸分析，人脸关键点检测，微观人脸分析独家，头发分析独家，五官分割，头发分割人体技术，人体外轮廓点检测独家，精细化人像抠图，人体框检测，肢体关键点检测，人像分割，服饰识别，手势识别，皮肤分割，人脸，说话人识别，人脸检测识别，人脸1：1比对，人脸检测，AI人脸/人形车辆，大数据人像图片防伪，QoS保障，CDN，表情识别，举手动作识别，人脸检测，网络切片，边缘计算，人脸分析，人脸检测，人脸搜索，人体分析，手势识别，着装检测，人脸识别，行为检测，人脸识别，人形检测，行为分析，人脸检测，人脸跟踪，人脸比对，人脸查找，人脸属性分析，活体检测，声音指纹，声纹识别。

三、视频

视频分割、视频处理、视频理解、智能视觉、多媒体，视频内容分析，人体动作监控，视频分类，智能交通，人/动物轨迹分析，目标计数，目标跟踪，视频编辑-，精彩片段提取，新闻视频拆分，视频摘要，视频封面，视频拆条，视频标签-，视频推荐，视频搜索，视频指纹-，数字版权管理，广告识别，视频快速审核，视频版权，视频查重，视频换脸，车辆解析，体育视频摘要，视频内容分析，颜色识别，货架商品检测，时尚搭配，危险动作识别，无，无，视频，视频换脸，车辆解析，体育视频摘要，视频内容分析，颜色识别，货架商品检测，时尚搭配，危险动作识别，菜品识别，视频识别引擎，结肠息肉检测，胃镜评估系统，视频标签，场景识别，客流分析，手势识别，视频技术，短视频标签，视觉看点识别，动态封面图自动生成，智能剪辑，新闻拆条，智能插帧，视频技术，多模态媒资检索公测中，媒体内容分析，媒体内容审核，视频生成，视频动作识别，

四、ocr文字识别

手写识别，票据识别，通用文档，通用卡证，保险智能理赔，财税报销电子化，证照电子化审批，票据类文字识别，行业类文字识别，证件类文字识别，通用类文字识别，通用文字识别，驾驶证识别，身份证识别，增值税发票识别，行驶证识别，营业执照识别，银行卡识别，增值税发票核验，营业执照核验，智能扫码，行业文档识别，汽车相关识别，票据单据识别，卡证文字识别，通用文字识别，手写文字识别，印刷文字识别，银行卡识别，名片识别，身份证识别intsig，营业执照识别intsig，增值税发票识别intsig，拍照速算识别，公式识别，指尖文字识别，驾驶证识别JD，行驶证识别JD，车牌识别JD，身份证识别，增值税发票识别，营业执照识别，火车票识别，出租车发票识别，印刷文字识别（多语种），印刷文字识别（多语种）intsig内容审核，色情内容过滤，政治人物检查，暴恐敏感信息过滤，广告过滤，OCR自定义模板使用手册，OCR自定义模板API文档，通用文字识别，驾驶证识别，身份证识别，增值税发票识别，行驶证识别，营业执照识别，银行卡识别，身份证识别，驾驶证识别，行驶证识别，银行卡识别，通用文字识别，自定义模板文字识别，文字识别引擎，身份证识别，图片文字识别，通用文字识别，身份证识别，名片识别，光学字符识别服务，通用文字识别，手写体文字识别，表格识别，整题识别（含公式），购物小票识别，身份证识别，名片识别，自定义模板文字识别，文字识别，通用文字识别，银行卡识别，身份证识别，字幕识别，网络图片识别，游戏直播关键字识别，新闻标题识别，OCR文字识别，通用场景文字识别，卡证文字识别，财务票据文字识别，医疗票据文字识别，汽车场景文字识别，教育场景文字识别，其他场景文字识别，iOCR自定义模板文字识别，通用类OCR，通用文本识别(中英)通用文本识别(多语言)通用表格识别，证照类OCR，身份证社保卡户口本护照名片银行卡结婚证离婚证房产证不动产证，车辆相关OCR，行驶证驾驶证车辆合格证车辆登记证，公司商铺类OCR，商户小票税务登记证开户许可证营业执照组织机构代码证，票据类OCR，增值税发票增值税卷票火车票飞机行程单出租车发票购车发票智能技术，票据机器人证照机器人文本配置机器人表格配置机器人框选配置机器人，文字识别，行驶证识别，驾驶证识别，表单识别器，通用文本，财务票据识别，机构文档识别，个人证件识别，车辆相关识别，通用表格，印章识别，财报识别，合同比对，识别文字识别，签名比对，OCR识别，教育OCR，印刷识别，手写识别，表格识别，公式识别，试卷拆录

五、自然语言NPL

文本相似度，文本摘要，文本纠错，中心词提取，文本信息抽取，智能文本分类，命名实体，词性标注，多语言分词，NLP基础服务，地址标准化，商品评价解析智能短信解析，机器阅读理解，金融研报信息识别，法律案件抽取，行业问答推理，行业知识图谱构建，文本实体关系抽取，搜索推荐，知识问答，短文本相似度，文本实体抽取，情感倾向分析，兴趣画像匹配，文本分类-多标签，文本分类-单标签，定制自然语言处理，语言生成，语言理解，自然语言处理基础，文本摘要，数据转文字，文本生成，智能问答系统，内容推荐，评价分析，文本分类，对话理解，意图理解，情感分析，观点抽取，中文分词，短文本相似度，关键词提取，词向量，命名实体，识别依存，句法分析，情感分析，评论观点抽取，短文本相似度，机器翻译，词法分析，词义相似度，词向量，句法分析，文本分类，短语挖掘，闲聊，文本流畅度，同义词，聚类，语言模型填空，新闻热词生成，机器阅读理解，商品信息抽取，词法分析，情感分析，关键词提取，用户评论分析，资讯热点挖掘，AIUI人机交互，文本纠错，词法分析，依存句法分析，语义角色标注，语义依存分析（依存树），语义依存分析（依存图），情感分析，关键词提取，NLP能力生产平台，NLP基础技术，中文词法分析-LAC，词向量—Word2vec，语言模型—Language_model，NLP核心技术，情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答，信息检索、新闻推荐、智能客服，情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答，机器问答、自然语言推断、情感分析和文档排序，NLP系统应用，问答系统对话系统智能客服，用户消费习惯理解热点话题分析舆情监控，自然语言处理，文本分类使用手册，文本分类API文档，情感分析，评论观点抽取，短文本相似度，机器翻译，词法分析，词义相似度，词向量，句法分析，文本分类，短语挖掘，闲聊，文本流畅度，同义词，聚类，语言模型填空，新闻热词生成，机器阅读理解，商品信息抽取智能创作，智能写作，搭配短文，种草标题，卖点标题，社交电商营销文案，自然语言处理能力，基础文本分析，分词、词性分析技术，词向量表示，依存句法分析，DNN语言模型，语义解析技术，意图成分识别，情感分析，对话情绪识别，文本相似度检测，文本解析和抽取技术，智能信息抽取，阅读理解，智能标签，NLG，自动摘要，自动写文章，语言处理基础技术，文本审核，情感分析，机器翻译，智能聊天，自然语言，基于标题的视频标签，台词看点识别，意图识别，词法分析，相关词，舆情分析，流量预测，标签技术，自然语言处理，语义对话，自然语言处理，车型信息提取，关键词提取，语义理解，语义相似度，意图解析，中文词向量，表示依存，句法分析，上下文理解，词法分析，意图分析，情绪计算，视觉情感，语音情感，情感分析，沉浸式阅读器，语言理解，文本分析，自然语言处理，在线语音识别，自然语言理解火速上线中，情感判别，语义角色标注，依存句法分析，词性标注，实体识别，中文分词，分词，

6、知识图谱

知识图谱，药学知识图谱，智能分诊，腾讯知识图谱，无，药学知识图谱，智能分诊，知识理解，知识图谱Schema，图数据库BGraph，知识图谱，语言与知识，语言处理基础技术，语言处理应用技术，知识理解，文本审核，智能对话定制平台，智能文档分析平台，智能创作平台，知识图谱，实体链接，意图图谱，识别实体，逻辑推理，知识挖掘，知识卡片

7、对话问答机器人

智能问答机器人，智能语音助手，智能对话质检，智能话务机器人，无，电话机器人，NeuHub助力京东智能客服升级，腾讯云小微，智能硬件AI语音助手，对话机器人，无，问答系统对话系统智能客服，Replika对话技术，客服机器人，智能问答，智能场景，个性化回复，多轮交互，情绪识别，智能客服，金融虚拟客服，电话质检，AI语音交互机器人，中移云客服·智能AI外呼，人机对话精准语义分析

8、翻译

协同翻译工具平台，电商内容多语言工具，文档翻译，专业版翻译引擎，通用版翻译引擎，无，机器翻译，无，机器翻译，音视频字幕平台，机器翻译，机器翻译niutrans，文本翻译，语音翻译，拍照翻译，机器翻译，机器翻译，文本翻译，语音翻译，通用翻译，自然语言翻译服务，文本翻译，图片翻译，语音翻译，实时语音翻译，文档翻译(开发版，机器翻译，文本翻译，语音翻译，拍照翻译，机器翻译实时长语音转写，录音文件长语音转写，翻译工具，机器翻译火速上线中

9、声音

便携智能语音一体机，语音合成声音定制，语音合成，一句话识别，实时语音识别录音文件识别，客服电话，语音录入，语音指令，语音对话，语音识别，科学研究，安防监控，声音分类，语音合成，语音识别，实时语音转写，定制语音合成，定制语音识别，语音合成，语音合成声音定制，离线语音合成，短语音识别，录音文件识别，声纹识别，离线语音识别，实时语音识别，呼叫中心短语音识别，呼叫中心录音文件识别，呼叫中心实时语音识别，语音识别，语音合成，声纹识别，语音识别，语音听写，语音转写，实时语音转写，语音唤醒，离线命令词识别，离线语音听写，语音合成，在线语音合成，离线语音合成，语音分析，语音评测，性别年龄识别，声纹识别，歌曲识别，.客服平台能力中间件，语音识别，语音交互技术，语音合成，语音合成声音定制，离线语音合成，短语音识别，录音文件识别，声纹识别，离线语音识别，实时语音识别，呼叫中心短语音识别，呼叫中心录音文件识别，呼叫中心实时语音识别，远场语音识别，语音识别，一句话识别，实时语音识别，录音文件识别，语音合成，实时语音识别，长语音识别，语音识别，语音合成，波束形成，声源定位，去混响，降噪，回声消除，分布式拾音，语音识别，语音唤醒，语音合成，声纹识别，智能语音服务，语音合成，短语音识别，实时语音识别，语音理解与交互，离线唤醒词识别，语音识别，一句话识别，实时语音识别，录音文件识别，电话语音识别，语音唤醒，离线语音识别，离线命令词识别，远场语音识别，语音合成，通用语音合成，个性化语音合成，语音技术，短语音识别，实时语音识别，音频文件转写，在线语音合成，离线语音合成，语音自训练平台，语音交互，语音合成，语音识别，一句话识别，实时短语音识别，语音合成，语音唤醒，本地语音合成，语音翻译，语音转文本，短语音听写，长语音转写，实时语音转写，语音内容审核，会议超极本，语音交互技术，语音识别，语义理解，语音合成，音频转写，音视频类产品，语音通知/验证码，订单小号，拨打验证，点击拨号，数据语音，统一认证，语音会议，企业视频彩铃，语音识别，语音文件转录，实时语音识别，一句话语音识别，语音合成，通用语音合成，个性化语音合成，语音评测，通用语音评测，中英文造句评测，在线语音识别，语音识别，语音唤醒，语音合成，语音合成，语音识别，语音听写，语音转写，短语音转写(同步)，语音识别，语音情感识别

十、数据挖掘AI硬件

算法类型：包括二分类、多分类和回归，精准营销，表格数据预测，销量预测，交通流量预测，时序预测，大数据，无，机器学习使用手册，机器学习API文档，大数据处理，大数据传输，数据工厂，大数据分析，数据仓库，数据采集与标注，数据采集服务，数据标注服务，AI开发平台，全功能AI开发平台BML，零门槛AI开发平台EasyDL，AI硬件与平台，GPU云服务器，机器人平台，度目视频分析盒子，度目AI镜头模组，度目人脸应用套件，度目人脸抓拍机，人脸识别摄像机，昆仑AI加速卡，智能预测，购车指数，数据科学虚拟机，平台效率，云与AI，抗DDoS，天盾，网站漏洞扫描，网页防篡改，入侵检测防护，弹性云服务器，对象存储服务，云专线（CDA，AI计算机平台—360net深度学习基础模型，AI算法训练适配主流AI框架

十一、其他

内容审核，智能鉴黄，特定人物识别，通用图片审核，文本智能审核，广告检测，Logo检测，商品理解，拍照购，商品图片搜索，通用商品识别，疫情物资识别，酒标识别，细分市场划分，品牌竞争力分析，老品升级，新品定制，商品竞争力分析，商品销量预测，商品营销，用户评论占比预测，商品命名实体识别，商品颜色识别，强化学习，智能地图引擎，内容审核，智能鉴黄，特定人物识别，通用图片审核，文本智能审核，广告检测，Logo检测商品理解，拍照购，商品图片搜索，通用商品识别，疫情物资识别，酒标识别，细分市场划分，品牌竞争力分析，老品升级，新品定制，商品竞争力分析，商品销量预测，商品营销，用户评论占比预测，商品命名实体识别，商品颜色识别，个性化与推荐系统，推荐系统，舆情分析，舆情标签，智慧教育，智能语音评测，拍照搜题，题目识别切分，整页拍搜批改，作文批改，学业大数据平台，文档校审系统，会议同传系统，文档翻译系统，视频翻译系统，教育学习，口语评测，朗读听书，增强现实，3D肢体关键点SDK，美颜滤镜SDK，短视频SDK，基础服务，私有云部署，多模态交互，多模态情感分析，多模态意图解析，多模态融合，多模态语义，内容审查器，Microsoft基因组学，医学人工智能开放平台，数据查验接口，身份验证（公安简项），银行卡验证，发票查验，设备接入服务Web/H5直播消息设备托管异常巡检电话提醒，音视频，视频监控服务云广播服务云存储云录制，司乘体验，智能地图引擎，消息类产品，视频短信，短信通知/验证码，企业挂机彩信，来去电身份提示，企业固话彩印，模板闪信，异网短信，内容生产，试卷拆录解决方案，教学管理，教学质量评估解决方案，教学异常行为监测，授课质量分析解决方案，路况识别，人车检测，视觉SLAM，高精地图，免费SDK，智能诊后随访管理，用药管家，智能预问诊，智能导诊，智能自诊，智能问药，智能问答，裁判文书近义词计算，法条推荐，案由预测，

这个很难办到，不过可以通过判断关键点的特点进行判断，但是准确率不高前言很多人都认为人脸识别是一项非常难以实现的工作，看到名字就害怕，然后心怀忐忑到网上一搜，看到网上N页的教程立马就放弃了。这些人里包括曾经的我自己。其实如果如果你不是非要深究其中的原理，只是要实现这一工作的话，人脸识别也没那么难。今天我们就来看看如何在40行代码以内简单地实现人脸识别。一点区分对于大部分人来说，区分人脸检测和人脸识别完全不是问题。但是网上有很多教程有无无意地把人脸检测说成是人脸识别，误导群众，造成一些人认为二者是相同的。其实，人脸检测解决的问题是确定一张图上有木有人脸，而人脸识别解决的问题是这个脸是谁的。可以说人脸检测是是人识别的前期工作。今天我们要做的是人脸识别。所用工具Anaconda 2——Python 2Dlibscikit-imageDlib对于今天要用到的主要工具，还是有必要多说几句的。Dlib是基于现代C++的一个跨平台通用的框架，作者非常勤奋，一直在保持更新。Dlib内容涵盖机器学习、图像处理、数值算法、数据压缩等等，涉猎甚广。更重要的是，Dlib的文档非常完善，例子非常丰富。就像很多库一样，Dlib也提供了Python的接口，安装非常简单，用pip只需要一句即可：pip install dlib上面需要用到的scikit-image同样只是需要这么一句：pip install scikit-image注：如果用pip install dlib安装失败的话，那安装起来就比较麻烦了。错误提示很详细，按照错误提示一步步走就行了。人脸识别之所以用Dlib来实现人脸识别，是因为它已经替我们做好了绝大部分的工作，我们只需要去调用就行了。Dlib里面有人脸检测器，有训练好的人脸关键点检测器，也有训练好的人脸识别模型。今天我们主要目的是实现，而不是深究原理。感兴趣的同学可以到官网查看源码以及实现的参考文献。今天的例子既然代码不超过40行，其实是没啥难度的。有难度的东西都在源码和论文里。首先先通过文件树看一下今天需要用到的东西：准备了六个候选人的图片放在candidate-faces文件夹中，然后需要识别的人脸图片。我们的工作就是要检测到中的人脸，然后判断她到底是候选人中的谁。另外的是我们的python脚本。是已经训练好的人脸关键点检测器。是训练好的ResNet人脸识别模型。ResNet是何凯明在微软的时候提出的深度残差网络，获得了 ImageNet 2015 冠军，通过让网络对残差进行学习，在深度和精度上做到了比 CNN 更加强大。1. 前期准备和都可以在这里找到。然后准备几个人的人脸图片作为候选人脸，最好是正脸。放到candidate-faces文件夹中。本文这里准备的是六张图片，如下：她们分别是然后准备四张需要识别的人脸图像，其实一张就够了，这里只是要看看不同的情况：可以看到前两张和候选文件中的本人看起来还是差别不小的，第三张是候选人中的原图，第四张图片微微侧脸，而且右侧有阴影。2.识别流程数据准备完毕，接下来就是代码了。识别的大致流程是这样的：3.代码代码不做过多解释，因为已经注释的非常完善了。以下是 -*- coding: UTF-8 -*-import sys,os,dlib,glob,numpyfrom skimage import ioif len() != 5:print "请检查参数是否正确"exit()# 1.人脸关键点检测器predictor_path = [1]# 2.人脸识别模型face_rec_model_path = [2]# 3.候选人脸文件夹faces_folder_path = [3]# 4.需识别的人脸img_path = [4]# 1.加载正脸检测器detector = ()# 2.加载人脸关键点检测器sp = (predictor_path)# 3. 加载人脸识别模型facerec = (face_rec_model_path)# win = ()# 候选人脸描述子listdescriptors = []# 对文件夹下的每一个人脸进行:# 1.人脸检测# 2.关键点检测# 3.描述子提取for f in ((faces_folder_path, "*.jpg")):print("Processing file: {}".format(f))img = (f)#()#(img)# 1.人脸检测dets = detector(img, 1)print("Number of faces detected: {}".format(len(dets)))for k, d in enumerate(dets):# 2.关键点检测shape = sp(img, d)# 画出人脸区域和和关键点# ()# (d)# (shape)# 3.描述子提取，128D向量face_descriptor = (img, shape)# 转换为numpy arrayv = (face_descriptor)(v)# 对需识别人脸进行同样处理# 提取描述子，不再注释img = (img_path)dets = detector(img, 1)dist = []for k, d in enumerate(dets):shape = sp(img, d)face_descriptor = (img, shape)d_test = (face_descriptor)# 计算欧式距离for i in descriptors:dist_ = (i-d_test)(dist_)# 候选人名单candidate = ['Unknown1','Unknown2','Shishi','Unknown4','Bingbing','Feifei']# 候选人和距离组成一个dictc_d = dict(zip(candidate,dist))cd_sorted = sorted((), key=lambda d:d[1])print "\n The person is: ",cd_sorted[0][0] ()4.运行结果我们在.py所在的文件夹下打开命令行，运行如下命令python ./candidate-faecs 由于和名字实在太长，所以我把它们重命名为和。运行结果如下：The person is Bingbing。记忆力不好的同学可以翻上去看看是谁的图片。有兴趣的话可以把四张测试图片都运行下试试。这里需要说明的是，前三张图输出结果都是非常理想的。但是第四张测试图片的输出结果是候选人4。对比一下两张图片可以很容易发现混淆的原因。机器毕竟不是人，机器的智能还需要人来提升。有兴趣的同学可以继续深入研究如何提升识别的准确率。比如每个人的候选图片用多张，然后对比和每个人距离的平均值之类的。全凭自己了。

人脸检测与对齐论文笔记

URL: 论文pdf Google出品。亚毫秒级的移动端人脸检测算法。移动端可达200~1000+FPS速度。主要以下改进：在深度可分离卷积中，计算量主要为point-wise部分，增加depth-wise部分卷积核大小并不会明显增加成本。因此本文在depth-wise部分采用了5x5的卷积核，已获得更大的感受野，故此可以降低在层数上的需求。此外，启发于mobilenetV2，本文设计了一个先升后降的double BlazeBlock。BlazeBlock适用于浅层，double BlazeBlock适用于深层。 16x16的anchor是一样的，但本文将8x8，4x4和2x2的2个anchor替换到8x8的6个anchor。此外强制限制人脸的长宽为1：1。由于最后一层feature map较大（相对于ssd），导致预测结果会较多，在连续帧预测过程中，nms会变导致人脸框变得更加抖动。本文在原始边界框的回归参数估计变为其与重叠概率的加权平均。这基本没有带来预测时间上的消耗，但在提升了10%的性能。效果好速度快的方法想不想要？

人脸检测是先从图片中筛选出是人脸的位置，人脸对齐是找到人脸位置之后，再找出人脸特征点的位置，比如鼻子左侧，鼻孔下侧，瞳孔位置，上嘴唇下侧等等点的位置。可以理解成人脸关键点定位或者人脸五官定位。应用方向，现在主要就是做变脸特效，性别识别，年龄识别，智能贴图。

人脸检测必读的论文

人脸识别法学论文题目书写：人脸识别就是通过观察比较人脸来区分和确定人的身份的.不被察觉的特点会使识别方法不令人反感,而且不容易引起人注意

行人检测相关论文笔记

对于目标检测方向并不是特别熟悉，本文记录一下RCNN, fast-RCNN, faster-RCNN, mask-RCNN这4篇有关目标检测的论文笔记和学习心得。

R-CNN的意思就是Region based，主要思路就是根据一张图像，提取多个region，再将每个Region输入CNN来进行特征的提取。因此RCNN就可以分为 Region proposals , Feature extraction 两个主要部分，提取的特征就可以输入任意一个分类器来进行分类。模型的流程图如下：

在训练的时候，首先使用的是已经训练好的CNN网络作为特征提取器，但是由于预训练是在分类数据集上，因此在应用到检测之前要做finetune。也就是说，为了将用ImageNet数据集训练的网络应用到新的任务（检测），新的数据集（region）上，作者将原来的CNN最后的1000类的fc层，更改为了层，代表待检测的物体的类别数。然后，对于所有的region，如果它和ground truth的重叠率大于，就认为是正类。对于分类器的训练，作者发现选择多大的IoU来区分正类和负类非常关键。并且，对于每一类，都会训练一个分类器。

框的回归非常重要，在对每一个region proposal使用分类器进行打分评价之后，作者使用一个回归器来预测一个新的框作为结果。这个回归器使用的特征是从CNN中提取的特征。回归器的训练中，输入是 region proposal 的和ground truth的，目标是学习一种变换，使得region proposal通过该变换能够接近ground truth。同时，希望这种变换拥有尺度不变性，也就是说尺度变化的话，变换不会改变。如下图所示，每一个regressor会学习一组参数，特征输入是pool 5的特征输出，拟合的目标是。

Fast-RCNN 主要解决的问题是在RCNN中对于每一个region proposal都进行特征提取，会产生非常多的冗余计算，因此可以先对一张图像进行特征提取，再根据region proposal在相应的特征上进行划分得到对应region的特征（映射关系）。这样便可以实现共享计算提高速度，但是与SPPnets不同，SPPnets在一副图像得到对应的特征后，从这张图像的特征上proposal对应的部分，采用空间金字塔池化，如下图：

RoI pooling的方法很简单，类似于空间金字塔pooling，它将proposal部分对应卷积层输出的特征（称之为RoI，因为用于做pooling的特征是 region of interest，也就是我们感兴趣的区域）划分成块，然后对每一块求最大值，最终得到了一个的特征图。可以看出，它只是空间金字塔pooling的一部分。但是SPP-nets的空间金字塔也是可以求导的，那么它到底不好在哪里呢？因为当每一个RoI都可能来源于不同的图像的时候（R-CNN和SPPnets的训练策略是从一个batch的不同图像中，分别挑选一个proposal region），SPPNets的训练非常地低效，这种低效来源于在SPPnets的训练中，每个RoI的感受野都非常地大，很可能对应了原图的整个图像，因此，得到的特征也几乎对应了整张图像，所以输入的图像也就很大。为了提高效率，Fast-RCNN首先选取个图像，再从每个图像上选择个RoI，这样的效率就比从每个图像提取一个RoI提高了倍。

为了将分类和框回归结合起来，作者采用了多任务的loss，来进行联合的训练。具体来说就是将分类的loss和框回归的loss结合起来。网络的设计上非常直接，就是将RoI得到的特征接几个FC层后，分别接不同的输出层。对应于分类部分，特征会接一个softmax输出，用于分类，对于框回归部分，会接一个输出4维特征的输出层，然后分别计算loss，用于反向传播。loss的公式如下：

回归的target可以参考前面的R-CNN部分。

notes

为什么比fast还fast呢？主要原因是在这篇论文中提出了一个新的层：RPN（region proposal networks）用于替代之前的selective search。这个层还可以在GPU上运算来提高速度。 RPN的目的：

为了能够进行region proposal，作者使用了一个小的网络，在基础的卷积层输出的特征上进行滑动，这个网络输入大小为，输入后会映射（用的卷积）为一个固定长度的特征向量，然后接两个并联的fc层（用的卷积层代替），这两个fc层，一个为box-regressoin，一个为box-classification。如下图：

在每一个滑动窗口（可以参考），为了考虑到尽可能多的框的情况，作者设计了anchors来作为region proposal。anchors就是对于每一个滑动窗口的中心位置，在该位置对应的原图位置的基础上，按照不同的尺度，长宽比例框出个不同的区域。然后根据这些anchors对应的原始图像位置以及区域，和ground truth，就可以给每一个滑动窗口的每一个anchor进行标记，也就是赋予label，满足一定条件标记为正类（比如和ground truth重叠大于一个值），一定条件为负类。对于正类，就可以根据ground truth和该anchor对应的原图的区域之间的变换关系（参考前面的R-CNN的框回归），得到回归器中的目标，用于训练。也就是论文中的loss function部分：

自然地，也就要求RPN的两个并联的FC层一个输出2k个值用于表示这k个anchor对应的区域的正类，负类的概率，另一个输出4k个值，用于表示框回归的变换的预测值。

对于整个网络的训练，作者采用了一种叫做 4-step Alternating Training 的方法。具体可以参考论文。

与之前的检测任务稍有不同，mask r-cnn的任务是做instance segmentation。因此，它需要对每一个像素点进行分类。与Faster R-CNN不同，Faster R-CNN对每一个候选框产生两个输出，一个是类别，一个是bounding box的offset。Mask R-CNN新增加了一个输出，作为物体的mask。这个mask类似于ps中的蒙版。

与Faster R-CNN类似的是，Mask R-CNN同样采用RPN来进行Region Proposal。但是在之后，对于每一个RoI，mask r-cnn还输出了一个二值化的mask。

不像类别，框回归，输出都可以是一个向量，mask必须保持一定的空间信息。因此，作者采用FCN来从每个RoI中预测一个的mask。

由于属于像素级别的预测问题，就需要RoI能够在进行特征提取的时候保持住空间信息，至少在像素级别上能够对应起来。因此，传统的取最大值的方法就显得不合适。 RoI Pooling，经历了两个量化的过程：第一个：从roi proposal到feature map的映射过程。第二个：从feature map划分成7*7的bin，每个bin使用max pooling。

为此，作者使用了RoIAlign。如下图

为了避免上面提到的量化过程

可以参考

作者使用ResNet作为基础的特征提取的网络。对于预测类别，回归框，mask的网络使用如下图结构：

整体看完这几篇大佬的论文，虽说没有弄清楚每一个实现细节，但是大体上了解了算法的思路。可以看出，出发点都源于深度神经网络在特征提取上的卓越能力，因此一众大神试图将这种能力应用在检测问题中。从R-CNN中简单地用于特征提取，到为了提高速度减少计算的Fast R-CNN，再到为了将region proposal集成进入整个模型中，并且利用GPU加速的RPN，也就是Faster R-CNN。再到为了应用于instance segmentation任务中，设计的RoIAlign和mask。包括bounding box regression，pooling层的设计，训练方法的选择，loss的设计等等细节，无一不体现了大师们的思考和创造力。可能在我们这些“拿来”者的眼中，这些方法都显得“理所应当”和巧妙，好用，但是，它们背后隐藏的选择和这些选择的思考却更值得我们学习。以及，对待每一个问题，如何设计出合理的解决方案，以及方案的效率，通用性，更是应该我们努力的方向。

行人重识别任务的目标是希望在多个不具有重叠区域的摄像场景中实现行人的检索。目前行人重识别根据采用的组件不同可以分为closed-world和open-world两种。closed-world场景相对而言目前研究较深入，其主要针对于不同的应用假设，在多个数据集上都取得较好的性能，比如Market1501，CUHK和DUKE等。 closed-world场景一般研究重点有三部分：深度特征表示学习、深度度量学习和rank优化。而open-world场景则相对更加复杂。本文总结了open-world场景中ReID的五个不同视角，提出了一种AGW基线方法，在多个ReID任务上都取得较好性能。另外，本文还提出了一种新的评估度量 mINP。最后探索了ReID目前亟待解决的一些方向。

基本定义：非重叠的多个摄像场景中，特定行人的检索问题。具体而言，给定一个待检索的目标行人，ReID希望能够判断这个目标是否出现在不同时刻不同场景不同摄像头的场景中。基本难点：行人的视角、图像分辨率变化、光照变化、姿态变化、遮挡，不同模态等。该综述的不同点：

根据上面五块内容，ReID任务分为closed-world和open-world两类，区别如下：

closed-world场景的一般前提：1）输入时裁剪后的行人图像块；2）有监督学习；3)检索目标一定存在gallery中。 closed-world场景模型一般包含3部分：特征抽取、度量学习和rank 优化。

如下图所示，一般包含四类：

知识点：

ReID的难点包括视角不同，遮挡等，行人区域可能不对齐，这时往往希望通过部件或者区域特征进行对齐。主流趋势是combine全局特征和部件特征。以PDC模型为代表的pose驱动方法，通过pose获得部件信息，然后利用部件的attention进行检索。PCB方式是利用图像均匀划分的典型。其将目标框水平分成6个条带，每个条带进行独立的分类任务学习，在推理阶段将六条条带的特征进行concat表征整体。另外还通过refined part pooling策略增强了部件内部的一致性，具体是计算每个部件与所有像素点的相似度进行重新划分，可以认为是一种non-local的attention。行人parsing技术能够获得较好的语义部件，提供更对齐的部件特征，但需要额外的pose检测器且由于ReID数据集和Pose数据集的分布差异，易产生错误的pose。均匀划分的策略更灵活，但对严重遮挡和大的背景模糊无能为力。

辅助特征表示学习一般包括额外的标注数据，比如语义标注，和训练样本生成等。

该任务中，每个目标不再是图像区域，而是一段帧序列。

待续（ReID领域新接触，积累不够，综述文章读着好多理解不够深入，先去读具体方法了;( 后面积累了，再回来阅读这个吧。。。留坑）

将行人作为特定的行人检索问题，大多数方法都采用用于图像分类的网络结构作为backbone。其中一些方法通过修改backbone的结果以提取更好的ReID特征，比如对于ResNet50而言，一般将最后一个stage的stripe改为1以增大分辨率（参考文献PCB），或者最后一个pooling层采用自适应的平均池化（这里参考文献是PCB模型，池化时时不同的条带中进行gap），再或者在pooling层后添加具有bn的bottleneck 层（暂停，滚去阅读参考文献75， SVDNet了！（OK，已读完，见，和作者说的其实有出入，并不是加了bn，而是希望投影向量正交，从而获得的表观特征在每个维度上相互独立））。其他的一些为ReID专门设计的网络结构有 FPNN(filter pairing neural network), 通过部件鉴别信息的挖掘同时处理不对齐和遮挡问题(暂停，去读参考文献34，DeepReID （已读，）)，[141]提出一种提升邻域差异的层用于捕捉patch特征的差别，进而把这种差异送入后面的层中(感觉类似resnet的思想。(读完，其实就是提出一种结合了self-attention的part-aware module方法search space中，使用NAS迭代的搜索方法寻找针对于数据集的最优结构，当然说是专门为reid设计的网络结构也没毛病。))

姓名：王梦妮学号：20021210873 学院：电子工程学院【嵌牛导读】本文主要介绍了无人驾驶中所需的行人检测算法【嵌牛鼻子】无人驾驶环境感知计算机视觉 SVM Adaboost算法【嵌牛提问】无人驾驶中所用到的行人检测算法有哪些【嵌牛正文】在同样的交通路况下，无人车通过对自身运动状态及行驶环境信息进行分析，决策出最佳行驶策略和行驶方案代替驾驶员完成一系列驾驶行为，从而降低道路交通事故的发生率。而在无人驾驶中最为重要的技术便是环境感知，而在城市道路上有大量的行人出行，只有准确快速地检测出行人与对其进行跟踪，才能避免车撞人。计算机视觉是研究赋予机器“人眼”功能的科学，通过多个传感器来获取一定范围内的色彩数据，用算法分析得到的数据从而理解周围环境，这个过程模拟了人眼以及大脑的处理过程，从而赋予机器视觉感知能力。现有的行人检测技术大多都是检测照片中的行人目标，这种照片的拍摄大多是拍摄的静止目标，图像的分辨率和像素点包含的语义信息都及其丰富，对应的算法在这样的图片上往往能取得理想的效果，但是用于无人车的“眼睛”，算法的鲁棒性就表现的非常差。这是因为在实际的道路环境中，摄像头需要搭载的车身上，在行进过程中跟随车以一定的速度移动，并且在实际道路中，行人目标往往是在运动的，由此提取出拍摄视频中的一帧就会出现背景虚化，造成像素点包含的语义信息大量减少，增加了行人检测的难度。行人检测是计算机视觉领域的一个重要研究课题。在实际生活中，行人大多处于人口密集、背景复杂的城市环境中，并且行人的姿态各不相同，如何将行人从色彩丰富、形状相似的环境中快速准确地提取出来，是行人检测算法的难点。行人检测算法分为两大类，一类是基于传统图像处理，另一类是基于深度学习的方法。近年来随着计算机计算速度的大幅提升，基于深度学习的方法有着越来越高的检测速度与检测精度，在行人检测领域应用越加广泛。（一）基于传统图像处理的行人检测算法使用传统的图像处理方法来做行人检测一般都是由两个步骤组成，第一就是需要手工设计一个合理的特征，第二就是需要设计一个合理的分类器。手工设计特征就是找到一种方法对图像内容进行数学描述，用于后续计算机能够区分该图像区域是什么物体，分类器即是通过提取的特征判断该图像区域属于行人目标还是属于背景。在传统的图像处理领域，手工特征有许多种，比如颜色特征、边缘特征(canny算子和sobel算子)以及基于特征点的描述子(方向梯度直方图)等。学者们一致认为方向梯度直方图是最适合行人检测的人工特征，其主要原理是对图像的梯度方向直方图进行统计来表征图像。该特征是由Dalal于2005提出的，并与SVM分类器相结合，在行人检测领域取得了前所未有的成功。传统的行人检测方法首先需要通过提取手工设计特征，再使用提取好的特征来训练分类器，得到一个鲁棒性良好的模型。在行人检测中应用最广泛的分类器就是SVM和Adaboost。SVM分类器就是要找到一个超平面用来分割正负样本，这个超平面的满足条件就是超平面两侧的样本到超平面的距离要最大，即最大化正负样本边界。下图即为线性SVM的示意图。Adaboost分类算法的主要原理不难理解，就是采用不同的方法训练得到一系列的弱分类器，通过级联所有的弱分类器来组成一个具有更高分类精度的强分类器，属于一种迭代算法。原理简单易于理解且有着良好的分类效果，唯一不足就是练多个弱分类器非常耗时。下图为面对一个二分类问题，Adaboost算法实现的细节。（二）基于深度学习的行人检测算法近年来，随着硬件计算能力的不断增强，基于卷积神经网络的深度学习飞速发展，在目标检测领域取得了更好的成绩。卷积神经网络不再需要去手动设计特征，只需要将图片输入进网络中，通过多个卷积层的卷积操作，提取出图像的深层语义特征。要想通过深度学习的方法得到一个性能良好的模型，需要大量的样本数据，如果样本过少，就很难学习到泛化能力好的特征，同时在训练时，由于涉及到大量的卷积操作，需要进行大量计算，要求硬件设备具有极高的算力，同时训练起来也很耗时。随着深度学习的飞速发展，越来越多基于深度学习的模型和方法不断被提出，深度学习在目标检测领域会有更加宽广的发展空间。 Ross Girshick团队提出了系列行人检测算法，其中Faster R—CNN 算法通过一个区域提议网络来生成行人候选框，在最后的特征图上滑动来确定候选框。Faster RCNN是首个实现端到端训练的网络，通过一个网络实现了特征提取、候选框生成、边界框回归和分类，这样的框架大大提高了整个网络的检测速度。 He Kaiming等人在2017年提出Mask R—CNN算法，该算法改进了Faster·R—CNN，在原有的网络结构上增加了一个分支进行语义分割，并用ROI Align替代了ROI Pooling，取得了COCO数据集比赛的冠军。

首页

> 学术论文知识库

人脸关键点检测论文阅读笔记