首页

> 论文发表知识库

首页 论文发表知识库 问题

人群密度检测论文笔记

发布时间:

人群密度检测论文笔记

1.告警精确度高智能视频分析系统内置智能算法,能排除气候与环境因素的干扰,有效弥补人工监控的不足,减少视频监控系统整体的误报率和漏报率。2.实时识别报警基于智能视频分析和深度学习神经网络技术对进入监控区域内的人脸实时识别预警,告警信号可显示在监控客户端界面,也可将报警信息推送到移动端, 联动驱动警灯和警号提示用户及时处置。3.全天候运行 稳定可靠智能视频监控系统可对监控画面进行7×24不间断的分析,大大提高了视频资源的利用率,减少人工监控的工作强度。4.告警存储功能对监控区域内的人脸实时识别预警及时存储到服务器数据库中,包括时间、地点、快照、视频等。

人群密度计数是指估计图像或视频中人群的数量、密度或分布,它是智能视频监控分析领域的关键问题和研究热点,也是后续行为分析、拥塞分析、异常检测和事件检测等高级视频处理任务的基础。随着城市化进程的快速推进,城市人口数量急剧增长,导致各种人员高度聚集的社会活动频繁发生,如果管控不当,极易发生拥挤踩踏事故。

例如上海“”外滩踩踏事故中,由于现场管理和应对措施不当,引发了人群拥挤和摔倒,最终造成了重大人员伤亡的严重后果。如果有精度良好的人群计数系统实时统计相关场所的人群数量、分布或密度等信息,及时发现人群拥挤和异常行为并进行预警,以便采取措施进行疏导,就可以避免悲剧的发生。性能良好的人群计数算法也可以迁移到其他目标计数领域,如显微图片中的细菌与细胞计数、拥挤道路上的汽车计数等,拓展人群计数算法的应用范围.因此,人群计数方法的研究有着重要的现实意义和应用价值。

显然的是传统的人群计数方法具有一定局限性,无法从图像中提取更抽象的有助于完成人群计数任务的语义特征,使得面对背景复杂、人群密集、遮挡严重的场景时,计数精度无法满足实际需求。近年来,深度学习技术发展迅猛,在许多计算机视觉任务中得到成功应用,促使研究人员开始探索基于卷积神经网络的人群计数办法.相比于传统方法,基于CNN的人群计数方法在处理场景适应性、尺度多样性等问题时表现更优。而且由于特征是自学习的,不需要人工选取,可以显著提升计数效果,因此已经成为当前人群计数领域的研究热点。使用CNN的人群计数方法主要分为直接回归计数法和密度图估计法2类。直接回归法只需向CNN送入人群图片,就可以直接输出人群数量,适用于人群稀疏场景。在密度图法中,CNN输出的是人群密度图,再以数学积分求和的方式计算出人数.这类方法性能的好坏一定程度上依赖于密度图的质量。为了提升密度图质量,会引入新的损失函数来提高密度图的清晰度和准确度。

故本项目通过采用深度学习方法获取人群密度图已估计人群数量,使用python语言搭建MSCNN网络实现实时生成人群密度图以达到估计人群数量的目的。其最终实现效果如下图可见:

基本介绍

环境要求

本次环境使用的是平台。主要用的库有:

opencv模块。在计算机视觉项目的开发中,opencv作为较大众的开源库,拥有了丰富的常用图像处理函数库,采用C/C++语言编写,可以运行在Linux/Windows/Mac等操作系统上,能够快速的实现一些图像处理和识别的任务。

numpy模块。numpy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效得多(该结构也可以用来表示矩阵。

pillow模块。PIL是理想的图像存档和批处理应用程序。您可以使用库创建缩略图,在文件格式、打印图像等之间进行转换。它提供了广泛的文件格式支持、高效的内部表示和相当强大的图像处理功能。核心图像库是为快速访问以几种基本像素格式存储的数据而设计的。为通用图像处理工具提供了坚实的基础。

keras模块。Keras是一个由Python编写的开源人工神经网络库,可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口,进行深度学习模型的设计、调试、评估、应用和可视化。

MSCNN网络介绍

MSCNN作为多尺度卷积神经网络与传统机器学习算法相比,深度学习模型能更有效地从高维复杂输入中自动提取特征。卷积神经网络是应用最广泛的深度学习模型之一,通过卷积、池化等操作提取原始数据的特征,并通过权连接层输出模型的计算结果。其中,卷积核的大小在一定程度上影响着特征提取的效果和模型的故障识别能力。MSCNN是一种改进的卷积神经网络,通过不同大小的卷积核从多尺度挖掘特征信息,有效解决了传统CNN模型卷积核的自适应选择问题。

1.抽烟、酗酒的男性:由于抽烟、酗酒,以及肥胖、糖尿病、高血压等代谢性疾病,中年男性骨量开始减少。如果您出现易疲劳、周身酸痛乏力、倦怠、多汗、麻木、爱抽筋等症状时,就有必要去做骨密度检查。2.减肥的女性:在25到35岁这个年龄段,50%以上的白领女性骨质流失情况较男性还严重,发病率明显高于男性。女性感觉腰背酸痛,其中相当一部分是骨质疏松的早期症状。时下许多年轻女性因节食减肥、多坐少动、饮食不均衡等原因,很容易发生骨质疏松。

人群密度检测本科毕业论文

大学本科毕业前,要写好毕业论文,就必须要有好的论文成绩,才能顺利毕业。第一要了解的是论文检测的对象,即本次检测是本科毕业生,检测的范围包括写论文或参加论文答辩的本科毕业生。一般是通过专业论文查重软件对毕业论文进行重复性检测,规范毕业生的学术不端行为,提高毕业论文写作质量。论文软件都会有论文查询入口,论文查询入口可以通过合作注册帐号进入论文查询具体信息。对于学生而言,通过学校合作的论文检测系统,上传自己的毕业论文可以免费检测,但学校一般只提供一到两次的免费检测机会,虽然可以多次上传检测,但免费检测的机会有限,所以尽量珍惜,最好是在最后用学校的论文查重系统来检测,确保论文的质量。大学本科毕业论文是如何查重的?关于检测时间,各学校可能有不同的规定,因此请务必在规定的时间内提交最终报告。可自行登录系统查询检测结果,如需重新进行检测,检测费用可能由学生自己承担,具体情况以学校规定为准。学士学位论文的查重率一般在30%以内,即为合格,允许答辩;若超过30%,则需修改,直到合格为止。因此写论文时要谨慎,而且要注重质量,这样才能使自己顺利毕业,完成本科学业。

当第一次接触到论文查重的时候,大多数人都不知道论文查重是什么?到底怎么查?自己进行论文查重的时候对各种各样的查重软件一片迷茫,不知道该怎么选择?本科论文如何查重?本科论文如何查重第一,在很多的查重软件的首页上,会有很多论文查重系统的入口,我们要怎么选择呢?知网VIP查重的系统是研究生的论文查重系统,这个的查重系统是学术论文的对比库。还有个是知网小分解的查重,有很多人不知道这个系统,这个系统是不会限制文章的类型,也是不限制人群的。第二,本科论文如何查重?在确定下来的查重系统之后,就要把自己的论文上传上去,系统会把你上传的论文自动转换成文本的形式和数据库进行比较的,知网查重的系统如果有连续13个字数是重复的,那么重复的部分就会有红色的标记。推荐阅读:论文检测。第三, 本科论文如何查重?最后,我们需要等待的就是论文检测出来的结果了,一般知网检测的结果是以报告的形式出现的,一般报告的重复率抄袭的都会有红色的标记明确指出来,也会把重复的地方写清楚文章或者文献重复;这样就可以很方便的进行修改。推荐阅读:如何查重。查重的软件有很多,本科论文如何查重?给大家推荐一些:适合初稿采用的:万方、维普;适合修改论文的:维普、知网小分解、知网大分解、知网PMLC;定稿使用的:知网PMLC、知网硕博vip。

在当今社会,论文是衡量一个人学术水平的主要方法。当学生接受教育时,他们也会有写论文的要求。在论文考核中,查重标准也非常严格。本科毕业论文查重率是多少? 本科论文的查重相对不是很严格。本科院校的查重要求一般在30%以内。如果论文重复率在30%到50%之间,则应在一周内修改。高校在撰写论文时往往有较长的修改时间。我们可以使用适当的降重方法来减少论文的重复,高校也将为学生提供查重的机会。我们可以向高校申请使用内部查重系统进行查重。 论文查重价格比较高,我们可以用免费查重系统进行检测,比如paperfree、papertime等平台查重,也方便修改。总的来说更划算。修改论文时,一般平台会提供机器降重功能。我们可以使用机器降重来降低论文的重复率。

毕业的时候,毕业生需要准备论文。论文完成之后还要经过导师和知网的修改和查重。那么,哪些本科论文是不需要检测的呢?下面小编整理了关于“本科论文哪些内容不用查?”的干货信息,希望对大家有所帮助。本科论文不查重的范围包括:个人信息、学校信息、原创声明、图片、目录、参考文献、公式都不涉及查重,但它们都有一个前提,就是格式必须正确规范,否则系统无法识别,仍然会被计入查重。比如论文中的公式不正确,公式是约定俗成的概念,很容易和资源库中的内容重复。所以论文的格式一定要规范,不然公式重复就会导致重复率上升。知网查重按照目录对论文进行查重,一般以目录为准。但是,该目录不在检查的范围内,这就预先假定了目录的格式必须标准化,论文的目录必须由word自动生成。否则,由于目录是高度概括的描述,重复率的概率就高。通常,如果格式正确,就不会检测参考文献。如果格式不正确,引用不规范,也会被系统自动识别为对这部分内容进行识别分段检测。最后要说的是附录。是否查附录的查重,要看学校的具体要求。不同学校对附录的检查方式不同。有的学校要求查附录的查重,有的不查。

人群密度检测论文实验重现

人群密度计数是指估计图像或视频中人群的数量、密度或分布,它是智能视频监控分析领域的关键问题和研究热点,也是后续行为分析、拥塞分析、异常检测和事件检测等高级视频处理任务的基础。随着城市化进程的快速推进,城市人口数量急剧增长,导致各种人员高度聚集的社会活动频繁发生,如果管控不当,极易发生拥挤踩踏事故。

例如上海“”外滩踩踏事故中,由于现场管理和应对措施不当,引发了人群拥挤和摔倒,最终造成了重大人员伤亡的严重后果。如果有精度良好的人群计数系统实时统计相关场所的人群数量、分布或密度等信息,及时发现人群拥挤和异常行为并进行预警,以便采取措施进行疏导,就可以避免悲剧的发生。性能良好的人群计数算法也可以迁移到其他目标计数领域,如显微图片中的细菌与细胞计数、拥挤道路上的汽车计数等,拓展人群计数算法的应用范围.因此,人群计数方法的研究有着重要的现实意义和应用价值。

显然的是传统的人群计数方法具有一定局限性,无法从图像中提取更抽象的有助于完成人群计数任务的语义特征,使得面对背景复杂、人群密集、遮挡严重的场景时,计数精度无法满足实际需求。近年来,深度学习技术发展迅猛,在许多计算机视觉任务中得到成功应用,促使研究人员开始探索基于卷积神经网络的人群计数办法.相比于传统方法,基于CNN的人群计数方法在处理场景适应性、尺度多样性等问题时表现更优。而且由于特征是自学习的,不需要人工选取,可以显著提升计数效果,因此已经成为当前人群计数领域的研究热点。使用CNN的人群计数方法主要分为直接回归计数法和密度图估计法2类。直接回归法只需向CNN送入人群图片,就可以直接输出人群数量,适用于人群稀疏场景。在密度图法中,CNN输出的是人群密度图,再以数学积分求和的方式计算出人数.这类方法性能的好坏一定程度上依赖于密度图的质量。为了提升密度图质量,会引入新的损失函数来提高密度图的清晰度和准确度。

故本项目通过采用深度学习方法获取人群密度图已估计人群数量,使用python语言搭建MSCNN网络实现实时生成人群密度图以达到估计人群数量的目的。其最终实现效果如下图可见:

基本介绍

环境要求

本次环境使用的是平台。主要用的库有:

opencv模块。在计算机视觉项目的开发中,opencv作为较大众的开源库,拥有了丰富的常用图像处理函数库,采用C/C++语言编写,可以运行在Linux/Windows/Mac等操作系统上,能够快速的实现一些图像处理和识别的任务。

numpy模块。numpy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效得多(该结构也可以用来表示矩阵。

pillow模块。PIL是理想的图像存档和批处理应用程序。您可以使用库创建缩略图,在文件格式、打印图像等之间进行转换。它提供了广泛的文件格式支持、高效的内部表示和相当强大的图像处理功能。核心图像库是为快速访问以几种基本像素格式存储的数据而设计的。为通用图像处理工具提供了坚实的基础。

keras模块。Keras是一个由Python编写的开源人工神经网络库,可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口,进行深度学习模型的设计、调试、评估、应用和可视化。

MSCNN网络介绍

MSCNN作为多尺度卷积神经网络与传统机器学习算法相比,深度学习模型能更有效地从高维复杂输入中自动提取特征。卷积神经网络是应用最广泛的深度学习模型之一,通过卷积、池化等操作提取原始数据的特征,并通过权连接层输出模型的计算结果。其中,卷积核的大小在一定程度上影响着特征提取的效果和模型的故障识别能力。MSCNN是一种改进的卷积神经网络,通过不同大小的卷积核从多尺度挖掘特征信息,有效解决了传统CNN模型卷积核的自适应选择问题。

人群密度检测仪,是自动对视频场景内的人群聚集度进行自动预警的智能物联终端。

1.告警精确度高智能视频分析系统内置智能算法,能排除气候与环境因素的干扰,有效弥补人工监控的不足,减少视频监控系统整体的误报率和漏报率。2.实时识别报警基于智能视频分析和深度学习神经网络技术对进入监控区域内的人脸实时识别预警,告警信号可显示在监控客户端界面,也可将报警信息推送到移动端, 联动驱动警灯和警号提示用户及时处置。3.全天候运行 稳定可靠智能视频监控系统可对监控画面进行7×24不间断的分析,大大提高了视频资源的利用率,减少人工监控的工作强度。4.告警存储功能对监控区域内的人脸实时识别预警及时存储到服务器数据库中,包括时间、地点、快照、视频等。

3d行人框检测论文笔记

参考资料: 行人检测算法 行人检测是使用计算机视觉技术来判断图像或视频中是否存在行人。可以通过跟行人跟踪,行人重识别技术,来应用于人工智能系统,车辆辅助驾驶系统、智能交通等领域① 处理数据 ② 训练模型 ③ 输出目标位置① 外观差异大。包括视觉、姿态、服饰和附着物、光照、成像距离等。行人不同的运动姿态、角度,都会显示出不同的外观,而且成像距离远近不一,也会造成外观大小不同 ② 遮挡问题,在行人密集的地方,会发生行人被遮挡的问题,或者是被周围的建筑物遮挡住 ③ 背景复杂,有些物体的外观、造型、颜色、纹理等都比较接近人体,例如雕塑或人像广告牌、假人等。之前就有个新闻说红绿灯行人越线检测时,把公共汽车上的代言人广告中的代言人也检测了出来 ④ 检测速度,行人检测一般使用了比较复杂的模型,运算量相当大,要达到实时非常困难,一般需要大量的优化Faster R-CNN 文献[16]分析了Faster R-CNN在行人检测问题上的表现,结果表明,直接使用这种算法进行行人检测效果并不满意。作者发现,Faster R-CNN中的RPN网络对提取行人候选区域是相当有效的,而下游的检测网络表现的不好。作者指出了其中的两个原因:对于小目标,卷积层给出的特征图像太小了,无法有效的描述目标;另外,也缺乏难分的负样本挖掘机制。作者在这里采用了一种混合的策略,用RPN提取出候选区域,然后用随机森林对候选区域进行分类。这一结构如下图所示: DeepParts 文献[21]提出了一种基于部件的检测方案,称为DeepParts,致力于解决遮挡问题。这种方案将人体划分成多个部位,分别进行检测,然后将结果组合起来。部位划分方案如下图所示: 整个系统的结构如下图所示: RepLoss RepLoss[14]由face++提出,主要目标是解决遮挡问题。行人检测中,密集人群的人体检测一直是一个难题。物体遮挡问题可以分为类内遮挡和类间遮挡两类。类内遮挡指同类物体间相互遮挡,在行人检测中,这种遮挡在所占比例更大,严重影响着行人检测器的性能。 针对这个问题,作者设计也一种称为RepLoss的损失函数,这是一种具有排斥力的损失函数,下图为RepLoss示意图: RepLoss 的组成包括 3 部分,表示为: 其中L_Attr 是吸引项,需要预测框靠近其指定目标;L_RepGT 和 L_RepBox 是排斥项,分别需要当前预测框远离周围其它的真实物体和该目标其它的预测框。系数充当权重以平衡辅助损失。 HyperLearner 文献[25]提出了一种称为HyperLearner的行人检测算法,改进自Faster R-CNN。在文中,作者分析了行人检测的困难之处:行人与背景的区分度低,在拥挤的场景中,准确的定义一个行人非常困难。 作者使用了一些额外的特征来解决这些问题。这些特征包括: apparent-to-semantic channels temporal channels depth channels 为了将这些额外的特征也送入卷积网络进行处理,作者在VGG网络的基础上增加了一个分支网络,与主体网络的特征一起送入RPN进行处理: 其他的基本上遵循了Faster R-CNN框架的处理流程,只是将anchor参数做了改动。在实验中,这种算法相比Faster R-CNN有了精度上的提升。 从上面的回顾也可以看出,与人脸检测相比,行人检测难度要大很多,目前还远称不上已经解决,遮挡、复杂背景下的检测问题还没有解决,要因此还需要学术界和工业界的持续努力。

行人重识别任务的目标是希望在多个不具有重叠区域的摄像场景中实现行人的检索。目前行人重识别根据采用的组件不同可以分为closed-world和open-world两种。closed-world场景相对而言目前研究较深入,其主要针对于不同的应用假设,在多个数据集上都取得较好的性能,比如Market1501,CUHK和DUKE等。 closed-world场景一般研究重点有三部分:深度特征表示学习、深度度量学习和rank优化。而open-world场景则相对更加复杂。本文总结了open-world场景中ReID的五个不同视角,提出了一种AGW基线方法,在多个ReID任务上都取得较好性能。另外,本文还提出了一种新的评估度量 mINP。最后探索了ReID目前亟待解决的一些方向。

基本定义: 非重叠的多个摄像场景中,特定行人的检索问题。具体而言,给定一个待检索的目标行人,ReID希望能够判断这个目标是否出现在不同时刻不同场景不同摄像头的场景中。 基本难点: 行人的视角、图像分辨率变化、光照变化、姿态变化、遮挡,不同模态等。 该综述的不同点:

根据上面五块内容,ReID任务分为closed-world和open-world两类,区别如下:

closed-world场景的一般前提:1)输入时裁剪后的行人图像块;2)有监督学习;3)检索目标一定存在gallery中。 closed-world场景模型一般包含3部分:特征抽取、度量学习和rank 优化。

如下图所示,一般包含四类:

知识点:

ReID的难点包括视角不同,遮挡等,行人区域可能不对齐,这时往往希望通过部件或者区域特征进行对齐。主流趋势是combine全局特征和部件特征。以PDC模型为代表的pose驱动方法,通过pose获得部件信息,然后利用部件的attention进行检索。PCB方式是利用图像均匀划分的典型。其将目标框水平分成6个条带,每个条带进行独立的分类任务学习,在推理阶段将六条条带的特征进行concat表征整体。另外还通过refined part pooling策略增强了部件内部的一致性,具体是计算每个部件与所有像素点的相似度进行重新划分,可以认为是一种non-local的attention。 行人parsing技术能够获得较好的语义部件,提供更对齐的部件特征,但需要额外的pose检测器且由于ReID数据集和Pose数据集的分布差异,易产生错误的pose。均匀划分的策略更灵活,但对严重遮挡和大的背景模糊无能为力。

辅助特征表示学习一般包括额外的标注数据,比如语义标注,和训练样本生成等。

该任务中,每个目标不再是图像区域,而是一段帧序列。

待续(ReID领域新接触,积累不够,综述文章读着好多理解不够深入,先去读具体方法了;( 后面积累了,再回来阅读这个吧。。。留坑)

将行人作为特定的行人检索问题,大多数方法都采用用于图像分类的网络结构作为backbone。其中一些方法通过修改backbone的结果以提取更好的ReID特征,比如对于ResNet50而言,一般将最后一个stage的stripe改为1以增大分辨率(参考文献PCB),或者最后一个pooling层采用自适应的平均池化(这里参考文献是PCB模型,池化时时不同的条带中进行gap),再或者在pooling层后添加具有bn的bottleneck 层(暂停,滚去阅读参考文献75, SVDNet了!(OK,已读完,见 ,和作者说的其实有出入,并不是加了bn,而是希望投影向量正交,从而获得的表观特征在每个维度上相互独立))。 其他的一些为ReID专门设计的网络结构有 FPNN(filter pairing neural network), 通过部件鉴别信息的挖掘同时处理不对齐和遮挡问题(暂停,去读参考文献34,DeepReID (已读, )),[141]提出一种提升邻域差异的层用于捕捉patch特征的差别,进而把这种差异送入后面的层中(感觉类似resnet的思想。(读完, 其实就是提出一种结合了self-attention的part-aware module方法search space中,使用NAS迭代的搜索方法寻找针对于数据集的最优结构,当然说是专门为reid设计的网络结构也没毛病。))

论文地址: 前置文章:10/16、10/17、10/18

本文提出了Point Fractal Network(PF-Net),旨在从不完整的点云数据中恢复点云,克服了之前方法修改现有数据点、引入噪声和产生几何损失的缺点。

由前置文章可知,之前的点云修复方法是输入不完整的点云,输出完整的点云,但这样会导致原有信息的缺失。这篇文章提出PF-Net,主要特点有三个:

网络的整体结构如下:

网络详细推理步骤如下:

损失函数使用完整性损失和对抗损失的加权平均,完整性损失使用L-GAN中提出的CD距离:

对抗损失使用GAN中常见的损失函数

感觉这篇文章对多尺度的运用非常极致,在编码器、解码器和CMLP中都应用了这种思想,最后的效果也非常不错,很值得借鉴。

论文地址:

PointNet提出一种基础的网络结构,可以用于点云分类、部分分割和语义分割等多种任务。在这篇文章之前,点云数据的处理方式是将点云数据转换为多个二维的视图或三维的体素形式,然后应用2D/3D CNN进行处理,但这样引入了多余的体积,效率不高。本文是第一个直接使用点云数据的神经网络。(其实可以这样类比,在二维图像处理中,假设图像是二值化的,传统方法是将这个图像直接丢到CNN里面,但如果背景特别多会比较浪费资源。直接使用点云数据相当于直接将前景像素的坐标输入到神经网络里面,对稀疏数据会有比较好的性能,但因为以下三个问题导致直接使用坐标信息比较困难) 由于点云的排列是无序的(可以想象,点云中任意一点排在前面对点云的表达都是相同的)、点云之间是有相互作用的(相邻的点云才能构成形状)、点云在某些变换下具有不变性(比如旋转不会改变点云的类别)这些特性,要求神经网络既能处理无序的数据,又能捕捉全局的结构特征,同时对刚性变换不敏感。基于这些条件,作者提出了如下的网络结构:

可以简要分析一下网络的工作流程,以点云分类问题为例:

感觉网络的结构虽然简单,但是却很好地满足了点云数据自身特性对神经网络的要求。而且我觉得在图像处理中,也有时候必须用到坐标信息或者一些标量特征,这篇文章的方法对于怎样将这些特征融合进CNN里面也有一定的启发意义。

论文地址:

这篇文章的主要工作是:

首先来看衡量两个点云相似程度的指标部分,作者首先给出了两个距离,EMD和CD:

在计算上,CD更为简便,而且EMD是不可导的。

基于这两种距离,作者引入了三种衡量两个点云相似程度的指标:JSD、Coverage和MMD:

定义了指标后,就可以实现自动编码器和生成模型了。作者提到了四种结构,分别是:

作者同时验证了AE的一些其他功能,比如如果给AE的编码器输入不完整的点云数据,即可训练得到点云复原的模型。使用SVM对低维表示进行分类,即可进行点云分类的任务,证明AE在点云数据形式中的潜在应用较为广泛。

论文地址:

PointNet++针对PointNet提取局部信息能力不强的弊端,提出了一种层次神经网络,可以更好地提取局部信息。其中心思想是将整个点云分割成若干个小部分来提取信息,然后将每个小部分整合成较大的部分,提取更高层次的信息。类似于CNN中卷积和下采样的思想。首先来看网络结构图:

网络大概可以分为两个部分,左边是层次的点云特征提取网络,右边是针对不同任务的解码网络。 特征提取分为若干个set abstraction模块,每个模块又分为采样层、分组层和特征提取层。

得到了较高层次的特征后,对不同的任务需要不同的解码网络。对分类网络来说比较简单,使用全连接即可。对分割网络来说,由于对每个点都需要输出数值,则需要类似上采样的操作。具体的实现作者使用了插值的方法,将较少的点插值到较多的点上去。首先找到插值的目标坐标,然后寻找K个距离最近的已知点,以距离的倒数作为权重,将K个点的特征做加权平均,作为这个点的特征。然后使用之前特征提取中得到的该点的特征与当前特征做一个拼接,即可得到最终特征(类似U-Net的skip connection)。公式如下:

感觉这篇文章和PF-Net的思想差不多,都是希望提取多尺度的特征。但是思路不一样,都值得借鉴。

人脸活体检测论文阅读笔记

屏管家人脸识别的活体检测,说白点就是判断设备抓拍到人的信息是不是活体,比如用照片或视频在摄像头来测试的话,是不可能通过的。,屏管家采用百度深度AI人脸识别就完全可以解决这个问题

活体检测一般是通过人脸做出的一些动作,比如抬头、点头、睁眼、闭眼、张嘴、摇头这些,然后再使用人脸关键点定位和追踪技术,验证是否是本人在操作。比如云脉的人脸识别门禁考勤系统,就是通过活体检测等技术来辨别用户真假与否的。

活体检测为人脸攻击是活体检测一般是通过人脸做出的一些动作,比如抬头、点头、睁眼、闭眼、张嘴、摇头这些,然后再使用人脸关键点定位和追踪技术,验证是否是本人在操作。

系统认为你录入的人脸和当时办卡的录入人脸信息不一致,存在伪造的可能性,所以出现这个提示,无法通过人脸认证。

检测方式:

立体性活体检测用Depth图像判断人脸的3D性,可以防御2D攻击如手机、电脑等显示屏和打印照片。

亚表面检测利用亚表面散射性不同判断人脸皮肤,可以防御非(类)人脸材质假体。

红外FMP检测在暗光环境下,基于红外摄像头及IR泛光图检测。

防止人脸作弊:防止他人用照片、面具等工具在进行人脸检测的时候作弊。

相关百科

热门百科

首页
发表服务